본문 바로가기
Natural Language Processing/Paper review

[논문 리뷰] Reference and Document Aware Semantic Evaluation Methods for Korean Language Summarization

by beeny-ds 2022. 11. 9.

들어가며,,

본 글은 "Kakao Enterprise AI Research" 블로그 글을 참고하였습니다. 논문을 읽지 않고 블로그 글로 리뷰를 했다는 점을 밝힙니다. 블로그 글 원본 링크는 다음과 같습니다.
https://kakaoenterprise.github.io/deepdive/210729

 

텍스트 요약 모델 성능 평가를 위한 새로운 척도, RDASS를 소개합니다.

더 나은 성능의 요약 모델을 만들려면 모델로부터 자동으로 생성된 요약문을 어느 정도로 신뢰할 수 있는지 판별하기 위한 적절한 평가 방법이 있어야 합니다. 문제는 가장 보편적으로 쓰이는

kakaoenterprise.github.io


 

 

기존 요약 task 성능 지표의 한계와 RDASS의 등장 배경

요약 task에서 사용하는 성능 지표는 ROUGE score 이다. 인간이 실제로 요약하는 방식을 생각해 봤을 때, ROUGE의 한계는 명확하다. 인간이 요약을 할 때는 1)"문서에서 핵심 내용을 잘 선택했는가", 2)"문서에 쓰이지 않은 다른 표현이지만 같은 의미를 잘 나타내는가" 2가지가 핵심이다. 하지만 ROUGE score는 주어진 두 문장의 사용된 token(또는 형태소)이 얼마나 일치하는지에 대한 유사도 점수이다. 때문에 2번 핵심은 ROUGE score로 검증하는 데 한계가 있다. 논문에서는 1번의 관점에서도 놓친다고 말하고 있다. (물론 2번의 대안책으로 다른 단어, 같은 의미의 사전을 구축하여 성능 지표에 반영하곤 한다. 하지만 한국어의 특성상 모든 단어의 의미를 반영하는 데에는 한계가 있다.)

또한 사람에 따라 요약하는 방식이 달라지기 때문에 하나의 정답 요약문만을 기준으로 요약 모델을 평가하는 데에는 한계가 있다는 점을 논문에서 문제로 제기하였다.

 

RDASS는 Reference and Document Aware Semantic Score의 줄인말이다. 이 성능 지표는 기존 성능 지표인 ROUGE의 단점인 1)"문서에서 핵심 내용을 잘 선택했는가", 2)"문서에 쓰이지 않은 다른 표현이지만 같은 의미를 잘 나타내는가" 2가지 핵심에 대한 해결책을 제시하였다. 또한 RDASS 성능 지표는 방대한 유의어 사전을 따로 구축할 필요가 없는 평가 척도라고 말한다.


RDASS의 작동 과정

논문에서는 기일~고 자~세히 설명 하지만 필자는 간단하게 설명하고자 한다.

성능 평가 하고자 하는 Domain task를 사용하여 SBERT를 학습시키고 학습시킨 SBERT를 사용하여 문장 embedding을 뽑아 RDASS를 계산한다. 

계산 식은 다음과 같다.

출처: https://kakaoenterprise.github.io/deepdive/210729

위 식은 본문, 정답 문장, 예측 문장 세 개의 관계를 동시에 고려하는 평가 척도인 RDASS의 계산 과정이다.
cos는 cosine similarity를 나타낸다. 본문: d, 정답 문장: r, 예측 문장: p로 나타내었다. v는 문장 embedding인 vector를 의미한다.

필자(Beeny) 첨언: 위 식에서 알 수 있듯이 RDASS는 문장 embedding이 좋은 성능을 보인다. 는 가정으로 성능을 평가한다. 만약 가정이 틀리다면 성능 지표도 틀리게 됨을 주의하자.


연구 결과

어떤 논문이든 연구 결과는 동일하다. "기존의 문제를 해결하여 좋은 성능을 보인다." 로 마무리한다. 증명의 방법은 사람의 평가 결과와 RDASS 평가 지표가 얼마나 유사한지, 기존의 평가 지표인 ROUGE score와 비교하였을 때 얼마나 좋은 성능 지표인지를 비교하였다.

출처: https://kakaoenterprise.github.io/deepdive/210729

위 그림은 RDASS와 사람 평가 방식의 상관관계를 나타낸 그래프이다.

추가로 향후 계획은 이렇다 저렇다 언급하였는데 한 번쯤은 자세히 읽으면 좋을 내용이다.


 

마치며,,

필자는 모든 연구는 존엄하고 가치가 있다고 생각하기 때문에 맹목적인 비판은 하지 않는다. 본 연구 또한 그렇다. 요약 task에서 문장의 문맥을 고려하여 성능을 평가하는 방법은 오랜 시간 연구되었기 때문에 본 논문의 연구 결과는 충분한 가치가 있다고 생각한다. 또한 RDASS가 얼마나 좋은 성능 지표인지를 사람의 평가와 비교한 실험도 좋았다고 생각한다.

재밌고 좋은 실험 및 내용이었지만 RDASS를 사용하기 위해서는 위험성이 존재한다고 생각한다. 가정이 들어가기 때문이다. SBERT로 추출한 embedding이 얼마나 문장의 의미를 잘 내포하고 있는지가 중요하다. RDASS 성능 지표의 출발은 문장 embedding이기 때문이다. 이 출발이 잘못되면 계산된 성능 지표도 잘못된 결과를 보이는 점이 위험하다고 생각한다. 때문에 후속 연구로 SBERT의 embedding이 얼마나 문장의 의미를 잘 내포하는지에 대한 성능 지표 또한 필요하지 않을까? 라고 생각한다. 물론 해당 연구는 SimCSE 논문 이후의 많은 논문들로부터 연구되어지고 있기 때문에 본 논문의 성능 지표인 RDASS의 근거를 뒷받침할 근거들이 생겨날 것이라고 희망찬 미래를 꿈꾼다.

최근 많이 하는 생각이지만 문장이든 이미지든 어떤 것이든 embedding으로 변환하는 연구가 많아지고 있는 것 같다. 많아진다는 의미는 그만큼 중요하다는 의미 아닐까? 그렇기 때문에 필자는 더 깊이 embedding이 가지는 의미에 대해 연구해보고 싶다는 작은? 꿈을 가지고 있다. 일단 꿈은 잠시 접어두고 저녁이나 먹으러 가야겠다. :)

반응형

댓글