공부
[논문 요약/리뷰] ROUGE: A Package for Automatic Evaluation of Summaries
gyuilLim
2025. 2. 27. 19:22
ROUGE: A Package for Automatic Evaluation of Summaries
Published Date: 2004년 7월 1일
ROUGE: A Package for Automatic Evaluation of Summaries
Chin-Yew Lin. Text Summarization Branches Out. 2004.
aclanthology.org
Abstract
- ROUGE는 기계 요약 성능을 측정하기 위해 만들어진 평가 지표이다.
- ROUGE는 Recall-Oriented Understudy for Gisting Evaluation의 약자이다.
- 기계가 요약한 내용과 인간이 요약한(이상적인) 내용의 오버래핑을 카운트하는 평가 지표이다.
Methods
- 본 논문에서 제안하는 ROUGE는 4가지로, ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S이다.
ROUGE-N : N-gram Co-Occurrence Statistics
ROUGE−N=∑S∈ReferenceSummariesgramn∈s∑Countmatch(gramn)∑S∈ReferenceSummariesgramn∈S∑Count(gramn)
- 위 수식은 ROUGE-N에 대한 수식이다.
- n 은 N-gram에서의 N이고, Countmatch(gramn) 은 후보 요약과 참조 요약 사이 오버래핑되는 N-gram의 개수이다.
- ROUGE-N은 실제 정답 중 모델이 예측한 정답 비율인 Recall로, 여기서 실제 정답은 Reference이므로, 분모는 Reference의 N-gram의 총 개수 합이 된다.
- Reference가 여러개인 경우 모든 Reference ri 에 대해 ROUGE-N을 구한 후 최대값을 선택한다. 수식은 아래와 같다.
ROUGE−Nmulti=argmaxiROUGE−N(ri,s)
ROUGE-L : Longest Common Subsequence
- LCS(Longest Common Subsequence)란 최장 공통 수열로, 두 개의 문장 X,Y 가 있을 때, 공통 부분의 최대 길이를 의미한다.
- 예를 들어 “나는 학교에 간다.” 와 “나는 친구와 학교에 간다.” 라는 두 개의 문장에서 LCS는 “나는 학교에 간다.”인 것이다.
- Reference X 의 길이를 m, Candidate Y 의 길이를 n 이라고 할 때, Recall, Precision, F-measure은 아래와 같다.
Rlcs=LCS(X,Y)m Plcs=LCS(X,Y)n Flcs=(1+β2)RlcsPlcsRlcs+β2Plcs
- 위 수식은 문장 단위에서 LCS를 계산하는 수식인데, 이제 이를 요약 단위로 확장해야 한다.
- Reference(ri)는 u 개의 문장, m 개의 단어로 구성되고 Cadidate(C)는 v 개의 문장, n 개의 단어로 구성될 때, 요약 단위 LCS는 아래와 같다.
Rlcs=∑ui=1LCS∪(ri,C)m Plcs=∑ui=1LCS∪(ri,C)m Flcs=(1+β2RlcsPlcs)Rlcs+β2Plcs
- 예를 들어 ri=w1w2w3w4w5 이고, c1=w1w2w6w7w8,c2=w1w3w8w9w5 일 때, LCS(ri,c1)=w1w2,LCS(ri,c2)=w1w3w5 이다.
- 따라서 LCS∪(ri,C)=w1w2w3w5 가 된다.
ROUGE-W : Weighted Longest Common Sub-sequence
- ROUGE-L은 단어 배치를 고려하지 않는다는 문제가 있다.
- 예를 들어 아래와 같은 배열에서
- X : [A B C D E F G]
- Y1 : [A B C D H I K]
- Y2 : [A H B K C I D]
- Y1와 Y2의 ROUGE-L은 같지만, 사실상 연속으로 공통된 Y1에게 더 높은 점수를 주어야한다.
- ROUGE-W는 이렇게 연속적인 경우, 더 가중치를 부여하는 지표이다.
ROUGE-S : Skip-Bigram Co-Occurrence Statistics
- ROUGE-S는 Reference와 Candidate 간 일치하는 Skip-Bigram을 카운트하는 지표이다.
- Skip-Bigram이란, 간격을 허용한 Bigram이다. 아래 예시에서 Bigram과 Skip-Bigram을 각각 찾아보자.
- Reference : police killed the gunman
- Candidate : police kill the gun man
- Bigram
- Reference : [”police killed”, “killed the”, “the gunman”]
- Candidate : [”police kill”, “kill the”, “the gunman”]
- Skip-Bigram
- Reference : [”police killed”, “police the”, “police gunman”, “killed the”, “killed gunman”, “the gunman”]
- Candidate : [”police kill”, “police the”, “police gunman”, “kill the”, “kill gunman”, “the gunman”]
- 즉 Skip-Bigram의 길이는 조합(Combination)으로 표현 가능하다. C(4,2)=6
- Reference와 Candidate의 Skip-Bigram 집합에서, 공통된 부분은 [”police the”, “police gunman”, “the gunman”] 3개이다.
- 따라서 수식으로 나타내면 아래와 같다.
Rskip2=SKIP2(X,Y)C(m,2) Pskip2=SKIP2(X,Y)C(n,2) Fskip2=(1+β2)Rskip2Pskip2Rskip2+β2Pskip2
- 예시를 토대로 Score를 계산해보자. m=n=4 이므로
- Rskip2=36=0.5
- Pskip2=36=0.5
- β=1 로 가정하면, Fskip2=(1+1)0.5∗0.50.5+120.5=0.5 이다.
728x90