ROUGE: A Package for Automatic Evaluation of Summaries

Published Date: 2004년 7월 1일

Chin-Yew Lin. Text Summarization Branches Out. 2004.

aclanthology.org

Abstract

ROUGE는 기계 요약 성능을 측정하기 위해 만들어진 평가 지표이다.
ROUGE는 Recall-Oriented Understudy for Gisting Evaluation의 약자이다.
기계가 요약한 내용과 인간이 요약한(이상적인) 내용의 오버래핑을 카운트하는 평가 지표이다.

Methods

본 논문에서 제안하는 ROUGE는 4가지로, ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S이다.

ROUGE-N : N-gram Co-Occurrence Statistics

$\mathrm {ROUGE-N} = \frac{\sum_{S\in {ReferenceSummaries}gram_n \in s}\sum Count_{match}(gram_n)}{\sum_{S\in{ReferenceSummaries}gram_n \in S}\sum Count(gram_n)}$

위 수식은 ROUGE-N에 대한 수식이다.
$n$ 은 N-gram에서의 N이고, $Count_{match}(gram_n)$ 은 후보 요약과 참조 요약 사이 오버래핑되는 N-gram의 개수이다.

ROUGE-N은 실제 정답 중 모델이 예측한 정답 비율인 Recall로, 여기서 실제 정답은 Reference이므로, 분모는 Reference의 N-gram의 총 개수 합이 된다.
Reference가 여러개인 경우 모든 Reference $r_i$ 에 대해 ROUGE-N을 구한 후 최대값을 선택한다. 수식은 아래와 같다.

$ROUGE-N_{multi} = \mathrm {argmax}_i ROUGE-N(r_i, s)$

ROUGE-L : Longest Common Subsequence

LCS(Longest Common Subsequence)란 최장 공통 수열로, 두 개의 문장 $X, Y$ 가 있을 때, 공통 부분의 최대 길이를 의미한다.
예를 들어 “나는 학교에 간다.” 와 “나는 친구와 학교에 간다.” 라는 두 개의 문장에서 LCS는 “나는 학교에 간다.”인 것이다.
Reference $X$ 의 길이를 $m$ , Candidate $Y$ 의 길이를 $n$ 이라고 할 때, Recall, Precision, F-measure은 아래와 같다.

$R_{lcs} = \frac{\mathrm {LCS}(X, Y)}{m} \ P_{lcs} = \frac{\mathrm {LCS}(X,Y)}{n} \ F_{lcs} = \frac{(1+\beta^2)R_{lcs}P_{lcs}}{R_{lcs}+ \beta^2P_{lcs}}$

위 수식은 문장 단위에서 LCS를 계산하는 수식인데, 이제 이를 요약 단위로 확장해야 한다.
Reference( $r_i$ )는 $u$ 개의 문장, $m$ 개의 단어로 구성되고 Cadidate( $C$ )는 $v$ 개의 문장, $n$ 개의 단어로 구성될 때, 요약 단위 LCS는 아래와 같다.

$R_{lcs} =\frac{\sum^u_{i=1}LCS_{\cup}(r_i,C)}{m} \ P_{lcs} = \frac{\sum^u_{i=1}LCS_{\cup}(r_i, C)}{m} \ F_{lcs} = \frac{(1+\beta^2R_{lcs}P_{lcs})}{R_{lcs}+\beta^2P_{lcs}}$

예를 들어 $r_i=w_1w_2w_3w_4w_5$ 이고, $c_1=w_1w_2w_6w_7w_8, c_2=w_1w_3w_8w_9w_5$ 일 때, $LCS(r_i, c_1) = w_1w_2, LCS(r_i, c_2) = w_1 w_3w_5$ 이다.
따라서 $LCS_{\cup}(r_i, C) = w_1w_2w_3w_5$ 가 된다.

ROUGE-W : Weighted Longest Common Sub-sequence

ROUGE-L은 단어 배치를 고려하지 않는다는 문제가 있다.
예를 들어 아래와 같은 배열에서
- X : [A B C D E F G]
- Y1 : [A B C D H I K]
- Y2 : [A H B K C I D]
Y1와 Y2의 ROUGE-L은 같지만, 사실상 연속으로 공통된 Y1에게 더 높은 점수를 주어야한다.
ROUGE-W는 이렇게 연속적인 경우, 더 가중치를 부여하는 지표이다.

ROUGE-S : Skip-Bigram Co-Occurrence Statistics

ROUGE-S는 Reference와 Candidate 간 일치하는 Skip-Bigram을 카운트하는 지표이다.
Skip-Bigram이란, 간격을 허용한 Bigram이다. 아래 예시에서 Bigram과 Skip-Bigram을 각각 찾아보자.
- Reference : police killed the gunman
- Candidate : police kill the gun man
Bigram
- Reference : [”police killed”, “killed the”, “the gunman”]
- Candidate : [”police kill”, “kill the”, “the gunman”]
Skip-Bigram
- Reference : [”police killed”, “police the”, “police gunman”, “killed the”, “killed gunman”, “the gunman”]
- Candidate : [”police kill”, “police the”, “police gunman”, “kill the”, “kill gunman”, “the gunman”]
- 즉 Skip-Bigram의 길이는 조합(Combination)으로 표현 가능하다. $C(4,2) =6$
Reference와 Candidate의 Skip-Bigram 집합에서, 공통된 부분은 [”police the”, “police gunman”, “the gunman”] 3개이다.
따라서 수식으로 나타내면 아래와 같다.

$R_{skip2}= \frac{SKIP2(X,Y)}{C(m,2)} \ P_{skip2}=\frac{SKIP2(X,Y)}{C(n,2)} \ F_{skip2} = \frac{(1+\beta^2)R_{skip2}P_{skip2}}{R_{skip2}+\beta^2P_{skip2}}$

예시를 토대로 Score를 계산해보자. $m=n=4$ 이므로
$R_{skip2} = \frac{3}{6} =0.5$
$P_{skip_2} = \frac{3}{6} = 0.5$
$\beta = 1$ 로 가정하면, $F_{skip2} = \frac{(1+1)0.5*0.5}{0.5 + 1^20.5} = 0.5$ 이다.