My Vision, Computer Vision

[논문 요약/리뷰] ROUGE: A Package for Automatic Evaluation of Summaries 본문

공부

[논문 요약/리뷰] ROUGE: A Package for Automatic Evaluation of Summaries

gyuilLim 2025. 2. 27. 19:22

ROUGE: A Package for Automatic Evaluation of Summaries

Published Date: 2004년 7월 1일

 

ROUGE: A Package for Automatic Evaluation of Summaries

Chin-Yew Lin. Text Summarization Branches Out. 2004.

aclanthology.org


Abstract

  • ROUGE는 기계 요약 성능을 측정하기 위해 만들어진 평가 지표이다.
  • ROUGERecall-Oriented Understudy for Gisting Evaluation의 약자이다.
  • 기계가 요약한 내용과 인간이 요약한(이상적인) 내용의 오버래핑을 카운트하는 평가 지표이다.

Methods

  • 본 논문에서 제안하는 ROUGE는 4가지로, ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S이다.

ROUGE-N : N-gram Co-Occurrence Statistics

ROUGEN=SReferenceSummariesgramnsCountmatch(gramn)SReferenceSummariesgramnSCount(gramn)

  • 위 수식은 ROUGE-N에 대한 수식이다.
  • n 은 N-gram에서의 N이고, Countmatch(gramn) 은 후보 요약과 참조 요약 사이 오버래핑되는 N-gram의 개수이다.
  • ROUGE-N은 실제 정답 중 모델이 예측한 정답 비율인 Recall로, 여기서 실제 정답은 Reference이므로, 분모는 Reference의 N-gram의 총 개수 합이 된다.
  • Reference가 여러개인 경우 모든 Reference ri 에 대해 ROUGE-N을 구한 후 최대값을 선택한다. 수식은 아래와 같다.

ROUGENmulti=argmaxiROUGEN(ri,s)


ROUGE-L : Longest Common Subsequence

  • LCS(Longest Common Subsequence)란 최장 공통 수열로, 두 개의 문장 X,Y 가 있을 때, 공통 부분의 최대 길이를 의미한다.
  • 예를 들어 “나는 학교에 간다.”“나는 친구와 학교에 간다.” 라는 두 개의 문장에서 LCS는 “나는 학교에 간다.”인 것이다.
  • Reference X 의 길이를 m, Candidate Y 의 길이를 n 이라고 할 때, Recall, Precision, F-measure은 아래와 같다.

Rlcs=LCS(X,Y)m Plcs=LCS(X,Y)n Flcs=(1+β2)RlcsPlcsRlcs+β2Plcs

  • 위 수식은 문장 단위에서 LCS를 계산하는 수식인데, 이제 이를 요약 단위로 확장해야 한다.
  • Reference(ri)는 u 개의 문장, m 개의 단어로 구성되고 Cadidate(C)는 v 개의 문장, n 개의 단어로 구성될 때, 요약 단위 LCS는 아래와 같다.

Rlcs=ui=1LCS(ri,C)m Plcs=ui=1LCS(ri,C)m Flcs=(1+β2RlcsPlcs)Rlcs+β2Plcs

  • 예를 들어 ri=w1w2w3w4w5 이고, c1=w1w2w6w7w8,c2=w1w3w8w9w5 일 때, LCS(ri,c1)=w1w2,LCS(ri,c2)=w1w3w5 이다.
  • 따라서 LCS(ri,C)=w1w2w3w5 가 된다.

ROUGE-W : Weighted Longest Common Sub-sequence

  • ROUGE-L은 단어 배치를 고려하지 않는다는 문제가 있다.
  • 예를 들어 아래와 같은 배열에서
    • X : [A B C D E F G]
    • Y1 : [A B C D H I K]
    • Y2 : [A H B K C I D]
  • Y1와 Y2의 ROUGE-L은 같지만, 사실상 연속으로 공통된 Y1에게 더 높은 점수를 주어야한다.
  • ROUGE-W는 이렇게 연속적인 경우, 더 가중치를 부여하는 지표이다.

ROUGE-S : Skip-Bigram Co-Occurrence Statistics

  • ROUGE-S는 Reference와 Candidate 간 일치하는 Skip-Bigram을 카운트하는 지표이다.
  • Skip-Bigram이란, 간격을 허용한 Bigram이다. 아래 예시에서 Bigram과 Skip-Bigram을 각각 찾아보자.
    • Reference : police killed the gunman
    • Candidate : police kill the gun man
  • Bigram
    • Reference : [”police killed”, “killed the”, “the gunman”]
    • Candidate : [”police kill”, “kill the”, “the gunman”]
  • Skip-Bigram
    • Reference : [”police killed”, “police the”, “police gunman”, “killed the”, “killed gunman”, “the gunman”]
    • Candidate : [”police kill”, “police the”, “police gunman”, “kill the”, “kill gunman”, “the gunman”]
    • Skip-Bigram의 길이는 조합(Combination)으로 표현 가능하다. C(4,2)=6
  • ReferenceCandidate의 Skip-Bigram 집합에서, 공통된 부분은 [”police the”, “police gunman”, “the gunman”] 3개이다.
  • 따라서 수식으로 나타내면 아래와 같다.

Rskip2=SKIP2(X,Y)C(m,2) Pskip2=SKIP2(X,Y)C(n,2) Fskip2=(1+β2)Rskip2Pskip2Rskip2+β2Pskip2

  • 예시를 토대로 Score를 계산해보자. m=n=4 이므로
  • Rskip2=36=0.5
  • Pskip2=36=0.5
  • β=1 로 가정하면, Fskip2=(1+1)0.50.50.5+120.5=0.5 이다.

 

728x90