일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- grefcoco dataset
- 원격 학습 안끊기게
- 대학원 일상
- 논문 리뷰
- 에지 검출
- mobilenetv1
- object detection
- 기계학습
- gsoc 후기
- res paper
- Object detection article
- 이미지 필터링
- 논문 요약
- clip
- 2호선 따라걷기
- vlm
- 딥러닝 엔트로피
- 딥러닝 목적함수
- 2호선 완주
- gres
- blip-2
- grefcoco
- clip adapter
- 1차 미분 마스크
- res
- gsoc midterm evaluations
- 엔트로피란
- referring expression segmentation
- gsoc 2025
- 객체 검출
- Today
- Total
My Vision, Computer Vision
[논문 요약/리뷰] ROUGE: A Package for Automatic Evaluation of Summaries 본문
ROUGE: A Package for Automatic Evaluation of Summaries
Published Date: 2004년 7월 1일
ROUGE: A Package for Automatic Evaluation of Summaries
Chin-Yew Lin. Text Summarization Branches Out. 2004.
aclanthology.org
Abstract
- ROUGE는 기계 요약 성능을 측정하기 위해 만들어진 평가 지표이다.
- ROUGE는 Recall-Oriented Understudy for Gisting Evaluation의 약자이다.
- 기계가 요약한 내용과 인간이 요약한(이상적인) 내용의 오버래핑을 카운트하는 평가 지표이다.
Methods
- 본 논문에서 제안하는 ROUGE는 4가지로, ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S이다.
ROUGE-N : N-gram Co-Occurrence Statistics
$$\mathrm {ROUGE-N} = \frac{\sum_{S\in {ReferenceSummaries}gram_n \in s}\sum Count_{match}(gram_n)}{\sum_{S\in{ReferenceSummaries}gram_n \in S}\sum Count(gram_n)}$$
- 위 수식은 ROUGE-N에 대한 수식이다.
- $n$ 은 N-gram에서의 N이고, $Count_{match}(gram_n)$ 은 후보 요약과 참조 요약 사이 오버래핑되는 N-gram의 개수이다.
- ROUGE-N은 실제 정답 중 모델이 예측한 정답 비율인 Recall로, 여기서 실제 정답은 Reference이므로, 분모는 Reference의 N-gram의 총 개수 합이 된다.
- Reference가 여러개인 경우 모든 Reference $r_i$ 에 대해 ROUGE-N을 구한 후 최대값을 선택한다. 수식은 아래와 같다.
$$ROUGE-N_{multi} = \mathrm {argmax}_i ROUGE-N(r_i, s)$$
ROUGE-L : Longest Common Subsequence
- LCS(Longest Common Subsequence)란 최장 공통 수열로, 두 개의 문장 $X, Y$ 가 있을 때, 공통 부분의 최대 길이를 의미한다.
- 예를 들어 “나는 학교에 간다.” 와 “나는 친구와 학교에 간다.” 라는 두 개의 문장에서 LCS는 “나는 학교에 간다.”인 것이다.
- Reference $X$ 의 길이를 $m$, Candidate $Y$ 의 길이를 $n$ 이라고 할 때, Recall, Precision, F-measure은 아래와 같다.
$$R_{lcs} = \frac{\mathrm {LCS}(X, Y)}{m} \ P_{lcs} = \frac{\mathrm {LCS}(X,Y)}{n} \ F_{lcs} = \frac{(1+\beta^2)R_{lcs}P_{lcs}}{R_{lcs}+ \beta^2P_{lcs}}$$
- 위 수식은 문장 단위에서 LCS를 계산하는 수식인데, 이제 이를 요약 단위로 확장해야 한다.
- Reference($r_i$)는 $u$ 개의 문장, $m$ 개의 단어로 구성되고 Cadidate($C$)는 $v$ 개의 문장, $n$ 개의 단어로 구성될 때, 요약 단위 LCS는 아래와 같다.
$$R_{lcs} =\frac{\sum^u_{i=1}LCS_{\cup}(r_i,C)}{m} \ P_{lcs} = \frac{\sum^u_{i=1}LCS_{\cup}(r_i, C)}{m} \ F_{lcs} = \frac{(1+\beta^2R_{lcs}P_{lcs})}{R_{lcs}+\beta^2P_{lcs}}$$
- 예를 들어 $r_i=w_1w_2w_3w_4w_5$ 이고, $c_1=w_1w_2w_6w_7w_8, c_2=w_1w_3w_8w_9w_5$ 일 때, $LCS(r_i, c_1) = w_1w_2, LCS(r_i, c_2) = w_1 w_3w_5$ 이다.
- 따라서 $LCS_{\cup}(r_i, C) = w_1w_2w_3w_5$ 가 된다.
ROUGE-W : Weighted Longest Common Sub-sequence
- ROUGE-L은 단어 배치를 고려하지 않는다는 문제가 있다.
- 예를 들어 아래와 같은 배열에서
- X : [A B C D E F G]
- Y1 : [A B C D H I K]
- Y2 : [A H B K C I D]
- Y1와 Y2의 ROUGE-L은 같지만, 사실상 연속으로 공통된 Y1에게 더 높은 점수를 주어야한다.
- ROUGE-W는 이렇게 연속적인 경우, 더 가중치를 부여하는 지표이다.
ROUGE-S : Skip-Bigram Co-Occurrence Statistics
- ROUGE-S는 Reference와 Candidate 간 일치하는 Skip-Bigram을 카운트하는 지표이다.
- Skip-Bigram이란, 간격을 허용한 Bigram이다. 아래 예시에서 Bigram과 Skip-Bigram을 각각 찾아보자.
- Reference : police killed the gunman
- Candidate : police kill the gun man
- Bigram
- Reference : [”police killed”, “killed the”, “the gunman”]
- Candidate : [”police kill”, “kill the”, “the gunman”]
- Skip-Bigram
- Reference : [”police killed”, “police the”, “police gunman”, “killed the”, “killed gunman”, “the gunman”]
- Candidate : [”police kill”, “police the”, “police gunman”, “kill the”, “kill gunman”, “the gunman”]
- 즉 Skip-Bigram의 길이는 조합(Combination)으로 표현 가능하다. $C(4,2) =6$
- Reference와 Candidate의 Skip-Bigram 집합에서, 공통된 부분은 [”police the”, “police gunman”, “the gunman”] 3개이다.
- 따라서 수식으로 나타내면 아래와 같다.
$$R_{skip2}= \frac{SKIP2(X,Y)}{C(m,2)} \ P_{skip2}=\frac{SKIP2(X,Y)}{C(n,2)} \ F_{skip2} = \frac{(1+\beta^2)R_{skip2}P_{skip2}}{R_{skip2}+\beta^2P_{skip2}}$$
- 예시를 토대로 Score를 계산해보자. $m=n=4$ 이므로
- $R_{skip2} = \frac{3}{6} =0.5$
- $P_{skip_2} = \frac{3}{6} = 0.5$
- $\beta = 1$ 로 가정하면, $F_{skip2} = \frac{(1+1)0.5*0.5}{0.5 + 1^20.5} = 0.5$ 이다.
'공부' 카테고리의 다른 글
[논문 요약/리뷰] Evaluating Object Hallucination in Large Vision-Language Models (0) | 2025.03.31 |
---|---|
[딥러닝 공부] Vision-Language Evaluation Metrics(VLM 벤치마크 평가 지표) (0) | 2025.02.28 |
[논문 리뷰/요약] LLaVA : Visual Instruction Tuning (0) | 2025.02.02 |
[딥러닝 공부] KL Divergence와 Cross Entropy (0) | 2025.01.26 |
[딥러닝 공부] Bernoulli Distribution, Laplace Distribution(베르누이 분포, 라플라스 분포) (0) | 2025.01.15 |