반응형
250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 엔트로피란
- vlm hallucination paper
- blip-2
- 이미지 필터링
- dinov2: learning robust visual features without supervision 논문
- 1차 미분 마스크
- mobilenetv1
- dinov2: learning robust visual features without supervision
- polling-based object probing evaluation
- evaluating object hallucination in large vision-language models paper
- 논문 요약
- 기계학습
- 원격 학습 안끊기게
- evaluating object hallucination in large vision-language models 논문
- clip
- object detection
- vlm 환각
- dinov2: learning robust visual features without supervision 논문 리뷰
- Object detection article
- evaluating object hallucination in large vision-language models
- 딥러닝 엔트로피
- 논문 리뷰
- vlm 환각이란
- clip adapter
- 에지 검출
- 딥러닝 목적함수
- dinov2 논문 리뷰
- 객체 검출
- vlm hallucination
- vlm
Archives
- Today
- Total
My Vision, Computer Vision
[논문 요약/리뷰] ROUGE: A Package for Automatic Evaluation of Summaries 본문
ROUGE: A Package for Automatic Evaluation of Summaries
Published Date: 2004년 7월 1일
ROUGE: A Package for Automatic Evaluation of Summaries
Chin-Yew Lin. Text Summarization Branches Out. 2004.
aclanthology.org
Abstract
- ROUGE는 기계 요약 성능을 측정하기 위해 만들어진 평가 지표이다.
- ROUGE는 Recall-Oriented Understudy for Gisting Evaluation의 약자이다.
- 기계가 요약한 내용과 인간이 요약한(이상적인) 내용의 오버래핑을 카운트하는 평가 지표이다.
Methods
- 본 논문에서 제안하는 ROUGE는 4가지로, ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S이다.
ROUGE-N : N-gram Co-Occurrence Statistics
ROUGE−N=∑S∈ReferenceSummariesgramn∈s∑Countmatch(gramn)∑S∈ReferenceSummariesgramn∈S∑Count(gramn)
- 위 수식은 ROUGE-N에 대한 수식이다.
- n 은 N-gram에서의 N이고, Countmatch(gramn) 은 후보 요약과 참조 요약 사이 오버래핑되는 N-gram의 개수이다.
- ROUGE-N은 실제 정답 중 모델이 예측한 정답 비율인 Recall로, 여기서 실제 정답은 Reference이므로, 분모는 Reference의 N-gram의 총 개수 합이 된다.
- Reference가 여러개인 경우 모든 Reference ri 에 대해 ROUGE-N을 구한 후 최대값을 선택한다. 수식은 아래와 같다.
ROUGE−Nmulti=argmaxiROUGE−N(ri,s)
ROUGE-L : Longest Common Subsequence
- LCS(Longest Common Subsequence)란 최장 공통 수열로, 두 개의 문장 X,Y 가 있을 때, 공통 부분의 최대 길이를 의미한다.
- 예를 들어 “나는 학교에 간다.” 와 “나는 친구와 학교에 간다.” 라는 두 개의 문장에서 LCS는 “나는 학교에 간다.”인 것이다.
- Reference X 의 길이를 m, Candidate Y 의 길이를 n 이라고 할 때, Recall, Precision, F-measure은 아래와 같다.
Rlcs=LCS(X,Y)m Plcs=LCS(X,Y)n Flcs=(1+β2)RlcsPlcsRlcs+β2Plcs
- 위 수식은 문장 단위에서 LCS를 계산하는 수식인데, 이제 이를 요약 단위로 확장해야 한다.
- Reference(ri)는 u 개의 문장, m 개의 단어로 구성되고 Cadidate(C)는 v 개의 문장, n 개의 단어로 구성될 때, 요약 단위 LCS는 아래와 같다.
Rlcs=∑ui=1LCS∪(ri,C)m Plcs=∑ui=1LCS∪(ri,C)m Flcs=(1+β2RlcsPlcs)Rlcs+β2Plcs
- 예를 들어 ri=w1w2w3w4w5 이고, c1=w1w2w6w7w8,c2=w1w3w8w9w5 일 때, LCS(ri,c1)=w1w2,LCS(ri,c2)=w1w3w5 이다.
- 따라서 LCS∪(ri,C)=w1w2w3w5 가 된다.
ROUGE-W : Weighted Longest Common Sub-sequence
- ROUGE-L은 단어 배치를 고려하지 않는다는 문제가 있다.
- 예를 들어 아래와 같은 배열에서
- X : [A B C D E F G]
- Y1 : [A B C D H I K]
- Y2 : [A H B K C I D]
- Y1와 Y2의 ROUGE-L은 같지만, 사실상 연속으로 공통된 Y1에게 더 높은 점수를 주어야한다.
- ROUGE-W는 이렇게 연속적인 경우, 더 가중치를 부여하는 지표이다.
ROUGE-S : Skip-Bigram Co-Occurrence Statistics
- ROUGE-S는 Reference와 Candidate 간 일치하는 Skip-Bigram을 카운트하는 지표이다.
- Skip-Bigram이란, 간격을 허용한 Bigram이다. 아래 예시에서 Bigram과 Skip-Bigram을 각각 찾아보자.
- Reference : police killed the gunman
- Candidate : police kill the gun man
- Bigram
- Reference : [”police killed”, “killed the”, “the gunman”]
- Candidate : [”police kill”, “kill the”, “the gunman”]
- Skip-Bigram
- Reference : [”police killed”, “police the”, “police gunman”, “killed the”, “killed gunman”, “the gunman”]
- Candidate : [”police kill”, “police the”, “police gunman”, “kill the”, “kill gunman”, “the gunman”]
- 즉 Skip-Bigram의 길이는 조합(Combination)으로 표현 가능하다. C(4,2)=6
- Reference와 Candidate의 Skip-Bigram 집합에서, 공통된 부분은 [”police the”, “police gunman”, “the gunman”] 3개이다.
- 따라서 수식으로 나타내면 아래와 같다.
Rskip2=SKIP2(X,Y)C(m,2) Pskip2=SKIP2(X,Y)C(n,2) Fskip2=(1+β2)Rskip2Pskip2Rskip2+β2Pskip2
- 예시를 토대로 Score를 계산해보자. m=n=4 이므로
- Rskip2=36=0.5
- Pskip2=36=0.5
- β=1 로 가정하면, Fskip2=(1+1)0.5∗0.50.5+120.5=0.5 이다.
728x90
'공부' 카테고리의 다른 글
[논문 요약/리뷰] Evaluating Object Hallucination in Large Vision-Language Models (0) | 2025.03.31 |
---|---|
[딥러닝 공부] Vision-Language Evaluation Metrics(VLM 벤치마크 평가 지표) (0) | 2025.02.28 |
[논문 리뷰/요약] LLaVA : Visual Instruction Tuning (0) | 2025.02.02 |
[딥러닝 공부] KL Divergence와 Cross Entropy (0) | 2025.01.26 |
[딥러닝 공부] Bernoulli Distribution, Laplace Distribution(베르누이 분포, 라플라스 분포) (0) | 2025.01.15 |