반응형
250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 논문 요약
- evaluating object hallucination in large vision-language models 논문
- 논문 리뷰
- mobilenetv1
- evaluating object hallucination in large vision-language models
- dinov2: learning robust visual features without supervision
- 이미지 필터링
- clip adapter
- 딥러닝 목적함수
- dinov2: learning robust visual features without supervision 논문 리뷰
- 에지 검출
- 엔트로피란
- 객체 검출
- blip-2
- Object detection article
- 1차 미분 마스크
- clip
- vlm 환각
- polling-based object probing evaluation
- dinov2: learning robust visual features without supervision 논문
- object detection
- 기계학습
- 원격 학습 안끊기게
- dinov2 논문 리뷰
- vlm 환각이란
- evaluating object hallucination in large vision-language models paper
- vlm hallucination paper
- vlm hallucination
- 딥러닝 엔트로피
- vlm
Archives
- Today
- Total
My Vision, Computer Vision
[논문 요약/리뷰] METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments 본문
카테고리 없음
[논문 요약/리뷰] METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments
gyuilLim 2025. 2. 25. 17:02METEOR 논문 링크 : https://aclanthology.org/W05-0909.pdf
Published Date : 2005년 6월 1일
Keyword : Evaluation Metric, METEOR score
BLEU의 한계를 설명하며 그 부분을 보완한 평가 지표인 METEOR를 제안하는 논문이다.
Problem
- BLEU가 제안된 후 기계 번역에서 Automatic Metric에 대한 관심이 증가하고 있다.
- 기계번역(Machine Translation, MT)에서 자동화된 메트릭의 주요 핵심은 사람이 평가하는 것과 밀접한 상관 관계가 있어야 한다는 것이다.
- 하지만 BLEU score는 Recall을 고려하지 않는다.
- 또한 높은 차수(~4)의 N-gram을 사용해서 단어의 순서에 대한 평가를 하는데, 이는 문법적인 평가를 간과할 수 있다.
- 그리고 단어와 단어 사이 똑같이 일치하는 경우에만 매칭을 시키기 때문에, 동의어 같은 경우는 고려되지 않는다.
- 본 논문에서는 BLEU를 보완한 평가 지표인 METEOR(Metric for Evaluation of Translation with Explicit ORdering)를 제안한다.
Methods
- BLEU와 마찬가지로, METEOR 스코어를 측정하기 위해 기계 번역(System)과 참조 번역(Reference)이 필요하다.
- 기계 번역과 참조 번역 사이 두 단계의 과정을 거쳐 유니그램 매핑을 만들어낸다.
First step - Mapping
- 먼저 첫번째 단계는 세 가지 모듈을 통해 기계 번역을 참조 번역으로 매핑한다.
- 예를 들어 기계 번역과 참조 번역이 다음과 같다고 하자.
- 기계 번역(System) : The cat is sleeping on the mat.
- 참조 번역(Reference) : The feline sleeps on that mat.
- 기계 번역을 참조 번역에 매핑시키기 위해 사용되는 세가지 모듈은 다음과 같다.
- Exact 모듈 : 단어와 단어가 정확이 일치할 경우 매핑.
- Porter stem 모듈 : 형태소가 동일한 경우 매핑.
- WN synonymy 모듈 : 동의어인 경우 매핑.
- 결과적으로 The(Exact), cat(feline, WN synonymy), sleeping(sleeps, Porter stem), on(Exact), mat(Exact) 가 매핑된다.
Second step - Alignment
- 만약 여러 개의 매핑 집합이 만들어지는 경우, 더 많은 유니그램이 매핑된 집합을 선택한다.
- 매핑된 유니그램의 개수도 같은 경우, Cross가 더 적은 쪽을 선택한다.
- Cross란, 기계 번역과 참조 번역 사이 매핑된 단어를 직선으로 연결한다고 할 때, 순서가 바뀌어 생기는 교차점을 말한다.
- $(t_i, r_j), (t_k, r_l)$ 이렇게 두 개의 매핑쌍이 만들어졌다고 할 때,
$$(pos(t_i)-pos(t_k) * (pos(r_j)-pos(r_l))$$
- 위의 결과가 음수인 경우, Cross로 카운트한다.
- $t_i, t_k$ 는 기계 번역의 인덱스, $r_j, r_l$ 은 참조 번역의 인덱스이다.
- 최종적으로 선택된 매핑 집합을 Alignment라고 한다.
Fmean
$$Fmean=\frac{10PR}{R+9P}$$
- Fmean은 Precision과 Recall의 조화평균으로 계산하는데, Recall에 가중치를 더 부여한다(분모이기 때문에).
- 다시 위의 예제를 가져와서,
- 기계 번역(System) : The cat is sleeping on the mat.
- 참조 번역(Reference) : The feline sleeps on that mat.
- 매핑된 단어 수는 The, cat, sleeping, on, mat로 5이다.
- 이 때 Precision은 참이라고 예측한 것 중 실제 참인 비율이니까 기계 번역 문장의 길이가 분모가 되어 5/7, Recall은 실제 참인 것 중 참이라고 예측한 비율이니까 참조 번역 문장의 길이가 분모가 되어 5/6이다.
- 따라서 Fmean = 0.8197 이다.
Penalty
- 기계 번역과 참조 번역 사이, 연속된 매칭을 고려하기 위해 패널티 점수를 부여한다.
$$Penalty = 0.5 * (\frac{\# \mathrm{chunks}}{\#\mathrm{unigrams\_matched}})$$
- Chunks는 기계 번역과 참조 번역 사이, 연속된 매칭의 개수, 즉 단어 덩어리의 개수를 의미한다.
- 밑의 예시에서 Chunks는 3개이다.
- 기계 번역(System) : The cat is sleeping on the mat.
- 참조 번역(Reference) : The feline sleeps on that mat.
- Unigrams matched는 5개니까, Penalty = 0.5 * (3/5) = 0.3 인 것이다.
- Chunk가 많아질수록 페널티는 0.5에 가까워진다.
METEOR score
$$Score = Fmean*(1-Penalty)$$
- METEOR score는 최종적으로 위와 같이 계산된다.
- 위 예제의 경우 0.8197 * (1 - 0.3) = 0.5738 이 된다.
- Bi-gram 이상의 매칭이 없으면 최소 50%만 반영하는 것이다.
Experiments
- 위 테이블은 사람이 직접 평가한 점수와 자동화 평가 점수에 대한 상관관계를 나타낸 것이다.
- METEOR가 기존의 자동화 평가 방식인 BLEU, NIST 보다 상관관계가 더 높다.
- 또한 Precision만을 고려한 경우 상관관계가 더 낮아지는 것, 조화 평균이 더 높은 상관관계를 가진다는 것을 알 수 있다.
Review
- METEOR score도 BLEU와 마찬가지로 여전히 Vision-Language task에서 많이 쓰이는 평가 지표이다.
- BLEU score에 비해 상관 관계가 더 증가했다.
- 하지만 여전히 평가를 위해서는 사람이 작성한 참조 번역이 필요하다.
728x90