My Vision, Computer Vision

[논문 요약/리뷰] BLEU: a Method for Automatic Evaluation of Machine Translation 본문

Paper

[논문 요약/리뷰] BLEU: a Method for Automatic Evaluation of Machine Translation

gyuilLim 2025. 2. 25. 16:43
 

BLEU | Proceedings of the 40th Annual Meeting on Association for Computational Linguistics

We present the results of an experiment on extending the automatic method of Machine Translation evaluation BLUE with statistical weights for lexical items, such as tf.idf scores. We show that this extension gives additional information about evaluated ...

dl.acm.org

 

Published Date : 2002년 7월 1일
keyword : BLEU score, Evaluation Metric


Problem

  • 기계번역 성능 측정을 위해 고안된 평가 지표이다.
  • 기존에는 사람이 직접 평가했는데, 이는 몇 주, 길면 몇 달 정도 걸린다.
  • 이는 기계번역 분야 발전의 병목이 될 수 있다는 문제가 있다.
  • 따라서 자동화된 평가 방식 BLEU(BiLingual Evaluation Understudy)를 제안한다.

 


Method

  • BLEU를 평가하기 위해서는 모델이 출력한 후보 번역(Candidate)과 사람이 작성한 참조 번역(Reference)이 필요하다.
  • 먼저 BLEU에는 문장 길이에 대한 패널티가 있다. 후보 번역의 길이가 참조 번역의 길이보다 짧으면 패널티를 받는 것이다.

BP={1ifc>re(1r/c)ifcr

  • 위 식은 길이 패널티(Brevity Penalty) 이다.
  • 예를 들어, 후보 번역과 참조 번역이 다음과 같다고 하자.
    • 후보 번역 (Candidate): "The cat sits on the mat."
    • 참조 번역 (Reference): "The cat is sitting on the mat."
  • 이 때, 마침표를 제외하면 c = 6, r = 7 이기 때문에, BP는 e(17/6)=0.8465 이다.

BLEU=BPexp(Nn=1Wnlogpn)

  • 위 수식은 최종 BLEU 계산 식이다.
  • pn 은 N-gram 정밀도이고, Wn 은 N-gram별 가중치이다.
  • 다시 위 예시에서, N-gram 정밀도부터 구해보자.
    • 후보 번역 (Candidate): "The cat sits on the mat."
    • 참조 번역 (Reference): "The cat is sitting on the mat."
    • N-gram 정밀도란, N개의 연속된 단어(그램)의 일치율이다.
    • N=1 일 때, 후보 번역의 The, cat, on, the, mat 5개가 일치하기 때문에 정밀도는 5/6=0.833이다.
    • N=2 일 때, 후보 번역의 The cat, on the, the mat 3개가 일치하기 때문에 정밀도는 3/5=0.6이다.
      • 분모가 6인 이유는, 단어를 두 개씩 묶었을 때 총 5쌍이 나오기 때문이다.
    • N=3 일 때, 후보 번역의 on the mat 1개가 일치하기 때문에 정밀도는 1/4=0.25이다.
    • N=4 일 때는 일치하는 부분이 없기때문에 0이다.
  • Wn=1/N 이다. 따라서 BLEU에서 BP를 제외한 부분을 구해보면

exp(Nn=1Wnlogpn)=exp(10.833+1/20.6+1/30.25+1/40)=3.3747

  • 3.3747이고 BP는 0.8465니까 최종 BLEU 스코어는 2.857이 되는 것이다.

Experiment

N-gram Precision 그래프

  • N의 크기가 커질수록 Precision은 지수적으로 감소한다.
  • 진한 파랑과 연한 파랑은 각각 사람, 기계 번역에 대한 N-gram 정밀도를 나타낸다.

 

N-gram Precision 그래프. 5개 대상과 비교

  • H1과 H2는 각각 일반인, 원어민 수준의 번역자이다.
  • S1~S3은 기계 번역이다.
  • 원어민 수준 H2의 정밀도가 가장 높고, 기계 번역의 정밀도가 상대적으로 낮게 측정된다.
  • 여기서 주목해야할 부분은 사람과 기계의 측정 수치가 비례한다는 것이다. 즉, 이 평가 지표가 성능을 잘 반영하고 있다는 셈이다.

Review

  • 2002년에 제안된 성능 지표인데 여전히 많이 쓰이고 이미지 캡셔닝에서도 사용되는 지표이다.
  • 인간이 작성한 참조 번역(Reference)이 있어야 한다는 점에서 완전한 자동화는 아니다.
  • 또한 단어가 똑같은 경우에만 카운트되기 때문에 동의어 등 예외가 발생한다.
  • 결론적으로는 간단하고, 인간이 평가하는 것과 어느정도 상관관계를 내포하고 있는 평가 지표이다.

 

728x90