My Vision, Computer Vision

[논문 요약/리뷰] Evaluating Object Hallucination in Large Vision-Language Models 본문

공부

[논문 요약/리뷰] Evaluating Object Hallucination in Large Vision-Language Models

gyuilLim 2025. 3. 31. 14:45
 

Evaluating Object Hallucination in Large Vision-Language Models

Inspired by the superior language abilities of large language models (LLM), large vision-language models (LVLM) have been recently explored by integrating powerful LLMs for improving the performance on complex multimodal tasks. Despite the promising progre

arxiv.org

Author : Li, Yifan, et al.
Journal : EMNLP 2023
Keyword : Hallucination, Vision Language Model
Published Date : 2023년 5월 17일


Problem

  • LLM을 사용한 LVLM(Large Vision Language Model) 또한 존재하지 않는 객체를 만들어내는 등의 Hallucination에 취약한 문제가 있다. 이런 문제를 객체 환각(Object Hallucination)이라고 한다.
  • 그러나 CHAIR(Caption Hallucination Assessment with Image Relevance) 등 기존의 객체 환각 평가 방법은 LVLM에 최적화되지 않았다는 것을 발견하고 POPE(Pooling-based Object Probing Evaluation) 방법을 제안한다.
  • 다양한 객체 샘플링 전략을 사용하여 평가한 결과, LVLM이 Visual Instruction Dataset에 자주 등장하거나, 같이 출현하는 객체에 대한 환각이 높다는 것을 검증하였다.

Contribution

  • 다양한 연구를 통해 LVLM이 객체 환각에 크게 영향을 받는다는 것을 발견했다.
  • 이 문제에 대한 잠재적인 이유(자주 or 같이 등장하는 객체에 대한)에 대해 논의한다.
  • 더 안정적이고 Unannotated Dataset으로 확장할 수 있는 객체 환각 평가 방법, POPE를 제안한다.

Object Hallucination

  • 먼저 기존의 방법으로 LVLM의 객체 환각을 측정한다.
  • CHAIR(Caption Hallucination Assessment with Image Relevance)는 Image Captioning 태스크에서 객체 환각을 측정하는 유명한 메트릭이다.
  • CHAIR는 모델이 출력한 캡션에는 있지만, 실제 이미지에는 없는 객체의 비율을 계산한다. 객체 단위, 캡션 단위에 따라 CHAIRI,CHAIRS 로 나뉜다.

CHAIRI=|hallucinated objects||all mentioned objects|

CHAIRS=|captions with hallucinated objects||all captions|

  • 최근 모델 mPLUG-Owl, LLaVA, Multimodal-GPT, MiniGPT-4, Instruct-BLIP 모델에 두 개의 프롬프트로 유도된 캡션을 평가에 사용한다.

I1:Generate a short caption of the Image. I2:Provide a brief description of the given image.

 

  • 위 테이블에 따르면, 대부분의 Instruction-tuned LVLM은 객체 환각에 노출되어있다.
  • 비교적으로 InstrucBLIP은 다른 모델에 비해 환각이 적은데, 이유로는 학습 데이터셋이 댜앙한 출처로 수집되었고, Instruction이 다른 모델에 비해 상대적으로 짧아서라고 생각할 수 있다. 그에비해 다른 모델들은 LLM에서 생성된 Visual-Instruction을 사용한다.
  • Synthetic Visual Instruction은 더 길고, 정보가 풍부하지만 이미지에 대한 환각 정보(LLM에서 비롯된)가 있을 수 있다.

Disadvantages of CHAIR

  • 하지만 동시에 CHAIR 평가 결과는 지시문(I1,I2)의 설계나 캡션 길이(len)같은 다른 요소에 의해 영향을 수 있다.
  • 위 테이블에서 지시문 I1,I2에 따라 성능이 2배 가까이 차이나는 것을 알 수 있다. 이는 CHAIR 지표의 불안정함을 나타낸다.
  • 또한 CHAIR는 생성된 캡션에서 언급된 객체들이 환각인지 확인하기 위해 복잡한 파싱 과정이 필요한데, 이 또한 오분류 오류를 유발할 수 있는 문제가 있다.

Influence of Instruction Data on Object Hallucination

  • 본 연구에서는 위 결과로부터 Instruction Data를 객체 환각 문제의 원인으로 간주하고 두 가지 가설을 세운 후 정성적, 정량적으로 검증한다.
    • LVLM은 Visual Instruction Dataset에서 자주 등장하는 객체를 환각할 가능성이 높다.
    • LVLM은 이미지 내의 실제 객체와 자주, 함께 등장하는 객체(노트북, 키보드, 마우스)를 환각할 가능성이 높다.
  • 이 가설을 검증하기 위해 객체의 등장 빈도와 환각 발생 횟수간의 일치 정도를 측정한다.
  • Visual Instruction Dataset 대부분은 MS-COCO를 기반으로 구축되었기 때문에, MS-COCO를 기준으로 한다.

HRA@k=1nni=1Hit@k(i)Hallucinated(i)HRC@k(o)=1mmi=1Hit@k(i,o)Hallucinated(i)

  • Hallucinated(i)i번째 이미지에서 환각된 객체 수를 의미한다.
  • Hit@k(i)i번째 이미지의 환각된 객체 중 top-k로 자주 등장한 MS-COCO의 객체 수이다.
  • Hit@k(i,o)는 객체 o와 자주, 함께 등장하는 top-k 객체 중 환각된 수를 의미한다.
  • 따라서 HR@k는 모든 환각된 객체 중, 자주 등장하는(Frequently Appearing) top-k 객체의 비율(HRA@k), 함께 출연하는(Co-occurring) top-k 객체의 비율(HRC@k(o))을 의미한다.

 

  • 전반적인 LVLM에서 HRA@10은 약 0.5로, 이는 평균적으로 환각된 객체의 약 절반 정도가 MS-COCO 데이터셋에서 자주 등장한 상위 10개의 객체에 해당한다는 의미이다.
  • HRC@10은 약 0.6 정도로 절반 이상은 이미지에 실제 존재하는 객체와 함께 등장한 상위 10개에 해당한다는 의미이다.

POPE

  • LVLM의 환각 현상을 평가하기 위한 간단하고 효과적인 방법인 Polling-based Object Probing Evaluation(POPE)를 고안한다.
  • POPE는 객체 환각 평가를 이진 분류 문제(Binary Classification)로 취급한다. 예를 들어 “이미지에 의자가 있습니까?”라는 질문에 “Yes”/”No”로 응답하도록 유도한다.
  • POPE는 이미지 캡션 데이터셋이 주어졌을 때 (이미지, 질문과 대답)의 형태로 변환한다. 이는 아래와 같이 나타낼 수 있다.

x,q(oi),aili=1

  • 여기서 x는 이미지, q(oi)는 “Is there a/an in the image?”과 같은 질문, oii번째 객체, ai는 질문에 대한 정답을 의미한다.
  • 질문에는 실제 존재하는 객체와, 존재하지 않는 객체 모두로 구성해야 한다. 이 때, 균형을 위해 1:1 비율로 설정한다.

 

  • 위 이미지는 POPE의 파이프라인을 나타낸 것이다.
  • 먼저 Ground-truth 객체들을 알아야하기 때문에, Human annotation과 SEEM이라는 Segmentation 모델을 활용하여 객체를 수집한다.
  • 이렇게 만들어진 Ground-truth 객체들로부터 대답이 “Yes”인 질문을 만들 수 있게된다.
  • 그렇다면 문제는 대답이 “No”인 질문들이다. 이 질문에 들어갈 객체를 구성하기 위해 3가지 샘플링 방법을 사용한다.
    • Random Sampling : 이미지에 존재하지 않는 객체들 중에서 무작위로 샘플링.
    • Popular Sampling : 이미지에 존재하지 않지만 전체 데이터셋에서의 등장 비율이 k 이상인 객체를 샘플링. 보통 k=0.5로 설정.
    • Adversarial Sampling : 이미지에 존재하는 객체를 기준으로, 전체 객체에 대해 Co-occurring 횟수 기반으로 정렬한 후, 이미지에 존재하지 않는 k개 객체를 샘플링.

 

  • MS-COCO Validation Set을 기반으로 구성한 POPE를 사용하여 LVLM을 평가한다.
  • 3개 이상의 실제 객체가 포함된 이미지 500장을 무작위로 선택한 다음, 각 이미지당 6개의 질문을 구성한다.
  • F1 Score를 기준으로 InstructBLIP이 가장 좋은 성능을 보이고, LLaVA, Multimodal-GPT, mPLUG-Owl은 환각 문제에 노출되어있다.
  • 또한 전반적으로 Recall에 비해 Precision이 낮게 측정되었는데, 이는 모든 질문에 대해 거의 객체가 있다고 예측했다고 볼 수 있다. 즉 대답이 “No”인 질문에서는 정확도가 크게 떨어진다.
  • 그리고 샘플링 방법에 따라 Random → Poplular → Adversarial 순으로 성능이 감소한다. 이는 LVLM이 자주 등장하거나, 함께 등장하는 객체에 대한 환각 가능성이 크다는 것을 입증한다.

 

  • 또한, 앞서 지적한 CHAIR의 문제중 하나인 Prompt 의존성에 대한 실험이다.
  • POPE 지표는 Prompt가 달라져도 편차가 0.78 정도인 반면, CHAIR는 3.22이다.

 

  • 위 테이블은 POPE와 VQA에 대한 상관관계가 항상 일치하지 않는다는 것을 보여준다.
  • InstructBLIP은 POPE와 VQA 모두 성능이 높지만, MiniGPT-4와 LLAVA는 그렇지 않다.

Conclusion

  • 기존 Object Hallucination 평가 방법에 대한 문제를 지적하고 새로운 방법 POPE를 제안한다.
  • 하지만 POPE는 객체의 환각 문제에만 초점을 맞췄기 때문에, 모델의 전반적인 성능을 대변하지는 못한다. 또한 POPE 측정은 LVLM의 대답 “Yes”, “No”의 문자열 매칭을 기반으로 하기때문에, 명확히 이 단어가 포함되어있지 않으면 평가 결과가 부정확해질 수 있다는 문제가 있다.

 

728x90