일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 에지 검출
- 원격 학습 안끊기게
- dinov2 논문 리뷰
- Object detection article
- evaluating object hallucination in large vision-language models
- dinov2: learning robust visual features without supervision 논문 리뷰
- clip
- mobilenetv1
- vlm hallucination paper
- 딥러닝 엔트로피
- dinov2: learning robust visual features without supervision 논문
- vlm hallucination
- 객체 검출
- vlm
- 논문 요약
- vlm 환각
- object detection
- dinov2: learning robust visual features without supervision
- 기계학습
- 딥러닝 목적함수
- polling-based object probing evaluation
- blip-2
- 논문 리뷰
- 이미지 필터링
- evaluating object hallucination in large vision-language models 논문
- vlm 환각이란
- 1차 미분 마스크
- 엔트로피란
- evaluating object hallucination in large vision-language models paper
- clip adapter
- Today
- Total
My Vision, Computer Vision
[논문 요약/리뷰] Evaluating Object Hallucination in Large Vision-Language Models 본문
[논문 요약/리뷰] Evaluating Object Hallucination in Large Vision-Language Models
gyuilLim 2025. 3. 31. 14:45Evaluating Object Hallucination in Large Vision-Language Models
Inspired by the superior language abilities of large language models (LLM), large vision-language models (LVLM) have been recently explored by integrating powerful LLMs for improving the performance on complex multimodal tasks. Despite the promising progre
arxiv.org
Author : Li, Yifan, et al.
Journal : EMNLP 2023
Keyword : Hallucination, Vision Language Model
Published Date : 2023년 5월 17일
Problem
- LLM을 사용한 LVLM(Large Vision Language Model) 또한 존재하지 않는 객체를 만들어내는 등의 Hallucination에 취약한 문제가 있다. 이런 문제를 객체 환각(Object Hallucination)이라고 한다.
- 그러나 CHAIR(Caption Hallucination Assessment with Image Relevance) 등 기존의 객체 환각 평가 방법은 LVLM에 최적화되지 않았다는 것을 발견하고 POPE(Pooling-based Object Probing Evaluation) 방법을 제안한다.
- 다양한 객체 샘플링 전략을 사용하여 평가한 결과, LVLM이 Visual Instruction Dataset에 자주 등장하거나, 같이 출현하는 객체에 대한 환각이 높다는 것을 검증하였다.
Contribution
- 다양한 연구를 통해 LVLM이 객체 환각에 크게 영향을 받는다는 것을 발견했다.
- 이 문제에 대한 잠재적인 이유(자주 or 같이 등장하는 객체에 대한)에 대해 논의한다.
- 더 안정적이고 Unannotated Dataset으로 확장할 수 있는 객체 환각 평가 방법, POPE를 제안한다.
Object Hallucination
- 먼저 기존의 방법으로 LVLM의 객체 환각을 측정한다.
- CHAIR(Caption Hallucination Assessment with Image Relevance)는 Image Captioning 태스크에서 객체 환각을 측정하는 유명한 메트릭이다.
- CHAIR는 모델이 출력한 캡션에는 있지만, 실제 이미지에는 없는 객체의 비율을 계산한다. 객체 단위, 캡션 단위에 따라 CHAIRI,CHAIRS 로 나뉜다.
CHAIRI=|hallucinated objects||all mentioned objects|
CHAIRS=|captions with hallucinated objects||all captions|
- 최근 모델 mPLUG-Owl, LLaVA, Multimodal-GPT, MiniGPT-4, Instruct-BLIP 모델에 두 개의 프롬프트로 유도된 캡션을 평가에 사용한다.
I1:Generate a short caption of the Image. I2:Provide a brief description of the given image.

- 위 테이블에 따르면, 대부분의 Instruction-tuned LVLM은 객체 환각에 노출되어있다.
- 비교적으로 InstrucBLIP은 다른 모델에 비해 환각이 적은데, 이유로는 학습 데이터셋이 댜앙한 출처로 수집되었고, Instruction이 다른 모델에 비해 상대적으로 짧아서라고 생각할 수 있다. 그에비해 다른 모델들은 LLM에서 생성된 Visual-Instruction을 사용한다.
- Synthetic Visual Instruction은 더 길고, 정보가 풍부하지만 이미지에 대한 환각 정보(LLM에서 비롯된)가 있을 수 있다.
Disadvantages of CHAIR
- 하지만 동시에 CHAIR 평가 결과는 지시문(I1,I2)의 설계나 캡션 길이(len)같은 다른 요소에 의해 영향을 수 있다.
- 위 테이블에서 지시문 I1,I2에 따라 성능이 2배 가까이 차이나는 것을 알 수 있다. 이는 CHAIR 지표의 불안정함을 나타낸다.
- 또한 CHAIR는 생성된 캡션에서 언급된 객체들이 환각인지 확인하기 위해 복잡한 파싱 과정이 필요한데, 이 또한 오분류 오류를 유발할 수 있는 문제가 있다.
Influence of Instruction Data on Object Hallucination
- 본 연구에서는 위 결과로부터 Instruction Data를 객체 환각 문제의 원인으로 간주하고 두 가지 가설을 세운 후 정성적, 정량적으로 검증한다.
- LVLM은 Visual Instruction Dataset에서 자주 등장하는 객체를 환각할 가능성이 높다.
- LVLM은 이미지 내의 실제 객체와 자주, 함께 등장하는 객체(노트북, 키보드, 마우스)를 환각할 가능성이 높다.
- 이 가설을 검증하기 위해 객체의 등장 빈도와 환각 발생 횟수간의 일치 정도를 측정한다.
- Visual Instruction Dataset 대부분은 MS-COCO를 기반으로 구축되었기 때문에, MS-COCO를 기준으로 한다.
HRA@k=1nn∑i=1Hit@k(i)Hallucinated(i)HRC@k(o)=1mm∑i=1Hit@k(i,o)Hallucinated(i)
- Hallucinated(i)는 i번째 이미지에서 환각된 객체 수를 의미한다.
- Hit@k(i)는 i번째 이미지의 환각된 객체 중 top-k로 자주 등장한 MS-COCO의 객체 수이다.
- Hit@k(i,o)는 객체 o와 자주, 함께 등장하는 top-k 객체 중 환각된 수를 의미한다.
- 따라서 HR@k는 모든 환각된 객체 중, 자주 등장하는(Frequently Appearing) top-k 객체의 비율(HRA@k), 함께 출연하는(Co-occurring) top-k 객체의 비율(HRC@k(o))을 의미한다.

- 전반적인 LVLM에서 HRA@10은 약 0.5로, 이는 평균적으로 환각된 객체의 약 절반 정도가 MS-COCO 데이터셋에서 자주 등장한 상위 10개의 객체에 해당한다는 의미이다.
- HRC@10은 약 0.6 정도로 절반 이상은 이미지에 실제 존재하는 객체와 함께 등장한 상위 10개에 해당한다는 의미이다.
POPE
- LVLM의 환각 현상을 평가하기 위한 간단하고 효과적인 방법인 Polling-based Object Probing Evaluation(POPE)를 고안한다.
- POPE는 객체 환각 평가를 이진 분류 문제(Binary Classification)로 취급한다. 예를 들어 “이미지에 의자가 있습니까?”라는 질문에 “Yes”/”No”로 응답하도록 유도한다.
- POPE는 이미지 캡션 데이터셋이 주어졌을 때 (이미지, 질문과 대답)의 형태로 변환한다. 이는 아래와 같이 나타낼 수 있다.
⟨x,q(oi),aili=1⟩
- 여기서 x는 이미지, q(oi)는 “Is there a/an
- 질문에는 실제 존재하는 객체와, 존재하지 않는 객체 모두로 구성해야 한다. 이 때, 균형을 위해 1:1 비율로 설정한다.

- 위 이미지는 POPE의 파이프라인을 나타낸 것이다.
- 먼저 Ground-truth 객체들을 알아야하기 때문에, Human annotation과 SEEM이라는 Segmentation 모델을 활용하여 객체를 수집한다.
- 이렇게 만들어진 Ground-truth 객체들로부터 대답이 “Yes”인 질문을 만들 수 있게된다.
- 그렇다면 문제는 대답이 “No”인 질문들이다. 이 질문에 들어갈 객체를 구성하기 위해 3가지 샘플링 방법을 사용한다.
- Random Sampling : 이미지에 존재하지 않는 객체들 중에서 무작위로 샘플링.
- Popular Sampling : 이미지에 존재하지 않지만 전체 데이터셋에서의 등장 비율이 k 이상인 객체를 샘플링. 보통 k=0.5로 설정.
- Adversarial Sampling : 이미지에 존재하는 객체를 기준으로, 전체 객체에 대해 Co-occurring 횟수 기반으로 정렬한 후, 이미지에 존재하지 않는 k개 객체를 샘플링.

- MS-COCO Validation Set을 기반으로 구성한 POPE를 사용하여 LVLM을 평가한다.
- 3개 이상의 실제 객체가 포함된 이미지 500장을 무작위로 선택한 다음, 각 이미지당 6개의 질문을 구성한다.
- F1 Score를 기준으로 InstructBLIP이 가장 좋은 성능을 보이고, LLaVA, Multimodal-GPT, mPLUG-Owl은 환각 문제에 노출되어있다.
- 또한 전반적으로 Recall에 비해 Precision이 낮게 측정되었는데, 이는 모든 질문에 대해 거의 객체가 있다고 예측했다고 볼 수 있다. 즉 대답이 “No”인 질문에서는 정확도가 크게 떨어진다.
- 그리고 샘플링 방법에 따라 Random → Poplular → Adversarial 순으로 성능이 감소한다. 이는 LVLM이 자주 등장하거나, 함께 등장하는 객체에 대한 환각 가능성이 크다는 것을 입증한다.

- 또한, 앞서 지적한 CHAIR의 문제중 하나인 Prompt 의존성에 대한 실험이다.
- POPE 지표는 Prompt가 달라져도 편차가 0.78 정도인 반면, CHAIR는 3.22이다.

- 위 테이블은 POPE와 VQA에 대한 상관관계가 항상 일치하지 않는다는 것을 보여준다.
- InstructBLIP은 POPE와 VQA 모두 성능이 높지만, MiniGPT-4와 LLAVA는 그렇지 않다.
Conclusion
- 기존 Object Hallucination 평가 방법에 대한 문제를 지적하고 새로운 방법 POPE를 제안한다.
- 하지만 POPE는 객체의 환각 문제에만 초점을 맞췄기 때문에, 모델의 전반적인 성능을 대변하지는 못한다. 또한 POPE 측정은 LVLM의 대답 “Yes”, “No”의 문자열 매칭을 기반으로 하기때문에, 명확히 이 단어가 포함되어있지 않으면 평가 결과가 부정확해질 수 있다는 문제가 있다.
'공부' 카테고리의 다른 글
[딥러닝 공부] Vision-Language Evaluation Metrics(VLM 벤치마크 평가 지표) (0) | 2025.02.28 |
---|---|
[논문 요약/리뷰] ROUGE: A Package for Automatic Evaluation of Summaries (0) | 2025.02.27 |
[논문 리뷰/요약] LLaVA : Visual Instruction Tuning (0) | 2025.02.02 |
[딥러닝 공부] KL Divergence와 Cross Entropy (0) | 2025.01.26 |
[딥러닝 공부] Bernoulli Distribution, Laplace Distribution(베르누이 분포, 라플라스 분포) (0) | 2025.01.15 |