Notice

Recent Posts

Recent Comments

Link

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

My Vision, Computer Vision

[논문 요약/리뷰] Evaluating Object Hallucination in Large Vision-Language Models 본문

공부

[논문 요약/리뷰] Evaluating Object Hallucination in Large Vision-Language Models

gyuilLim 2025. 3. 31. 14:45

Evaluating Object Hallucination in Large Vision-Language Models

Inspired by the superior language abilities of large language models (LLM), large vision-language models (LVLM) have been recently explored by integrating powerful LLMs for improving the performance on complex multimodal tasks. Despite the promising progre

arxiv.org

Author : Li, Yifan, et al.
Journal : EMNLP 2023
Keyword : Hallucination, Vision Language Model
Published Date : 2023년 5월 17일

Problem

LLM을 사용한 LVLM(Large Vision Language Model) 또한 존재하지 않는 객체를 만들어내는 등의 Hallucination에 취약한 문제가 있다. 이런 문제를 객체 환각(Object Hallucination)이라고 한다.
그러나 CHAIR(Caption Hallucination Assessment with Image Relevance) 등 기존의 객체 환각 평가 방법은 LVLM에 최적화되지 않았다는 것을 발견하고 POPE(Pooling-based Object Probing Evaluation) 방법을 제안한다.
다양한 객체 샘플링 전략을 사용하여 평가한 결과, LVLM이 Visual Instruction Dataset에 자주 등장하거나, 같이 출현하는 객체에 대한 환각이 높다는 것을 검증하였다.

Contribution

다양한 연구를 통해 LVLM이 객체 환각에 크게 영향을 받는다는 것을 발견했다.
이 문제에 대한 잠재적인 이유(자주 or 같이 등장하는 객체에 대한)에 대해 논의한다.
더 안정적이고 Unannotated Dataset으로 확장할 수 있는 객체 환각 평가 방법, POPE를 제안한다.

Object Hallucination

먼저 기존의 방법으로 LVLM의 객체 환각을 측정한다.
CHAIR(Caption Hallucination Assessment with Image Relevance)는 Image Captioning 태스크에서 객체 환각을 측정하는 유명한 메트릭이다.
CHAIR는 모델이 출력한 캡션에는 있지만, 실제 이미지에는 없는 객체의 비율을 계산한다. 객체 단위, 캡션 단위에 따라 $\mathrm {CHAIR}_I, \mathrm {CHAIR}_S$ 로 나뉜다.

$$ \textrm{CHAIR}_I=\frac{|{ \textrm {hallucinated objects}}|}{|{ \textrm {all mentioned objects}}|} $$

$$ \textrm{CHAIR}_S=\frac{|{\textrm {captions with hallucinated objects}}|}{|{\textrm{all captions} }|} $$

최근 모델 mPLUG-Owl, LLaVA, Multimodal-GPT, MiniGPT-4, Instruct-BLIP 모델에 두 개의 프롬프트로 유도된 캡션을 평가에 사용한다.

$$ I_1 : \textrm {Generate a short caption of the Image.} \ I_2 : \textrm {Provide a brief description of the given image.} $$

위 테이블에 따르면, 대부분의 Instruction-tuned LVLM은 객체 환각에 노출되어있다.
비교적으로 InstrucBLIP은 다른 모델에 비해 환각이 적은데, 이유로는 학습 데이터셋이 댜앙한 출처로 수집되었고, Instruction이 다른 모델에 비해 상대적으로 짧아서라고 생각할 수 있다. 그에비해 다른 모델들은 LLM에서 생성된 Visual-Instruction을 사용한다.
Synthetic Visual Instruction은 더 길고, 정보가 풍부하지만 이미지에 대한 환각 정보(LLM에서 비롯된)가 있을 수 있다.

Disadvantages of CHAIR

하지만 동시에 CHAIR 평가 결과는 지시문($I_1, I_2$)의 설계나 캡션 길이($len$)같은 다른 요소에 의해 영향을 수 있다.
위 테이블에서 지시문 $I_1, I_2$에 따라 성능이 2배 가까이 차이나는 것을 알 수 있다. 이는 CHAIR 지표의 불안정함을 나타낸다.
또한 CHAIR는 생성된 캡션에서 언급된 객체들이 환각인지 확인하기 위해 복잡한 파싱 과정이 필요한데, 이 또한 오분류 오류를 유발할 수 있는 문제가 있다.

Influence of Instruction Data on Object Hallucination

본 연구에서는 위 결과로부터 Instruction Data를 객체 환각 문제의 원인으로 간주하고 두 가지 가설을 세운 후 정성적, 정량적으로 검증한다.
- LVLM은 Visual Instruction Dataset에서 자주 등장하는 객체를 환각할 가능성이 높다.
- LVLM은 이미지 내의 실제 객체와 자주, 함께 등장하는 객체(노트북, 키보드, 마우스)를 환각할 가능성이 높다.
이 가설을 검증하기 위해 객체의 등장 빈도와 환각 발생 횟수간의 일치 정도를 측정한다.
Visual Instruction Dataset 대부분은 MS-COCO를 기반으로 구축되었기 때문에, MS-COCO를 기준으로 한다.

$$ \textrm {HR}A@k = \frac{1}{n}\sum^n{i=1} \frac{\textrm{Hit}@k(i)}{\textrm{Hallucinated}(i)} \\ \textrm{HR}C@k(o)=\frac{1}{m}\sum^m{i=1} \frac{\textrm{Hit}@k(i,o)}{\textrm{Hallucinated}(i)} $$

$\textrm{Hallucinated}(i)$는 $i$번째 이미지에서 환각된 객체 수를 의미한다.
$\textrm{Hit}@k(i)$는 $i$번째 이미지의 환각된 객체 중 top-k로 자주 등장한 MS-COCO의 객체 수이다.
$\textrm{Hit}@k(i,o)$는 객체 $o$와 자주, 함께 등장하는 top-k 객체 중 환각된 수를 의미한다.
따라서 $\textrm{HR}@k$는 모든 환각된 객체 중, 자주 등장하는(Frequently Appearing) top-k 객체의 비율($\textrm{HR}_A@k$), 함께 출연하는(Co-occurring) top-k 객체의 비율($\textrm{HR}_C@k(o)$)을 의미한다.

전반적인 LVLM에서 $\textrm{HR}_A@10$은 약 0.5로, 이는 평균적으로 환각된 객체의 약 절반 정도가 MS-COCO 데이터셋에서 자주 등장한 상위 10개의 객체에 해당한다는 의미이다.
$\textrm{HR}_C@10$은 약 0.6 정도로 절반 이상은 이미지에 실제 존재하는 객체와 함께 등장한 상위 10개에 해당한다는 의미이다.

POPE

LVLM의 환각 현상을 평가하기 위한 간단하고 효과적인 방법인 Polling-based Object Probing Evaluation(POPE)를 고안한다.
POPE는 객체 환각 평가를 이진 분류 문제(Binary Classification)로 취급한다. 예를 들어 “이미지에 의자가 있습니까?”라는 질문에 “Yes”/”No”로 응답하도록 유도한다.
POPE는 이미지 캡션 데이터셋이 주어졌을 때 (이미지, 질문과 대답)의 형태로 변환한다. 이는 아래와 같이 나타낼 수 있다.

$$ \langle x,{q(o_i),a_i }^l_{i=1} \rangle $$

여기서 $x$는 이미지, $q(o_i)$는 “Is there a/an
질문에는 실제 존재하는 객체와, 존재하지 않는 객체 모두로 구성해야 한다. 이 때, 균형을 위해 1:1 비율로 설정한다.

위 이미지는 POPE의 파이프라인을 나타낸 것이다.
먼저 Ground-truth 객체들을 알아야하기 때문에, Human annotation과 SEEM이라는 Segmentation 모델을 활용하여 객체를 수집한다.
이렇게 만들어진 Ground-truth 객체들로부터 대답이 “Yes”인 질문을 만들 수 있게된다.
그렇다면 문제는 대답이 “No”인 질문들이다. 이 질문에 들어갈 객체를 구성하기 위해 3가지 샘플링 방법을 사용한다.
- Random Sampling : 이미지에 존재하지 않는 객체들 중에서 무작위로 샘플링.
- Popular Sampling : 이미지에 존재하지 않지만 전체 데이터셋에서의 등장 비율이 k 이상인 객체를 샘플링. 보통 k=0.5로 설정.
- Adversarial Sampling : 이미지에 존재하는 객체를 기준으로, 전체 객체에 대해 Co-occurring 횟수 기반으로 정렬한 후, 이미지에 존재하지 않는 k개 객체를 샘플링.

MS-COCO Validation Set을 기반으로 구성한 POPE를 사용하여 LVLM을 평가한다.
3개 이상의 실제 객체가 포함된 이미지 500장을 무작위로 선택한 다음, 각 이미지당 6개의 질문을 구성한다.
F1 Score를 기준으로 InstructBLIP이 가장 좋은 성능을 보이고, LLaVA, Multimodal-GPT, mPLUG-Owl은 환각 문제에 노출되어있다.
또한 전반적으로 Recall에 비해 Precision이 낮게 측정되었는데, 이는 모든 질문에 대해 거의 객체가 있다고 예측했다고 볼 수 있다. 즉 대답이 “No”인 질문에서는 정확도가 크게 떨어진다.
그리고 샘플링 방법에 따라 Random → Poplular → Adversarial 순으로 성능이 감소한다. 이는 LVLM이 자주 등장하거나, 함께 등장하는 객체에 대한 환각 가능성이 크다는 것을 입증한다.

또한, 앞서 지적한 CHAIR의 문제중 하나인 Prompt 의존성에 대한 실험이다.
POPE 지표는 Prompt가 달라져도 편차가 0.78 정도인 반면, CHAIR는 3.22이다.

위 테이블은 POPE와 VQA에 대한 상관관계가 항상 일치하지 않는다는 것을 보여준다.
InstructBLIP은 POPE와 VQA 모두 성능이 높지만, MiniGPT-4와 LLAVA는 그렇지 않다.

Conclusion

기존 Object Hallucination 평가 방법에 대한 문제를 지적하고 새로운 방법 POPE를 제안한다.
하지만 POPE는 객체의 환각 문제에만 초점을 맞췄기 때문에, 모델의 전반적인 성능을 대변하지는 못한다. 또한 POPE 측정은 LVLM의 대답 “Yes”, “No”의 문자열 매칭을 기반으로 하기때문에, 명확히 이 단어가 포함되어있지 않으면 평가 결과가 부정확해질 수 있다는 문제가 있다.

'공부' 카테고리의 다른 글

[딥러닝 공부] Vision-Language Evaluation Metrics(VLM 벤치마크 평가 지표) (0)	2025.02.28
[논문 요약/리뷰] ROUGE: A Package for Automatic Evaluation of Summaries (0)	2025.02.27
[논문 리뷰/요약] LLaVA : Visual Instruction Tuning (0)	2025.02.02
[딥러닝 공부] KL Divergence와 Cross Entropy (0)	2025.01.26
[딥러닝 공부] Bernoulli Distribution, Laplace Distribution(베르누이 분포, 라플라스 분포) (0)	2025.01.15

'공부' Related Articles