반응형
250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- clip
- 논문 리뷰
- 1차 미분 마스크
- evaluating object hallucination in large vision-language models paper
- clip adapter
- 논문 요약
- 기계학습
- mobilenetv1
- vlm
- 객체 검출
- polling-based object probing evaluation
- evaluating object hallucination in large vision-language models
- vlm hallucination paper
- vlm 환각
- dinov2 논문 리뷰
- object detection
- 딥러닝 엔트로피
- evaluating object hallucination in large vision-language models 논문
- Object detection article
- dinov2: learning robust visual features without supervision 논문 리뷰
- 에지 검출
- dinov2: learning robust visual features without supervision 논문
- 엔트로피란
- 이미지 필터링
- 딥러닝 목적함수
- dinov2: learning robust visual features without supervision
- 원격 학습 안끊기게
- blip-2
- vlm hallucination
- vlm 환각이란
Archives
- Today
- Total
My Vision, Computer Vision
[논문 리뷰/요약] CLIPPO: Image-and-Language Understanding from Pixels Only 본문
Paper
[논문 리뷰/요약] CLIPPO: Image-and-Language Understanding from Pixels Only
gyuilLim 2025. 2. 5. 16:22CLIPPO: Image-and-Language Understanding from Pixels Only
Multimodal models are becoming increasingly effective, in part due to unified components, such as the Transformer architecture. However, multimodal models still often consist of many task- and modality-specific pieces and training procedures. For example,
arxiv.org
Problem
- 대부분의 멀티모달 모델은 모달리티 별로 구성 요소가 다르고, 다른 태스크에 적용하기 위해 그에 맞는 추가적인 학습 절차가 필요하다.
- 예를 들어 CLIP은 이미지와 텍스트를 Contrastive loss를 통해 독립적으로 훈련한다.
- CLIP의 인코더들은 Zero-shot transfer, Retrieval 등 다양한 방식으로 사용될 수 있다.
- 하지만 Pre-training 데이터의 Alt-text 품질이 낮기때문에, CLIP Text-encoder의 언어 모델링 성능이 낮다는 지적이 있다.
Contribution
- 이미지와 텍스트를 하나의 이미지 인코더에서 처리할 수 있는 CLIPPO(CLIP Pixel-Only)를 제안한다.
- 하나의 인코더만을 사용했기 때문에, 모델의 크기가 작다.
Method
- 이전 연구에서 1T-CLIP(One-tower CLIP) 이라는, 기존 Two-tower 방식과 다르게 하나의 트랜스포머를 이용하여 이미지와 텍스트를 처리할 수 있음을 보여주어, 파라미터 수를 반으로 줄였지만 성능은 소폭 하락하였다.
- 본 논문에서 제안하는 CLIPPO는 1T-CLIP에서 한 단계 더 발전한 개념이다.
- CLIPPO는 먼저, 입력 텍스트를 Blank image 위에 렌더링한다. 텍스트를 이미지로 처리할 수 있게끔 변환하는 것이다.
- 변환된 렌더링 텍스트와 입력 이미지를 이용하여 Image-encndoer ViT를 Contrastive learning으로 학습한다.
- 이러한 접근 방식은 기존 모델처럼 Tokenizer, Vocabulary를 사용할 필요가 없다.
- 또한 다국어 환경에서도 동일한 방식으로 텍스트를 이미지로 렌더링하여 처리할 수 있다.
Experiment
- 여기서 CLIP*는 OpenAI에서 공개된 CLIP이 아니라, WebLI라는 데이터로 처음부터 다시 학습시킨 모델이라 구분하기 위한 것이다.
- ImageNet-1k에 대한 10-shot, Zero-shot Accuracy가 제시되어있다.
- 또한 MS-COCO(C)와 Flickr30k(F)에 대한 I→T, T→I retrieval이 제시되어 있다.
- 파라미터 수와 성능을 같이 비교해보면, CLIPPO의 파라미터수가 제일 적긴한데, 성능은 제일 낮다.
- 위 그림은 CLIP*와 CLLIPO간 Modality Gap을 보여준다.
- 파란색은 임베딩된 이미지, 주황색은 Alt-Text이다.
- CLIPPO(0.6000)이 CLIP*(0.731)에 비해 살짝 낮고, C4까지 추가로 학습하면 0.099로 더 낮아지는 것을 확인할 수 있다.
Conclusion
- 이미지와 텍스트를 시각적 관점에서 함께 처리하는 모델 CLIPPO를 제안했다.
- CLIPPO는 토크나이저를 없앨 수 있고, 파라미터수를 감소시키며 학습 방식을 단순화한다.
Review
- 텍스트를 그냥 글자 이미지로 처리하는 방식이 나이브하면서도 참신하다는 생각이 든다.
- 모델의 파라미터 개수가 줄긴했지만 성능이 낮다.
- 논문 길이도 얼마 안되고 그림도 많이 없어서 급하게 마무리했다는 느낌이 있다.
728x90