250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

My Vision, Computer Vision

[논문 리뷰/요약] CLIPPO: Image-and-Language Understanding from Pixels Only 본문

Paper

[논문 리뷰/요약] CLIPPO: Image-and-Language Understanding from Pixels Only

gyuilLim 2025. 2. 5. 16:22

CLIPPO: Image-and-Language Understanding from Pixels Only

Multimodal models are becoming increasingly effective, in part due to unified components, such as the Transformer architecture. However, multimodal models still often consist of many task- and modality-specific pieces and training procedures. For example,

arxiv.org

Problem

대부분의 멀티모달 모델은 모달리티 별로 구성 요소가 다르고, 다른 태스크에 적용하기 위해 그에 맞는 추가적인 학습 절차가 필요하다.
예를 들어 CLIP은 이미지와 텍스트를 Contrastive loss를 통해 독립적으로 훈련한다.
CLIP의 인코더들은 Zero-shot transfer, Retrieval 등 다양한 방식으로 사용될 수 있다.
하지만 Pre-training 데이터의 Alt-text 품질이 낮기때문에, CLIP Text-encoder의 언어 모델링 성능이 낮다는 지적이 있다.

Contribution

이미지와 텍스트를 하나의 이미지 인코더에서 처리할 수 있는 CLIPPO(CLIP Pixel-Only)를 제안한다.
하나의 인코더만을 사용했기 때문에, 모델의 크기가 작다.

Method

이전 연구에서 1T-CLIP(One-tower CLIP) 이라는, 기존 Two-tower 방식과 다르게 하나의 트랜스포머를 이용하여 이미지와 텍스트를 처리할 수 있음을 보여주어, 파라미터 수를 반으로 줄였지만 성능은 소폭 하락하였다.
본 논문에서 제안하는 CLIPPO는 1T-CLIP에서 한 단계 더 발전한 개념이다.
CLIPPO는 먼저, 입력 텍스트를 Blank image 위에 렌더링한다. 텍스트를 이미지로 처리할 수 있게끔 변환하는 것이다.
변환된 렌더링 텍스트와 입력 이미지를 이용하여 Image-encndoer ViT를 Contrastive learning으로 학습한다.
이러한 접근 방식은 기존 모델처럼 Tokenizer, Vocabulary를 사용할 필요가 없다.
또한 다국어 환경에서도 동일한 방식으로 텍스트를 이미지로 렌더링하여 처리할 수 있다.

Experiment

여기서 CLIP*는 OpenAI에서 공개된 CLIP이 아니라, WebLI라는 데이터로 처음부터 다시 학습시킨 모델이라 구분하기 위한 것이다.
ImageNet-1k에 대한 10-shot, Zero-shot Accuracy가 제시되어있다.
또한 MS-COCO(C)와 Flickr30k(F)에 대한 I→T, T→I retrieval이 제시되어 있다.
파라미터 수와 성능을 같이 비교해보면, CLIPPO의 파라미터수가 제일 적긴한데, 성능은 제일 낮다.

위 그림은 CLIP*와 CLLIPO간 Modality Gap을 보여준다.
파란색은 임베딩된 이미지, 주황색은 Alt-Text이다.
CLIPPO(0.6000)이 CLIP*(0.731)에 비해 살짝 낮고, C4까지 추가로 학습하면 0.099로 더 낮아지는 것을 확인할 수 있다.

Conclusion

이미지와 텍스트를 시각적 관점에서 함께 처리하는 모델 CLIPPO를 제안했다.
CLIPPO는 토크나이저를 없앨 수 있고, 파라미터수를 감소시키며 학습 방식을 단순화한다.

Review

텍스트를 그냥 글자 이미지로 처리하는 방식이 나이브하면서도 참신하다는 생각이 든다.
모델의 파라미터 개수가 줄긴했지만 성능이 낮다.
논문 길이도 얼마 안되고 그림도 많이 없어서 급하게 마무리했다는 느낌이 있다.

728x90

'Paper' 카테고리의 다른 글

[논문 리뷰/요약] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (0)	2025.02.12
[논문 리뷰/요약] BLIP-2: Bootstrapping Language-Image Pre-training (1)	2025.02.07
[논문 리뷰/요약] CLIP-Adapter: Better Vision-Language Models with Feature Adapters (0)	2025.02.05
[논문 요약/리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (1)	2025.02.04
[논문 리뷰/요약] BLIP: Bootstrapping Language-Image Pre-training for Uniﬁed Vision-Language Understanding and Generation (0)	2025.02.03

'Paper' Related Articles