My Vision, Computer Vision

[논문 리뷰/요약] CLIPPO: Image-and-Language Understanding from Pixels Only 본문

Paper

[논문 리뷰/요약] CLIPPO: Image-and-Language Understanding from Pixels Only

gyuilLim 2025. 2. 5. 16:22
 

CLIPPO: Image-and-Language Understanding from Pixels Only

Multimodal models are becoming increasingly effective, in part due to unified components, such as the Transformer architecture. However, multimodal models still often consist of many task- and modality-specific pieces and training procedures. For example,

arxiv.org


Problem

  • 대부분의 멀티모달 모델은 모달리티 별로 구성 요소가 다르고, 다른 태스크에 적용하기 위해 그에 맞는 추가적인 학습 절차가 필요하다.
  • 예를 들어 CLIP은 이미지와 텍스트를 Contrastive loss를 통해 독립적으로 훈련한다.
  • CLIP의 인코더들은 Zero-shot transfer, Retrieval 등 다양한 방식으로 사용될 수 있다.
  • 하지만 Pre-training 데이터의 Alt-text 품질이 낮기때문에, CLIP Text-encoder의 언어 모델링 성능이 낮다는 지적이 있다.

Contribution

  • 이미지와 텍스트를 하나의 이미지 인코더에서 처리할 수 있는 CLIPPO(CLIP Pixel-Only)를 제안한다.
  • 하나의 인코더만을 사용했기 때문에, 모델의 크기가 작다.

Method

CLIP과 CLIPPO의 아키텍쳐

  • 이전 연구에서 1T-CLIP(One-tower CLIP) 이라는, 기존 Two-tower 방식과 다르게 하나의 트랜스포머를 이용하여 이미지와 텍스트를 처리할 수 있음을 보여주어, 파라미터 수를 반으로 줄였지만 성능은 소폭 하락하였다.
  • 본 논문에서 제안하는 CLIPPO는 1T-CLIP에서 한 단계 더 발전한 개념이다.
  • CLIPPO는 먼저, 입력 텍스트를 Blank image 위에 렌더링한다. 텍스트를 이미지로 처리할 수 있게끔 변환하는 것이다.
  • 변환된 렌더링 텍스트와 입력 이미지를 이용하여 Image-encndoer ViT를 Contrastive learning으로 학습한다.
  • 이러한 접근 방식은 기존 모델처럼 Tokenizer, Vocabulary를 사용할 필요가 없다.
  • 또한 다국어 환경에서도 동일한 방식으로 텍스트를 이미지로 렌더링하여 처리할 수 있다.

Experiment

CLIP*, 1T-CLIP, CLIPPO의 벤치마크 비교

  • 여기서 CLIP*는 OpenAI에서 공개된 CLIP이 아니라, WebLI라는 데이터로 처음부터 다시 학습시킨 모델이라 구분하기 위한 것이다.
  • ImageNet-1k에 대한 10-shot, Zero-shot Accuracy가 제시되어있다.
  • 또한 MS-COCO(C)Flickr30k(F)에 대한 I→T, T→I retrieval이 제시되어 있다.
  • 파라미터 수와 성능을 같이 비교해보면, CLIPPO의 파라미터수가 제일 적긴한데, 성능은 제일 낮다.

 

CLIP*와 CLIPPO의 모달리티 갭 비교

  • 위 그림은 CLIP*CLLIPOModality Gap을 보여준다.
  • 파란색은 임베딩된 이미지, 주황색은 Alt-Text이다.
  • CLIPPO(0.6000)CLIP*(0.731)에 비해 살짝 낮고, C4까지 추가로 학습하면 0.099로 더 낮아지는 것을 확인할 수 있다.

Conclusion

  • 이미지와 텍스트를 시각적 관점에서 함께 처리하는 모델 CLIPPO를 제안했다.
  • CLIPPO는 토크나이저를 없앨 수 있고, 파라미터수를 감소시키며 학습 방식을 단순화한다.

Review

  • 텍스트를 그냥 글자 이미지로 처리하는 방식이 나이브하면서도 참신하다는 생각이 든다.
  • 모델의 파라미터 개수가 줄긴했지만 성능이 낮다.
  • 논문 길이도 얼마 안되고 그림도 많이 없어서 급하게 마무리했다는 느낌이 있다.

 

 

728x90