My Vision, Computer Vision

[논문 요약/리뷰] LLaMA: Open and Efficient Foundation Language Models 본문

Paper

[논문 요약/리뷰] LLaMA: Open and Efficient Foundation Language Models

gyuilLim 2025. 2. 18. 13:23
 

LLaMA: Open and Efficient Foundation Language Models

We introduce LLaMA, a collection of foundation language models ranging from 7B to 65B parameters. We train our models on trillions of tokens, and show that it is possible to train state-of-the-art models using publicly available datasets exclusively, witho

arxiv.org

발행일 : 2023. 02. 27.

Meta AI


Problem

  • 최근, 한정된 컴퓨터 예산(Budget)에서 LLM과 데이터셋 크기에 대한 최적화 연구가 진행되었다.
  • 그러나 여기에는 추론(Inference) 예산이 반영되지 않았다는 문제가 있다. 결국 LLM을 서비스할 때 중요한 것은 훈련 속도가 아니라 추론 속도이기 때문이다.
  • 따라서 본 연구에서는, 작은 크기의 모델을 더 오래 학습시키는 것이 결국 추론 비용이 더 낮고, 성능이 좋을 수 있다는 것을 보여준다.

Contributions

  • 모두 오픈소스로 공개되어있고, 데이터셋은 이미 공개되어 있는 소스들을 혼합해서 구축했다.
  • 다양한 크기의 모델(7B~65B)을 공개하고, 13B 모델은 10배 무거운 GPT-3를 능가했다.

Methods

Dataset

Pre-training에 사용된 7개의 혼합 데이터셋

  • 다양한 퍼블릭 데이터셋을 혼합하여 Pre-training 데이터셋을 구축했다.
    • English CommonCrawl : 웹에서 수집한 텍스트 데이터로, 비영어, 중복, 스팸 데이터 등을 필터링한 데이터셋이다.
    • C4 : CommonCrawl을 고품질로 필터링한 데이터셋.
    • Github : 오픈소스 코드 리파지토리 데이터셋.
    • Wikipedia : 위키피디아에서 추출한 텍스트 데이터셋.
    • Gutenberg and Books3 : 고전 문학 텍스트 및 전자책 데이터셋.
    • ArXiv : 기술, 물리학, AI 관련 연구 문헌 데이터셋.
    • StackExchange : Stack Overflow 등 Q&A 사이트에서 수집된 데이터셋.
  • 이렇게 수집한 데이터셋은 총 1.4조개의 토큰으로 구성된다.

Architecture

4개 모델에 대한 하이퍼 파라미터 설정

  • 모델은 총 4가지로, 모두 트랜스포머 아키텍쳐 기반이다.
  • GPT3의 Pre-normalization, PaLM의 SwiGLU 활성화 함수, GPTNeo의 Rotary Embeddings, AdamW 옵티마이저 사용.
  • 메모리, 시간 최적화를 위해 Causal multi-head attention 등을 사용.
  • 결과적으로 65B 모델은 2048개의 A100 GPU에서 약 21일 동안 학습된다.
  • 자세한 내용은 논문 참고.

Experiment

QA 데이터셋에 대한 벤치마크

  • QA 데이터셋에 대한 Zero-shot 벤치마크이다.
  • GPT-3에 비해 약 13배 작은 모델인 LLaMA 13B가 성능이 더 좋다.
  • 대규모 모델인 PaLM 540B 와 비교했을 때 1, 2개 밀리지만 전반적으로 더 높다.

 

수학적 추론 벤치마크, Minerva는 파인튜닝된 PaLM

  • 중, 고등 수학문제 데이터셋인 MATHGSM8k에 대한 벤치마크이다.
  • MinervaArXivMath Web Pages에서 파인튜닝 한 PaLM인데, 그래서 높은 성능이 측정되었다.
  • PaLMLLaMA는 수학 데이터셋에 파인튜닝하지 않았는데, 기본적으로 LLaMAPaLM보다 높다.
  • 여기서 maj1@k는 한 문제에 대해 k개의 응답을 생성한 후 메이저리티 보팅(다수결 투표) 앙상블한 결과이다.

Conclusion

  • LLaMA-13B는 GPT-3보다 약 13배 작은 크기에도 더 좋은 성능을 보여주었다.
  • LLaMA-65BChincilla-70B, PaLM-540B와 비슷한 성능이다.
  • 또한 독점적인 데이터셋이 아닌 공개된 데이터셋을 사용했다.
  • 더 큰 규모의 모델, 데이터셋을 사용하여 더 좋은 성능을 달성할 계획이다.

Review

  • 이 연구의 기여는 모델링보다는 데이터셋에 있다.
  • 공개된 데이터셋을 혼합해서 SOTA 성능을 보여주었기 때문이다.
  • 아키텍처는 트랜스포머를 베이스로 했고, 활성화 함수 등 다른 부분을 주로 튜닝했다.

 

728x90