Multi Query Attention1 LLAMA 모델 구조 파악 이전 포스팅에서는 'LLM 을 학습하기 위해 어떻게 학습 데이터를 만들어야 하는지' 에 관해 소개했다. 이번 포스팅은 Backbone 이 되는 LLM 으로 가장 많이 활용되는 LLAMA 모델의 구조에 대해 알아보도록 하겠다. ※ NLP 전문가 Level 의 연구자에게 도움이 되는 글임을 유의하길 바란다. 목차 Model Architecture a. LlamaModel 구조 i. Embedding Layer ii. Decoder Layer b. CausalLM Layer 참고 문서 1. Model Architecture a. LlamaModel 구조 i. Embedding Layer nn.embeding 하나만 사용한다. Encoder 모델의 Embedding layer 와 다르다. Encoder 모델의 .. 2024. 1. 8. 이전 1 다음 반응형