Python/패키지 훓어보기1 [LLaMA-Factory] PT&SFT 학습 데이터는 어떻게 만들어지는가? LLM 오픈소스 중 가장 유명한 LLaMA-Factory 를 파악하고 있다.그중 Pretrain(a.k.a PT) 과 Supervised Fine-Tuning(a.k.a SFT) 에서 학습 데이터를 어떤 형태로 만드는지 실무자로서 가장 궁금했다.추후에 회사 프로젝트에서 sLLM 을 학습해야 한다면 LLaMA-Factory 도 좋은 수단으로 생각했기 때문에 데이터는 어떤 형태로 구성되는지 소스 코드를 통해 상세하게 파악할 필요가 있었기 때문이다.본 포스팅은 오픈소스인 LLaMA-Factory 에서 PT, SFT 학습 시 학습 데이터를 어떻게 encode 하는지 그 과정과 결과를 소개한다.목차1. 실무자는 바쁘다.! 결론부터 말씀드릴게요.2. PT 학습 시 학습 데이터 형태3. SFT 학습 시 학습 데이터 .. 2025. 1. 22. 이전 1 다음 반응형