본문 바로가기

LLM 학습 데이터2

[논문 리뷰]IN-CONTEXT PRETRAINING: LANGUAGE MODELING BEYOND DOCUMENT BOUNDARIES Large Language Model 을 사전학습 하기 위해서는 long input context 가 필요하다.최근 모델들은 대부분 8K 를 사용하는데 8K 만큼의 token 을 가진 Documents 는 적다.그래서 보편적인 방법으로 Document 를 이어붙여 8K 만큼 만들어준 뒤 모델을 학습시키는 방법을 사용한다.본 논문에서는 Document 를 어떻게 이어붙여야 성능 향상의 효과가 있는지를 실험한 내용이다.목차1. 논문 핵심 내용 요약2. 장점 & 단점 정리3. 코드 유무 확인 1. 논문 핵심 내용 요약LLM 학습 시 input contexts 구성할 때 문서의 type 을 고려하여 이어 붙여 모델을 학습하면 성능 향상 효과가 있다고 한다.본 논문에서는 수십억 개의 문서에서 반복 없이 모든 문서.. 2024. 10. 17.
LLM 학습을 위한 데이터 생성에 대하여,, 이전 포스팅에서는 LLM 에 관한 전반적인 내용을 비전문가도 이해할 수 있도록 소개했다. 이번 포스팅은 'LLM 을 학습하기 위해 어떻게 학습 데이터를 만들어야 하는지' 에 관해 알아보도록 하겠다. 이전 포스팅과 달리 전문가 Level 의 연구자에게 도움이 되는 글이라는 점을 유의하길 바란다. 목차 sLLM 이란? Supervised Fine-Tuning 의 중요성 학습 데이터 생성 방법 학습된 모델의 예측 경향성 1. sLLM 이란? sLLM 은 small Large Language Models 의 줄인 말이다. 좀 이상하지 않은가? small Large 라는 표현이... 이상해도 어쩔 수 없다. 그냥 LLM 의 수식어로 small 이 들어갔다고 생각하자. LLM 인데 다소 작은 LLM 이라는 의미다... 2023. 12. 29.
반응형