Continual Pretrain Training 시 Input contexts 구성을 어떻게 하는게 모델 성능 향상에 도움이 될지를 서치하던 중 발견한 논문이다.
본 논문은 draft 하게 확인했기 때문에 상세한 내용 확인을 위해서는 직접 Detail check 이 필요하다.
목차
1. 논문의 목적
2. 개요
3. Methodology
4. 실험 결과
1. 논문의 목적
- 컨텍스트 길이 확장
- 효율적인 훈련 방법 제안
- 일반적인 장문 처리 능력 향상
2. 개요
- CIP와 SynL 방법을 통해 효율적으로 장문 컨텍스트 학습 데이터를 생성하고, 이를 통해 모델의 장문 처리 능력을 크게 향상
- LongSkywork는 최대 200,000 토큰의 컨텍스트를 처리할 수 있는 장문 LLM
- 합성 데이터의 사용이 실제 수집된 장문 데이터보다 더 효과적일 수 있다는 점을 보여줌.
- 기존 LLM의 컨텍스트 길이를 효율적으로 확장하는 훈련 방법 소개
3. Methodology
- Chunk Interleaved Pretraining (CIP)
- 짧은 문서들을 여러 청크로 나누고 이를 교차 배열하여 긴 학습 샘플을 생성
- ex) 3개의 문서 A, B, C를 각각 3개의 청크로 나누어 A1-B1-C1-A2-B2-C2-A3-B3-C3 형태로 재구성
- 이 방법은 모델이 원거리 정보를 처리하고 통합하는 능력을 향상
- Synthetic Long-context SFT (SynL)
- 긴 컨텍스트의 합성 데이터 생성
- 주로 테이블 형태의 데이터를 생성하며, 길이는 2K에서 100K 토큰 사이
- 세 가지 주요 task 유형
- 정보 검색 태스크
- CoT(Chain-of-Thought) 추론 태스크
- 전역 이해 태스크
4. 실험 결과
- LongSkywork-13B 모델이 Claude2.1과 비슷한 수준의 성능을 보였다고 함.
- 긴 context 를 처리하는 task 로 측정
마무리,,
CPT 를 위한 Input context 구성에 따라 모델의 성능에 큰 영향을 준다고 생각한다.
가비지 인 가비지 아웃이라는 전통적인 Deep Learning 분야 명언처럼 모델은 학습 데이터셋 구성에 가장 큰 영향을 받는다.
그러한 점에서 본 논문은 어느 정도 기여했다고 생각한다.
다만.... 그리 추천하고 싶지는 않다.
반응형
'Natural Language Processing > Paper review' 카테고리의 다른 글
[논문 리뷰]IN-CONTEXT PRETRAINING: LANGUAGE MODELING BEYOND DOCUMENT BOUNDARIES (0) | 2024.10.17 |
---|---|
[논문 리뷰]Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing (1) | 2024.10.01 |
[논문 리뷰]Training Language Models to Self-Correct via Reinforcement Learning (1) | 2024.09.26 |
[LoRA] 실무자 맞춤 요점 파악하기 (0) | 2024.02.05 |
[LoRA] 논문 쉽게 설명하기 (0) | 2024.02.01 |
댓글