[논문 리뷰]LongSkywork: A Training Recipe for Efficiently Extending Context Length

Continual Pretrain Training 시 Input contexts 구성을 어떻게 하는게 모델 성능 향상에 도움이 될지를 서치하던 중 발견한 논문이다.
본 논문은 draft 하게 확인했기 때문에 상세한 내용 확인을 위해서는 직접 Detail check 이 필요하다.

1. 논문의 목적

2. 개요

3. Methodology

4. 실험 결과

1. 논문의 목적

컨텍스트 길이 확장
효율적인 훈련 방법 제안
일반적인 장문 처리 능력 향상

2. 개요

CIP와 SynL 방법을 통해 효율적으로 장문 컨텍스트 학습 데이터를 생성하고, 이를 통해 모델의 장문 처리 능력을 크게 향상
- LongSkywork는 최대 200,000 토큰의 컨텍스트를 처리할 수 있는 장문 LLM
합성 데이터의 사용이 실제 수집된 장문 데이터보다 더 효과적일 수 있다는 점을 보여줌.
- 기존 LLM의 컨텍스트 길이를 효율적으로 확장하는 훈련 방법 소개

3. Methodology

Chunk Interleaved Pretraining (CIP)
- 짧은 문서들을 여러 청크로 나누고 이를 교차 배열하여 긴 학습 샘플을 생성
- ex) 3개의 문서 A, B, C를 각각 3개의 청크로 나누어 A1-B1-C1-A2-B2-C2-A3-B3-C3 형태로 재구성
- 이 방법은 모델이 원거리 정보를 처리하고 통합하는 능력을 향상
Synthetic Long-context SFT (SynL)
- 긴 컨텍스트의 합성 데이터 생성
- 주로 테이블 형태의 데이터를 생성하며, 길이는 2K에서 100K 토큰 사이
- 세 가지 주요 task 유형
  - 정보 검색 태스크
  - CoT(Chain-of-Thought) 추론 태스크
  - 전역 이해 태스크

4. 실험 결과

LongSkywork-13B 모델이 Claude2.1과 비슷한 수준의 성능을 보였다고 함.
- 긴 context 를 처리하는 task 로 측정

마무리,,

CPT 를 위한 Input context 구성에 따라 모델의 성능에 큰 영향을 준다고 생각한다.

가비지 인 가비지 아웃이라는 전통적인 Deep Learning 분야 명언처럼 모델은 학습 데이터셋 구성에 가장 큰 영향을 받는다.

그러한 점에서 본 논문은 어느 정도 기여했다고 생각한다.

다만.... 그리 추천하고 싶지는 않다.

저작자표시 비영리 변경금지

'Natural Language Processing > Paper review' 카테고리의 다른 글

[논문 리뷰]IN-CONTEXT PRETRAINING: LANGUAGE MODELING BEYOND DOCUMENT BOUNDARIES (0)	2024.10.17
[논문 리뷰]Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing (1)	2024.10.01
[논문 리뷰]Training Language Models to Self-Correct via Reinforcement Learning (1)	2024.09.26
[LoRA] 실무자 맞춤 요점 파악하기 (0)	2024.02.05
[LoRA] 논문 쉽게 설명하기 (0)	2024.02.01

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Beeny is all you need

[논문 리뷰]LongSkywork: A Training Recipe for Efficiently Extending Context Length

1. 논문의 목적

2. 개요

3. Methodology

4. 실험 결과

마무리,,

'Natural Language Processing > Paper review' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[논문 리뷰]LongSkywork: A Training Recipe for Efficiently Extending Context Length

1. 논문의 목적

2. 개요

3. Methodology

4. 실험 결과

마무리,,

'Natural Language Processing > Paper review' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역