본문 바로가기
Natural Language Processing/Paper review

[논문 리뷰]LongSkywork: A Training Recipe for Efficiently Extending Context Length

by beeny-ds 2024. 10. 17.
Continual Pretrain Training 시 Input contexts 구성을 어떻게 하는게 모델 성능 향상에 도움이 될지를 서치하던 중 발견한 논문이다.
본 논문은 draft 하게 확인했기 때문에 상세한 내용 확인을 위해서는 직접 Detail check 이 필요하다.

목차

1. 논문의 목적

2. 개요

3. Methodology

4. 실험 결과


 

1. 논문의 목적

  • 컨텍스트 길이 확장
  • 효율적인 훈련 방법 제안
  • 일반적인 장문 처리 능력 향상

 

2. 개요

  • CIP와 SynL 방법을 통해 효율적으로 장문 컨텍스트 학습 데이터를 생성하고, 이를 통해 모델의 장문 처리 능력을 크게 향상
    • LongSkywork는 최대 200,000 토큰의 컨텍스트를 처리할 수 있는 장문 LLM
  • 합성 데이터의 사용이 실제 수집된 장문 데이터보다 더 효과적일 수 있다는 점을 보여줌.
    • 기존 LLM의 컨텍스트 길이를 효율적으로 확장하는 훈련 방법 소개

 

3. Methodology

논문에 있는 Process figure

  1. Chunk Interleaved Pretraining (CIP)
    • 짧은 문서들을 여러 청크로 나누고 이를 교차 배열하여 긴 학습 샘플을 생성
    • ex) 3개의 문서 A, B, C를 각각 3개의 청크로 나누어 A1-B1-C1-A2-B2-C2-A3-B3-C3 형태로 재구성
    • 이 방법은 모델이 원거리 정보를 처리하고 통합하는 능력을 향상
  2. Synthetic Long-context SFT (SynL)
    • 긴 컨텍스트의 합성 데이터 생성
    • 주로 테이블 형태의 데이터를 생성하며, 길이는 2K에서 100K 토큰 사이
    • 세 가지 주요 task 유형
      • 정보 검색 태스크
      • CoT(Chain-of-Thought) 추론 태스크
      • 전역 이해 태스크

 

4. 실험 결과

  • LongSkywork-13B 모델이 Claude2.1과 비슷한 수준의 성능을 보였다고 함.
    • 긴 context 를 처리하는 task 로 측정

 

마무리,,

CPT 를 위한 Input context 구성에 따라 모델의 성능에 큰 영향을 준다고 생각한다.

가비지 인 가비지 아웃이라는 전통적인 Deep Learning 분야 명언처럼 모델은 학습 데이터셋 구성에 가장 큰 영향을 받는다.

그러한 점에서 본 논문은 어느 정도 기여했다고 생각한다.

다만.... 그리 추천하고 싶지는 않다.

반응형

댓글