Paper review4 [논문 리뷰]LongSkywork: A Training Recipe for Efficiently Extending Context Length Continual Pretrain Training 시 Input contexts 구성을 어떻게 하는게 모델 성능 향상에 도움이 될지를 서치하던 중 발견한 논문이다.본 논문은 draft 하게 확인했기 때문에 상세한 내용 확인을 위해서는 직접 Detail check 이 필요하다.목차1. 논문의 목적2. 개요3. Methodology4. 실험 결과 1. 논문의 목적컨텍스트 길이 확장효율적인 훈련 방법 제안일반적인 장문 처리 능력 향상 2. 개요CIP와 SynL 방법을 통해 효율적으로 장문 컨텍스트 학습 데이터를 생성하고, 이를 통해 모델의 장문 처리 능력을 크게 향상LongSkywork는 최대 200,000 토큰의 컨텍스트를 처리할 수 있는 장문 LLM합성 데이터의 사용이 실제 수집된 장문 데이터보다 더 효과.. 2024. 10. 17. [논문 리뷰] Reference and Document Aware Semantic Evaluation Methods for Korean Language Summarization 들어가며,, 본 글은 "Kakao Enterprise AI Research" 블로그 글을 참고하였습니다. 논문을 읽지 않고 블로그 글로 리뷰를 했다는 점을 밝힙니다. 블로그 글 원본 링크는 다음과 같습니다. https://kakaoenterprise.github.io/deepdive/210729 텍스트 요약 모델 성능 평가를 위한 새로운 척도, RDASS를 소개합니다. 더 나은 성능의 요약 모델을 만들려면 모델로부터 자동으로 생성된 요약문을 어느 정도로 신뢰할 수 있는지 판별하기 위한 적절한 평가 방법이 있어야 합니다. 문제는 가장 보편적으로 쓰이는 kakaoenterprise.github.io 기존 요약 task 성능 지표의 한계와 RDASS의 등장 배경 요약 task에서 사용하는 성능 지표는 ROUG.. 2022. 11. 9. [논문 리뷰] SimCSE: Simple Contrastive Learning of Sentence Embeddings 들어가며,, 비즈니스에 해당 논문 기술을 적용한다는 마인드로 논문 리뷰를 하기 때문에 논문 연구 결과 파악을 위한 리뷰와는 다소 차이가 있을 수 있음을 미리 말씀드립니다. Simple review for parper Supervised & Unsupervised SimCSE 제안 (21년 4월 발간) Unsupervised SimCSE (자체적으로 label을 만들어 줌) Positive pair: 동일한 문장 embedding layer에 동일한 문장을 넣어 drop out(p=0.1)을 통해 다른 embedding 값을 얻어줌 이러한 drop out 이 최소한의 data augmentation 이라고 함 (다른 방식 ex. 삭제, 대체, etc… 사용해 봤는데 drop out이 성능이 제일 좋았다고 .. 2022. 8. 31. [논문 리뷰] Distilling Linguistic Context for Language Model Compression 목적 💡 기존의 경량화는 단어 간 관계를 고려하지 않았고 단어가 model의 encoder layer를 통과하며 어떻게 변화하는지도 고려하지 않았음 기존 경량화: 단순히 학생 모델이 선생 모델의 weight를 따라가도록, logit 값을 따라가도록 학습 본 논문: logit 값을 따라갈 뿐만 아니라 단어 간 관계 및 단어가 encoder layer를 통과하며 어떻게 변하는지도 고려해서 학습 실험 방법 Model: Google’s Multi-lingual-BERT model Pre-train BERT 모델에 Distillation하여 경량화 된 BERT모델을 만들고 각 task datasets을 이용한 Fine-tuning 후 성능 비교 Pre-train distillation datasets: Engli.. 2022. 6. 23. 이전 1 다음 반응형