Natural Language Processing36 EMNLP 2024 투고록 ③ - 논문 발표 금년도 EMNLP 학회에 논문을 투고했습니다~정확히는 EMNLP Industrial track 에 논문을 투고했는데요 !논문 작성부터 투고 및 마무리까지 어떤 과정으로 진행이 됐는지 기록을 남기고자 글을 올립니다~투고록은 총 3개의 게시글로 나눠 작성할 예정입니다.마지막으로 논문 Accept 후 논문 발표를 어떻게 준비했는지에 대해 상세하게 다루겠습니다.EMNLP 학회에 논문을 투고하고자 하는 분들께 도움이 되었으면 좋겠네요 :) 논문 투고 일정출처: https://2024.emnlp.org/calls/industry_track/날짜일정설명24년 7월 18일논문 제출논문 제출 마감 날짜24년 9월 5~11일RebuttalsReviewer 와 저자의 토론 기간24년 10월 1일Accept 논문 발표학회 등.. 2024. 11. 8. EMNLP 2024 투고록 ② - Reviewer rebuttals 금년도 EMNLP 학회에 논문을 투고했습니다~정확히는 EMNLP Industrial track 에 논문을 투고했는데요 !논문 작성부터 투고 및 마무리까지 어떤 과정으로 진행이 됐는지 기록을 남기고자 글을 올립니다~투고록은 총 3개의 게시글로 나눠 작성할 예정입니다.두 번째로 논문 작성 후 Review 를 어떻게 대응했는지, 대응하는 Tip 은 무엇인지에 대해 상세하게 다루겠습니다.EMNLP 학회에 논문을 투고하고자 하는 분들께 도움이 되었으면 좋겠네요 :) 논문 투고 일정출처: https://2024.emnlp.org/calls/industry_track/날짜일정설명24년 7월 18일논문 제출논문 제출 마감 날짜24년 9월 5~11일RebuttalsReviewer 와 저자의 토론 기간24년 10월 1일A.. 2024. 11. 4. EMNLP 2024 투고록 ① - 논문 작성 Process 금년도 EMNLP 학회에 논문을 투고했습니다~정확히는 EMNLP Industrial track 에 논문을 투고했는데요 !논문 작성부터 투고 및 마무리까지 어떤 과정으로 진행이 됐는지 기록을 남기고자 글을 올립니다~투고록은 총 3개의 게시글로 나눠 작성할 예정입니다.먼저 논문 작성 Process 에 대해 상세하게 다루겠습니다.EMNLP 학회에 논문을 투고하고자 하는 분들께 도움이 되었으면 좋겠네요 :) 논문 투고 일정출처: https://2024.emnlp.org/calls/industry_track/날짜일정설명24년 7월 18일논문 제출논문 제출 마감 날짜24년 9월 5~11일RebuttalsReviewer 와 저자의 토론 기간24년 10월 1일Accept 논문 발표학회 등록으로 채택된 논문 공지24년 .. 2024. 11. 2. [논문 리뷰]LongSkywork: A Training Recipe for Efficiently Extending Context Length Continual Pretrain Training 시 Input contexts 구성을 어떻게 하는게 모델 성능 향상에 도움이 될지를 서치하던 중 발견한 논문이다.본 논문은 draft 하게 확인했기 때문에 상세한 내용 확인을 위해서는 직접 Detail check 이 필요하다.목차1. 논문의 목적2. 개요3. Methodology4. 실험 결과 1. 논문의 목적컨텍스트 길이 확장효율적인 훈련 방법 제안일반적인 장문 처리 능력 향상 2. 개요CIP와 SynL 방법을 통해 효율적으로 장문 컨텍스트 학습 데이터를 생성하고, 이를 통해 모델의 장문 처리 능력을 크게 향상LongSkywork는 최대 200,000 토큰의 컨텍스트를 처리할 수 있는 장문 LLM합성 데이터의 사용이 실제 수집된 장문 데이터보다 더 효과.. 2024. 10. 17. [논문 리뷰]IN-CONTEXT PRETRAINING: LANGUAGE MODELING BEYOND DOCUMENT BOUNDARIES Large Language Model 을 사전학습 하기 위해서는 long input context 가 필요하다.최근 모델들은 대부분 8K 를 사용하는데 8K 만큼의 token 을 가진 Documents 는 적다.그래서 보편적인 방법으로 Document 를 이어붙여 8K 만큼 만들어준 뒤 모델을 학습시키는 방법을 사용한다.본 논문에서는 Document 를 어떻게 이어붙여야 성능 향상의 효과가 있는지를 실험한 내용이다.목차1. 논문 핵심 내용 요약2. 장점 & 단점 정리3. 코드 유무 확인 1. 논문 핵심 내용 요약LLM 학습 시 input contexts 구성할 때 문서의 type 을 고려하여 이어 붙여 모델을 학습하면 성능 향상 효과가 있다고 한다.본 논문에서는 수십억 개의 문서에서 반복 없이 모든 문서.. 2024. 10. 17. [논문 리뷰]Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing Synthesis datasets 생성을 위한 레퍼런스 체크를 하던 중 Magpie 논문을 확인했다.LLM 의 특징을 활용하여 데이터셋을 생성하는게 흥미로웠다.직접 몇 가지 테스트를 해봤는데 되긴 하더라.다만... Domain specific task 에 대해서는 아쉬움을 느낀다.그래도 기왕 논문을 확인했으니 기록을 남긴다.논문 링크: arxiv 바로가기목차1. 논문 핵심 내용 요약2. 장점 & 단점 정리3. 코드 유무 확인 1. 논문 핵심 내용 요약a. 문제 제기모델을 효과적으로 학습하려면 고품질의 정렬된 데이터 세트가 필수적이다.기존의 데이터 수집 및 annotation 방법은 시간과 비용이 많이 든다.정렬된 고품질의 데이터를 생성하는 솔루션인 Magpie 제안Magpie 는 합성 데이터 생성을 완전.. 2024. 10. 1. [논문 리뷰]Training Language Models to Self-Correct via Reinforcement Learning 하고 있는 프로젝트에 적용할만한 방법론을 찾는 중 해당 논문을 발견했다.결과적으로 적용하기 애매하다는 판단을 내렸지만 흥미로운 논문이었기에 기록한다.본 논문의 핵심 내용은 LLM 을 활용한 self-correction 학습법이다.구글 딥마인드에서 일주일 전 공개한 논문으로 강화학습을 활용한 언어 모델의 self-correction 능력 향상을 위한 연구이다.목차1. 논문 핵심 내용 요약2. 장점 & 단점 정리3. 코드 유무 확인 1. 논문 핵심 내용 요약a. 문제 제기LLM 은 올바른 답변을 할 수 있는 기본 지식이 포함되어 있지만 올바른 답변을 이끌어내지 못할때가 있다. 수학 증명의 경우, 증명할 수 있는 지식이 있지만 올바른 추론을 도출하지 못하곤 한다.이를 해결하기 위해 이전에 수행된 self-co.. 2024. 9. 26. RAGAS+LangSmith 로 LLM 생성 데이터 평가하기 LLM 을 통해 생성된 답변의 성능을 평가하는건 어려운 Task 이다.현재 평가 방법으로는 성능이 좋은 LLM 모델을 통해 평가하는 방법(LLM-as-a-judge, Pheonix, RAGAS, DeepEval)은 많지만 해당 평가 방법을 프로젝트에 적용시키기는 쉽지 않다.본 포스팅은 프로젝트에 가장 많이 활용되는 RAG Process 의 생성 답변 성능을 RAGAS 로 평가하는 과정과 그 결과에 대해 다루도록 한다.RAGAS 의 성능 근거를 확인하기 위해 LangSmith 를 통해 Log 를 확인한 결과도 다루겠다.※ sLLM 에 대한 연구를 하는 사람에게 도움이 되는 글임을 유의하길 바란다. 목차1. 사용 결과 피드백2. 환경 설정3. 평가할 데이터 Load4. 모델 평가5. 성능 평가 근거 확인 .. 2024. 9. 5. HuggingFace HUB 로 모델 및 데이터셋 관리하기 LLM 에 대한 연구를 하는 사람이라면 누구나 disk 용량 관리에 어려움을 겪었을거라 생각한다.sLLM 이라도 16bf 인 7~8B 모델의 size 가 14~16GB 가 되기 때문이다.모델을 4개만 저장해도 50GB 가 넘는다.데이터셋 또한 Pretrain 용 Corpus 는 GB 단위이기에 모델뿐만 아니라 데이터셋도 관리해줘야 한다.이번 포스팅은 점점 커지는 Size 의 모델과 데이터셋을 HF(HuggingFace) HUB 로 관리하는 방법을 설명하고자 한다.※ sLLM 에 대한 연구를 하는 사람에게 도움이 되는 글임을 유의하길 바란다. 목차1. Model 을 HF HUB 에 저장하고 불러오기2. 서버의 cache 관리하기3. Dataset 을 HF HUB 에 저장하고 불러오기 1. Model 을 H.. 2024. 9. 3. LoRA 학습 코드 예시 LLM 에 대한 연구를 하는 사람이라면 누구나 LoRA 를 들어봤을거라 생각한다.이번 포스팅은 LoRA 및 qLoRA 학습 코드 예시를 step by step 으로 설명하고자 한다.※ sLLM Instruct tuning 에 관심이 깊은 사람에게 도움이 되는 글임을 유의하길 바란다. 목차1. Model define2. LoRA config define3. Train datasets define4. Arguments setting and Train5. 마무리,, 1. Model defineLoRA 또는 qLoRA 학습을 위해서는 Model 과 Tokenizer 를 불러와야 한다.본 예시에서는 beomi 님이 배포하신 Llama-3-Ko 모델을 foundation 으로 사용해보았다.## load module.. 2024. 9. 2. 이전 1 2 3 4 다음 반응형