LLM15 [RL] Group reward-Decoupled Normalization Policy Optimization(GDPO) 코드로 설명하기 지난 포스팅에서는 DPO & PPO & GRPO 에서 loss 를 구하는 방법을 코드와 이론 관점으로 쉽게 설명하고자 하였다.본 포스팅은 GRPO 의 한계를 언급하며 보완된 방법을 제시한 GDPO 의 대해 코드를 설명하고자 한다.포스팅 맨 마지막에 필자가 GDPO 를 보면서 생각한 바가 있으니 이 또한 참고하기 바란다. ※ 시작하기에 앞서 필자의 이전 포스팅을 먼저 보는걸 추천한다.[RL] Direct Preference Optimization(DPO) 쉽게 설명하기[RL] Proximal Policy Optimization(PPO) 쉽게 설명하기[RL] Group Relative Policy Optimization(GRPO) 쉽게 설명하기 참고 링크: trl-GDPO/trl-0.18.0-gdpo/trl.. 2026. 1. 23. [RL] Group Relative Policy Optimization(GRPO) 쉽게 설명하기 LLM 을 RL 으로 학습하면 성능 개선에 큰 도움이 된다는 사실은 요즘 DL 을 하는 사람들이라면 모두 안다.하지만 모든 데이터 사이언티스트가 PPO, DPO, GRPO 와 같은 학습 방식이 정확히 어떻게 구현되었는지 상세하게 알고 있지는 않다.하여 본 포스팅은 LLM 을 GRPO 로 학습 시 어떻게 loss 를 정의하는지 학습 방향에 대해 쉽게 설명하고자 한다.포스팅 맨 마지막에 필자가 GRPO 를 공부하면서 스스로 질문한 바가 있으니 이 또한 참고하기 바란다.ps. 필자는 재작년 말부터 작년까지 결혼 준비로 인해 LLM 을 RL 로 학습하는 로직에 대해 공부하지 못 했다... 뒤늦게 부랴부랴 하고 있다. 본 포스팅인 GRPO 를 시작으로 DPO, PPO 등과 같은 RL 학습 로직과 Simple 구현.. 2026. 1. 13. [LLaMA-Factory] LoRA Adapter 확인 LLM 오픈소스 중 가장 유명한 LLaMA-Factory 를 파악하고 있다.그 중 학습 시 LoRA 를 활용한다면 어떤 Adapter 를 생성하여 학습하는지 확인했다.본 포스팅은 오픈소스인 LLaMA-Factory 에서 LoRA 활용한 학습 시 Adapter 및 arguments 셋팅이 어떻게 되어 있는지 코드를 통해 확인한 결과를 소개한다.목차1. 실무자는 바쁘다.! 결론부터 말씀드릴게요.2. 생성되는 LoRA Adapter 확인 및 커스터마이즈 3. LoRA Config 설정 for Hyper-Parameter 셋팅4. 필자 리뷰 LLaMA-Factory github 바로가기1. 실무자는 바쁘다.! 결론부터 말씀드릴게요.필자가 파악하고자 한 주요 원인은 다음과 같다.LLaMA-Factory 로 내가 .. 2025. 2. 27. [LLaMA-Factory] Tokenizer padding_side 확인 LLM 오픈소스 중 가장 유명한 LLaMA-Factory 를 파악하고 있다.그 중 SFT 학습 시 Tokenizer padding_side 를 어떻게 설정하는지 확인했다.본 포스팅은 오픈소스인 LLaMA-Factory 에서 SFT 학습 시 Tokenizer padding_side 셋팅이 어떻게 되어 있는지 코드를 통해 확인한 결과를 소개한다.목차1. 실무자는 바쁘다.! 결론부터 말씀드릴게요.2. padding_side = 'right' 에 의한 데이터 구성3. padding_side = 'left' 에 의한 데이터 구성 4. 필자 리뷰 LLaMA-Factory github 바로가기1. 실무자는 바쁘다.! 결론부터 말씀드릴게요.필자가 파악하고자 한 주요 원인은 다음과 같다.LLaMA-Factory 로 내가.. 2025. 2. 22. [LLaMA-Factory] PT&SFT 학습 데이터는 어떻게 만들어지는가? LLM 오픈소스 중 가장 유명한 LLaMA-Factory 를 파악하고 있다.그중 Pretrain(a.k.a PT) 과 Supervised Fine-Tuning(a.k.a SFT) 에서 학습 데이터를 어떤 형태로 만드는지 실무자로서 가장 궁금했다.추후에 회사 프로젝트에서 sLLM 을 학습해야 한다면 LLaMA-Factory 도 좋은 수단으로 생각했기 때문에 데이터는 어떤 형태로 구성되는지 소스 코드를 통해 상세하게 파악할 필요가 있었기 때문이다.본 포스팅은 오픈소스인 LLaMA-Factory 에서 PT, SFT 학습 시 학습 데이터를 어떻게 encode 하는지 그 과정과 결과를 소개한다.목차1. 실무자는 바쁘다.! 결론부터 말씀드릴게요.2. PT 학습 시 학습 데이터 형태3. SFT 학습 시 학습 데이터 .. 2025. 1. 22. [논문 리뷰]LongSkywork: A Training Recipe for Efficiently Extending Context Length Continual Pretrain Training 시 Input contexts 구성을 어떻게 하는게 모델 성능 향상에 도움이 될지를 서치하던 중 발견한 논문이다.본 논문은 draft 하게 확인했기 때문에 상세한 내용 확인을 위해서는 직접 Detail check 이 필요하다.목차1. 논문의 목적2. 개요3. Methodology4. 실험 결과 1. 논문의 목적컨텍스트 길이 확장효율적인 훈련 방법 제안일반적인 장문 처리 능력 향상 2. 개요CIP와 SynL 방법을 통해 효율적으로 장문 컨텍스트 학습 데이터를 생성하고, 이를 통해 모델의 장문 처리 능력을 크게 향상LongSkywork는 최대 200,000 토큰의 컨텍스트를 처리할 수 있는 장문 LLM합성 데이터의 사용이 실제 수집된 장문 데이터보다 더 효과.. 2024. 10. 17. [논문 리뷰]IN-CONTEXT PRETRAINING: LANGUAGE MODELING BEYOND DOCUMENT BOUNDARIES Large Language Model 을 사전학습 하기 위해서는 long input context 가 필요하다.최근 모델들은 대부분 8K 를 사용하는데 8K 만큼의 token 을 가진 Documents 는 적다.그래서 보편적인 방법으로 Document 를 이어붙여 8K 만큼 만들어준 뒤 모델을 학습시키는 방법을 사용한다.본 논문에서는 Document 를 어떻게 이어붙여야 성능 향상의 효과가 있는지를 실험한 내용이다.목차1. 논문 핵심 내용 요약2. 장점 & 단점 정리3. 코드 유무 확인 1. 논문 핵심 내용 요약LLM 학습 시 input contexts 구성할 때 문서의 type 을 고려하여 이어 붙여 모델을 학습하면 성능 향상 효과가 있다고 한다.본 논문에서는 수십억 개의 문서에서 반복 없이 모든 문서.. 2024. 10. 17. [논문 리뷰]Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing Synthesis datasets 생성을 위한 레퍼런스 체크를 하던 중 Magpie 논문을 확인했다.LLM 의 특징을 활용하여 데이터셋을 생성하는게 흥미로웠다.직접 몇 가지 테스트를 해봤는데 되긴 하더라.다만... Domain specific task 에 대해서는 아쉬움을 느낀다.그래도 기왕 논문을 확인했으니 기록을 남긴다.논문 링크: arxiv 바로가기목차1. 논문 핵심 내용 요약2. 장점 & 단점 정리3. 코드 유무 확인 1. 논문 핵심 내용 요약a. 문제 제기모델을 효과적으로 학습하려면 고품질의 정렬된 데이터 세트가 필수적이다.기존의 데이터 수집 및 annotation 방법은 시간과 비용이 많이 든다.정렬된 고품질의 데이터를 생성하는 솔루션인 Magpie 제안Magpie 는 합성 데이터 생성을 완전.. 2024. 10. 1. [논문 리뷰]Training Language Models to Self-Correct via Reinforcement Learning 하고 있는 프로젝트에 적용할만한 방법론을 찾는 중 해당 논문을 발견했다.결과적으로 적용하기 애매하다는 판단을 내렸지만 흥미로운 논문이었기에 기록한다.본 논문의 핵심 내용은 LLM 을 활용한 self-correction 학습법이다.구글 딥마인드에서 일주일 전 공개한 논문으로 강화학습을 활용한 언어 모델의 self-correction 능력 향상을 위한 연구이다.목차1. 논문 핵심 내용 요약2. 장점 & 단점 정리3. 코드 유무 확인 1. 논문 핵심 내용 요약a. 문제 제기LLM 은 올바른 답변을 할 수 있는 기본 지식이 포함되어 있지만 올바른 답변을 이끌어내지 못할때가 있다. 수학 증명의 경우, 증명할 수 있는 지식이 있지만 올바른 추론을 도출하지 못하곤 한다.이를 해결하기 위해 이전에 수행된 self-co.. 2024. 9. 26. LLM 관련 업로드 계획 공유 안녕하세요 비니입니다~최근 한달 정도 LLM 관련 업무를 하고 있는데요.업무를 하며 학습한 것, 느낀 것을 업로드하려 합니다 😊그럼 무엇을 업로드 할 건지 미리보기 해보죠 😉 무엇을 업로드 할 것인가?저는 현재 sLLM 을 Instruct tuning 하여 금융사, 보험사 대상 QA 모델을 개발하고 있습니다.B2B 프로젝트를 했을 때 성능 저하가 발생한 Question 을 분석하여 성능 향상을 위한 실험 설계를 진행중입니다.때문에 가장 먼저 업로드 할 것은 다음과 같습니다. 현재 배포된 데이터는 무엇이 있는가? 리스트업해당 데이터를 하고자 하는 Task 를 위해 학습하기 위해 데이터를 어떻게 변환할 것인가?RAG 학습을 위한 코드 분석Huggingface 오픈 소스 분석학습 코드 샘플 업로드만약 Do.. 2024. 8. 23. 이전 1 2 다음 반응형