본문 바로가기

RL4

[RL] Group reward-Decoupled Normalization Policy Optimization(GDPO) 코드로 설명하기 지난 포스팅에서는 DPO & PPO & GRPO 에서 loss 를 구하는 방법을 코드와 이론 관점으로 쉽게 설명하고자 하였다.본 포스팅은 GRPO 의 한계를 언급하며 보완된 방법을 제시한 GDPO 의 대해 코드를 설명하고자 한다.포스팅 맨 마지막에 필자가 GDPO 를 보면서 생각한 바가 있으니 이 또한 참고하기 바란다. ※ 시작하기에 앞서 필자의 이전 포스팅을 먼저 보는걸 추천한다.[RL] Direct Preference Optimization(DPO) 쉽게 설명하기[RL] Proximal Policy Optimization(PPO) 쉽게 설명하기[RL] Group Relative Policy Optimization(GRPO) 쉽게 설명하기 참고 링크: trl-GDPO/trl-0.18.0-gdpo/trl.. 2026. 1. 23.
[RL] Direct Preference Optimization(DPO) 쉽게 설명하기 지난 포스팅에서는 PPO & GRPO 에서 loss 를 구하는 방법을 코드와 이론 관점으로 쉽게 설명하고자 하였다.본 포스팅은 DPO 알고리즘에 대해 마찬가지로 loss 구하는 방법을 코드와 이론 관점으로 쉽게 설명하고자 한다.포스팅 맨 마지막에 필자가 DPO 를 공부하면서 스스로 질문한 바가 있으니 이 또한 참고하기 바란다. 개인적으로 독자들에게 이 내용이 가장 큰 인사이트가 되지 않을까 생각한다.※ 시작하기에 앞서 필자의 이전 포스팅을 먼저 보는걸 추천한다.[RL] Proximal Policy Optimization(PPO) 쉽게 설명하기[RL] Group Relative Policy Optimization(GRPO) 쉽게 설명하기 참고 링크: trl/trainer/dpo_trainer.py본 포스팅.. 2026. 1. 20.
[RL] Proximal Policy Optimization(PPO) 쉽게 설명하기 지난 포스팅에서는 GRPO 에서 loss 를 구하는 방법을 코드와 이론 관점으로 쉽게 설명하고자 하였다.본 포스팅은 GRPO 탄생의 배경이 된 PPO 알고리즘에 대해 마찬가지로 loss 구하는 방법을 코드와 이론 관점으로 쉽게 설명하고자 한다.포스팅 맨 마지막에 필자가 PPO 를 공부하면서 스스로 질문한 바가 있으니 이 또한 참고하기 바란다. 개인적으로 독자들에게 이 내용이 가장 큰 인사이트가 되지 않을까 생각한다.※ 시작하기에 앞서 필자의 이전 포스팅을 먼저 보는걸 추천한다.[RL] Group Relative Policy Optimization(GRPO) 쉽게 설명하기 참고 링크: trl/experimental/ppo/ppo_trainer.py본 포스팅은 PPO 논문과 TRL 내 PPO 학습 코드 중 .. 2026. 1. 17.
[RL] Group Relative Policy Optimization(GRPO) 쉽게 설명하기 LLM 을 RL 으로 학습하면 성능 개선에 큰 도움이 된다는 사실은 요즘 DL 을 하는 사람들이라면 모두 안다.하지만 모든 데이터 사이언티스트가 PPO, DPO, GRPO 와 같은 학습 방식이 정확히 어떻게 구현되었는지 상세하게 알고 있지는 않다.하여 본 포스팅은 LLM 을 GRPO 로 학습 시 어떻게 loss 를 정의하는지 학습 방향에 대해 쉽게 설명하고자 한다.포스팅 맨 마지막에 필자가 GRPO 를 공부하면서 스스로 질문한 바가 있으니 이 또한 참고하기 바란다.ps. 필자는 재작년 말부터 작년까지 결혼 준비로 인해 LLM 을 RL 로 학습하는 로직에 대해 공부하지 못 했다... 뒤늦게 부랴부랴 하고 있다. 본 포스팅인 GRPO 를 시작으로 DPO, PPO 등과 같은 RL 학습 로직과 Simple 구현.. 2026. 1. 13.
반응형