Contents94 Triton Server Model 개발하기 약 2년 전 포스팅에서 실무자의 입장을 고려하여 Triton Server 환경을 구축하는 방법에 대해 다루었다.본 포스팅은 Triton Server 환경을 구축한 뒤, model.py 를 개발하기 위한 Tip 을 주기 위해 작성하였다.본 포스팅을 보고 어떻게 Triton Container 내부에서 개발을 해야할지 Tip 을 얻어가기를 바란다.타겟 독자 : Triton Server 를 활용해서 Model 을 개발 및 서빙하고자 하는 실무자목차1. 샘플 코드 및 설명2. 개발 Tip 1. 샘플 코드 및 설명빠르고 간단하게 Triton Server 를 실행할 수 있는 코드와 필자의 이전 포스팅 링크를 소개한다.코드 링크: https://github.com/wonbeeny/TritonTest필자의 이전 포스팅 .. 2026. 2. 13. [논문 리뷰] Think Together and Work Better: Combining Humans’ and LLMs’ Think-Aloud Outcomes for Effective Text Evaluation 교육부 및 각 교육청, 평가원, 심지어 국가교육위원회 및 대학수학능력시험본부까지 서·논술형 평가의 중요성이 대두되고 있다. 서·논술형 평가는 초등부터 고등까지 전 과목에 적용되어 평가할 수 있도록 공교육에 적용될 예정이라 한다.이에 EduTech 기업들은 선생님들의 서·논술형 평가를 지원하기 위한 시스템을 개발하여 현장에 적용할 준비(or 진행)를 하고 있다고 한다.필자도 이를 연구하고자 서·논술형 평가와 관련된 논문들을 리뷰하고자 한다.필자와 동일한 배경으로 서·논술형 평가를 연구하고 있다면 앞으로의 논문 리뷰 포스팅을 참고하기 바란다.본 포스팅을 포함해서 총 7개의 서·논술형 평가 관련 논문 리뷰를 진행할 예정이다.특히 포스팅 마지막에 필자가 생각하는 논문의 Pros & Cons 를 작성했으니 참고하.. 2026. 1. 28. [RL] Group reward-Decoupled Normalization Policy Optimization(GDPO) 코드로 설명하기 지난 포스팅에서는 DPO & PPO & GRPO 에서 loss 를 구하는 방법을 코드와 이론 관점으로 쉽게 설명하고자 하였다.본 포스팅은 GRPO 의 한계를 언급하며 보완된 방법을 제시한 GDPO 의 대해 코드를 설명하고자 한다.포스팅 맨 마지막에 필자가 GDPO 를 보면서 생각한 바가 있으니 이 또한 참고하기 바란다. ※ 시작하기에 앞서 필자의 이전 포스팅을 먼저 보는걸 추천한다.[RL] Direct Preference Optimization(DPO) 쉽게 설명하기[RL] Proximal Policy Optimization(PPO) 쉽게 설명하기[RL] Group Relative Policy Optimization(GRPO) 쉽게 설명하기 참고 링크: trl-GDPO/trl-0.18.0-gdpo/trl.. 2026. 1. 23. [RL] Direct Preference Optimization(DPO) 쉽게 설명하기 지난 포스팅에서는 PPO & GRPO 에서 loss 를 구하는 방법을 코드와 이론 관점으로 쉽게 설명하고자 하였다.본 포스팅은 DPO 알고리즘에 대해 마찬가지로 loss 구하는 방법을 코드와 이론 관점으로 쉽게 설명하고자 한다.포스팅 맨 마지막에 필자가 DPO 를 공부하면서 스스로 질문한 바가 있으니 이 또한 참고하기 바란다. 개인적으로 독자들에게 이 내용이 가장 큰 인사이트가 되지 않을까 생각한다.※ 시작하기에 앞서 필자의 이전 포스팅을 먼저 보는걸 추천한다.[RL] Proximal Policy Optimization(PPO) 쉽게 설명하기[RL] Group Relative Policy Optimization(GRPO) 쉽게 설명하기 참고 링크: trl/trainer/dpo_trainer.py본 포스팅.. 2026. 1. 20. [RL] Proximal Policy Optimization(PPO) 쉽게 설명하기 지난 포스팅에서는 GRPO 에서 loss 를 구하는 방법을 코드와 이론 관점으로 쉽게 설명하고자 하였다.본 포스팅은 GRPO 탄생의 배경이 된 PPO 알고리즘에 대해 마찬가지로 loss 구하는 방법을 코드와 이론 관점으로 쉽게 설명하고자 한다.포스팅 맨 마지막에 필자가 PPO 를 공부하면서 스스로 질문한 바가 있으니 이 또한 참고하기 바란다. 개인적으로 독자들에게 이 내용이 가장 큰 인사이트가 되지 않을까 생각한다.※ 시작하기에 앞서 필자의 이전 포스팅을 먼저 보는걸 추천한다.[RL] Group Relative Policy Optimization(GRPO) 쉽게 설명하기 참고 링크: trl/experimental/ppo/ppo_trainer.py본 포스팅은 PPO 논문과 TRL 내 PPO 학습 코드 중 .. 2026. 1. 17. [RL] Group Relative Policy Optimization(GRPO) 쉽게 설명하기 LLM 을 RL 으로 학습하면 성능 개선에 큰 도움이 된다는 사실은 요즘 DL 을 하는 사람들이라면 모두 안다.하지만 모든 데이터 사이언티스트가 PPO, DPO, GRPO 와 같은 학습 방식이 정확히 어떻게 구현되었는지 상세하게 알고 있지는 않다.하여 본 포스팅은 LLM 을 GRPO 로 학습 시 어떻게 loss 를 정의하는지 학습 방향에 대해 쉽게 설명하고자 한다.포스팅 맨 마지막에 필자가 GRPO 를 공부하면서 스스로 질문한 바가 있으니 이 또한 참고하기 바란다.ps. 필자는 재작년 말부터 작년까지 결혼 준비로 인해 LLM 을 RL 로 학습하는 로직에 대해 공부하지 못 했다... 뒤늦게 부랴부랴 하고 있다. 본 포스팅인 GRPO 를 시작으로 DPO, PPO 등과 같은 RL 학습 로직과 Simple 구현.. 2026. 1. 13. FSDP 쉽게 설명하기 작년부터 모델 학습 시 FSDP 를 많이 사용해왔다.한정된 자원 내에서 Large 모델을 학습할 때 가장 효율적인 방법이 FSDP 라고 생각하기 때문이다.본 포스팅에서는 Large 모델을 한정된 자원 내에서 효율적으로 학습할 수 있는 Accelerator 인 FSDP 에 대해 다룬다.모델 학습을 해본 사람이라면 누구나 이해할 수 있도록 쉽게 풀어쓰고자 한다.※ 시작하기에 앞서 필자의 이전 포스팅을 먼저 보는걸 추천한다.[창시모] DP vs DDP 정리목차1. FSDP 효율2. [NCCL] All-Gather & Reduce-Scatter 설명3. FSDP 연산 방식1. FSDP 효율FSDP(Fully Sharded Data Parallel) 는 PyTorch 네이티브 분산 학습 기술로, 모델 파라미터/그.. 2025. 5. 11. [PyTorch-Lightning: v2.5.1] 모델 학습, 검증, 추론 프레임워크 만드는 Tips 필자는 요즘 고전적인 Deep Learning 모델을 개발하기 위해 PyTorch-Lightning 을 활용한 모델 학습 및 평가 모듈을 개발하고 있다.개발을 하며 가장 최신 버전으로 공부중인 PyTorch-Lightning 의 기능에 대해 포스팅하고자 한다.PyTorch-Lightning 기능에 대한 포스팅은 대략 3개 정도 올릴 예정이다.본 포스팅에서는 Deep Learning 모델을 학습, 검증, 추론하는 프레임워크를 개발할 때 가독성과 일관성, 유지보수의 관점에서 어떻게 개발해야 하는지 개발 팁에 대해 다뤄보도록 하겠다.※ 시작하기에 앞서 필자의 이전 포스팅을 먼저 보는걸 추천한다.[PyTorch-Lightning: v2.5.1] LightningModule class 파악[PyTorch-Ligh.. 2025. 4. 23. [PyTorch-Lightning: v2.5.1] LightningDataModule class 파악 필자는 요즘 고전적인 Deep Learning 모델을 개발하기 위해 PyTorch-Lightning 을 활용한 모델 학습 및 평가 모듈을 개발하고 있다.개발을 하며 가장 최신 버전으로 공부중인 PyTorch-Lightning 의 기능에 대해 포스팅하고자 한다.PyTorch-Lightning 기능에 대한 포스팅은 대략 3개 정도 올릴 예정이다.본 포스팅에서는 LightningDataModule 에 대해 다뤄보도록 하겠다.※ 시작하기에 앞서 필자의 이전 포스팅인 [PyTorch-Lightning: v2.5.1] LightningModule class 파악 을 먼저 보기를 추천한다. 목차1. LightningDataModule 이란2. Method 역할 및 호출 시점3. Train.fit() 사용 시 인자로 .. 2025. 4. 18. [PyTorch-Lightning: v2.5.1] LightningModule class 파악 필자는 요즘 고전적인 Deep Learning 모델을 개발하기 위해 PyTorch-Lightning 을 활용한 모델 학습 및 평가 모듈을 개발하고 있다.개발을 하며 가장 최신 버전으로 공부중인 PyTorch-Lightning 의 기능에 대해 포스팅하고자 한다.PyTorch-Lightning 기능에 대한 포스팅은 대략 3개 정도 올릴 예정이다.그 중 본 포스팅에서는 LightningModule 에 대해 다뤄보도록 하겠다.목차1. 왜 PyTorch-Lightning 을 사용하는가?2. LightningModule 이란 3. v2.5.1 변경 사항 및 특징1. 왜 PyTorch-Lightning 을 사용하는가? 요즘 인공지능 쪽에서 가장 핫한 분야는 AI-Agent 이다.AI-Agent 에서 가장 중요한 De.. 2025. 4. 17. 이전 1 2 3 4 ··· 10 다음 반응형