본문 바로가기

전체 글88

FSDP 쉽게 설명하기 작년부터 모델 학습 시 FSDP 를 많이 사용해왔다.한정된 자원 내에서 Large 모델을 학습할 때 가장 효율적인 방법이 FSDP 라고 생각하기 때문이다.본 포스팅에서는 Large 모델을 한정된 자원 내에서 효율적으로 학습할 수 있는 Accelerator 인 FSDP 에 대해 다룬다.모델 학습을 해본 사람이라면 누구나 이해할 수 있도록 쉽게 풀어쓰고자 한다.※ 시작하기에 앞서 필자의 이전 포스팅을 먼저 보는걸 추천한다.[창시모] DP vs DDP 정리목차1. FSDP 효율2. [NCCL] All-Gather & Reduce-Scatter 설명3. FSDP 연산 방식1. FSDP 효율FSDP(Fully Sharded Data Parallel) 는 PyTorch 네이티브 분산 학습 기술로, 모델 파라미터/그.. 2025. 5. 11.

[PyTorch-Lightning: v2.5.1] 모델 학습, 검증, 추론 프레임워크 만드는 Tips 필자는 요즘 고전적인 Deep Learning 모델을 개발하기 위해 PyTorch-Lightning 을 활용한 모델 학습 및 평가 모듈을 개발하고 있다.개발을 하며 가장 최신 버전으로 공부중인 PyTorch-Lightning 의 기능에 대해 포스팅하고자 한다.PyTorch-Lightning 기능에 대한 포스팅은 대략 3개 정도 올릴 예정이다.본 포스팅에서는 Deep Learning 모델을 학습, 검증, 추론하는 프레임워크를 개발할 때 가독성과 일관성, 유지보수의 관점에서 어떻게 개발해야 하는지 개발 팁에 대해 다뤄보도록 하겠다.※ 시작하기에 앞서 필자의 이전 포스팅을 먼저 보는걸 추천한다.[PyTorch-Lightning: v2.5.1] LightningModule class 파악[PyTorch-Ligh.. 2025. 4. 23.

[PyTorch-Lightning: v2.5.1] LightningDataModule class 파악 필자는 요즘 고전적인 Deep Learning 모델을 개발하기 위해 PyTorch-Lightning 을 활용한 모델 학습 및 평가 모듈을 개발하고 있다.개발을 하며 가장 최신 버전으로 공부중인 PyTorch-Lightning 의 기능에 대해 포스팅하고자 한다.PyTorch-Lightning 기능에 대한 포스팅은 대략 3개 정도 올릴 예정이다.본 포스팅에서는 LightningDataModule 에 대해 다뤄보도록 하겠다.※ 시작하기에 앞서 필자의 이전 포스팅인 [PyTorch-Lightning: v2.5.1] LightningModule class 파악 을 먼저 보기를 추천한다. 목차1. LightningDataModule 이란2. Method 역할 및 호출 시점3. Train.fit() 사용 시 인자로 .. 2025. 4. 18.

[PyTorch-Lightning: v2.5.1] LightningModule class 파악 필자는 요즘 고전적인 Deep Learning 모델을 개발하기 위해 PyTorch-Lightning 을 활용한 모델 학습 및 평가 모듈을 개발하고 있다.개발을 하며 가장 최신 버전으로 공부중인 PyTorch-Lightning 의 기능에 대해 포스팅하고자 한다.PyTorch-Lightning 기능에 대한 포스팅은 대략 3개 정도 올릴 예정이다.그 중 본 포스팅에서는 LightningModule 에 대해 다뤄보도록 하겠다.목차1. 왜 PyTorch-Lightning 을 사용하는가?2. LightningModule 이란 3. v2.5.1 변경 사항 및 특징1. 왜 PyTorch-Lightning 을 사용하는가? 요즘 인공지능 쪽에서 가장 핫한 분야는 AI-Agent 이다.AI-Agent 에서 가장 중요한 De.. 2025. 4. 17.

[PyTorch] nn.Transformer 모델 구조 상세 확인 17년도 Attention is all you need 논문 이후로 대 Transformer 구조의 시대에 살고 있다.NLP 의 역사를 돌아보면 슬슬 새로운 Architecture 가 나올 타이밍이긴 하지만 아직은 대 Transformer 구조의 시대가 지속되고 있다고 해도 과언이 아니다. (요즘에는 디퓨전 모델과 같은 방식으로 텍스트를 생성하는 방식이 뜨고 있는 것 같긴 하지만 필자 생각에는 이 또한 Transformer 구조다.)생성형 모델의 가치가 엄청나게 높아진 요즘 생성형 모델의 근간이 되는 Decoder 모델의 아버지이자 어머니인 Transformer 모델의 구조는 어땠는지를 확인해봤다.본 포스팅은 실무자를 위한 내용으로 Transformer 구조를 상세하게 다루었다.목차1. Transfor.. 2025. 3. 12.

[LLaMA-Factory] LoRA Adapter 확인 LLM 오픈소스 중 가장 유명한 LLaMA-Factory 를 파악하고 있다.그 중 학습 시 LoRA 를 활용한다면 어떤 Adapter 를 생성하여 학습하는지 확인했다.본 포스팅은 오픈소스인 LLaMA-Factory 에서 LoRA 활용한 학습 시 Adapter 및 arguments 셋팅이 어떻게 되어 있는지 코드를 통해 확인한 결과를 소개한다.목차1. 실무자는 바쁘다.! 결론부터 말씀드릴게요.2. 생성되는 LoRA Adapter 확인 및 커스터마이즈 3. LoRA Config 설정 for Hyper-Parameter 셋팅4. 필자 리뷰 LLaMA-Factory github 바로가기1. 실무자는 바쁘다.! 결론부터 말씀드릴게요.필자가 파악하고자 한 주요 원인은 다음과 같다.LLaMA-Factory 로 내가 .. 2025. 2. 27.

[LLaMA-Factory] Tokenizer padding_side 확인 LLM 오픈소스 중 가장 유명한 LLaMA-Factory 를 파악하고 있다.그 중 SFT 학습 시 Tokenizer padding_side 를 어떻게 설정하는지 확인했다.본 포스팅은 오픈소스인 LLaMA-Factory 에서 SFT 학습 시 Tokenizer padding_side 셋팅이 어떻게 되어 있는지 코드를 통해 확인한 결과를 소개한다.목차1. 실무자는 바쁘다.! 결론부터 말씀드릴게요.2. padding_side = 'right' 에 의한 데이터 구성3. padding_side = 'left' 에 의한 데이터 구성 4. 필자 리뷰 LLaMA-Factory github 바로가기1. 실무자는 바쁘다.! 결론부터 말씀드릴게요.필자가 파악하고자 한 주요 원인은 다음과 같다.LLaMA-Factory 로 내가.. 2025. 2. 22.

[독후감] 피터 드러커 자기경영노트 > 적용점 정리 약 한 달 전에 `피터 드러커 자기경영노트` 책을 읽었다.두 번째 읽었는데 업무에 대한 관점이 달라져서인지 그간 성장해서인지 굉장히 많은 인사이트와 적용점이 있음을 깨닫고 독후감을 쓰게 되었다.책에서 어떤 언급을 했는지를 그대로 옮겨 적고 업무 및 삶에 적용점을 찾는 목적으로 독후감을 쓴다. ※ 예상 독자: 자기경영노트를 읽고 다른 사람의 적용점을 확인하고 싶은 `일잘러 ` 목차1. 자기경영노트 목차 및 내용 기록 리스트2. 적용점1. 자기경영노트 목차 및 내용 기록 리스트 시작하며: 어떻게 목표를 달성하는 경영자가 될 수 있는가 더보기목표를 달성하는 경영자는 자신의 자원을 분산하지 않는다. 그들은 모든 일이 가능해도 한 가지 과업에 집중한다. 만약 그들이 업무 전환에 탁월한 극소수에 속하여 최선을 다한.. 2025. 2. 17.

[LLaMA-Factory] PT&SFT 학습 데이터는 어떻게 만들어지는가? LLM 오픈소스 중 가장 유명한 LLaMA-Factory 를 파악하고 있다.그중 Pretrain(a.k.a PT) 과 Supervised Fine-Tuning(a.k.a SFT) 에서 학습 데이터를 어떤 형태로 만드는지 실무자로서 가장 궁금했다.추후에 회사 프로젝트에서 sLLM 을 학습해야 한다면 LLaMA-Factory 도 좋은 수단으로 생각했기 때문에 데이터는 어떤 형태로 구성되는지 소스 코드를 통해 상세하게 파악할 필요가 있었기 때문이다.본 포스팅은 오픈소스인 LLaMA-Factory 에서 PT, SFT 학습 시 학습 데이터를 어떻게 encode 하는지 그 과정과 결과를 소개한다.목차1. 실무자는 바쁘다.! 결론부터 말씀드릴게요.2. PT 학습 시 학습 데이터 형태3. SFT 학습 시 학습 데이터 .. 2025. 1. 22.

[논문 리뷰] 실무자를 위한 SAINT 논문 리뷰 SAINT 는 Riiid AI Research team 에서 2020년 2월 14일에 투고한 논문으로 학생의 지식 수준을 측정하는 목적의 Deep Learning Model 에 관한 내용이다.Transformer architecture 를 기반으로 Knowledge Tracing task 를 수행하였다.본 포스팅을 읽기 전에 필자가 이론편으로 업로드한 SAINT 와 SAINT+ 에 대해 먼저 확인하는 걸 추천한다.1. SAINT 논문 이론 링크 바로가기2. SAINT+ 논문 이론 링크 바로가목차1. 코드 재현을 위해 참고한 링크 소개2. 데이터셋 소개3. 데이터 Input 형태 확인4. 모델 구조5. 필자 리뷰 1. 코드 재현을 위해 참고한 링크 소개 먼저 필자가 재직하는 회사의 개발 서버는 cuda v.. 2025. 1. 18.

이전 1 2 3 4 ··· 9 다음

티스토리툴바