Python/PyTorch1 FSDP 쉽게 설명하기 작년부터 모델 학습 시 FSDP 를 많이 사용해왔다.한정된 자원 내에서 Large 모델을 학습할 때 가장 효율적인 방법이 FSDP 라고 생각하기 때문이다.본 포스팅에서는 Large 모델을 한정된 자원 내에서 효율적으로 학습할 수 있는 Accelerator 인 FSDP 에 대해 다룬다.모델 학습을 해본 사람이라면 누구나 이해할 수 있도록 쉽게 풀어쓰고자 한다.※ 시작하기에 앞서 필자의 이전 포스팅을 먼저 보는걸 추천한다.[창시모] DP vs DDP 정리목차1. FSDP 효율2. [NCCL] All-Gather & Reduce-Scatter 설명3. FSDP 연산 방식1. FSDP 효율FSDP(Fully Sharded Data Parallel) 는 PyTorch 네이티브 분산 학습 기술로, 모델 파라미터/그.. 2025. 5. 11. 이전 1 다음 반응형