[창시모] Pytorch Multi-GPU 정리

출처: better-tomorrow 님의 tistory

모든 창작의 시작은 모방(a.k.a 창시모)에서 나온다고 했었나..? 예전부터 Multi-GPU 용어 관련 정리를 해야겠다 생각했는데 마침 잘 정리된 글이 있어 모방한다. (말이 모방이지 사실 복붙이다...)
원본 글은 여기( link )를 참고하길 바란다.

용어

노드(node): 분산 처리에서는 GPU가 달려 있는 machine을 node라는 용어로 지칭
- 컴퓨터가 한 대 이면 node 1, 컴퓨터가 두 대 이면 node 2
World Size: 작업에 사용되는 프로세스들의 개수 (즉, 분산 처리에서 사용할 총 gpu 개수)
RANK: Rank는 Data Distributed Parallel에서 가동되는 process ID
- Global Rank: 전체 node에 가동되는 process id
- Local Rank: 각 node별 process id
Local Rank: 노드 내 프로세스의 로컬 순위
- Local Rank 관련해서는 더 자세하게 추후에 정리가 필요할 것 같다.

함수

PyTorch를 사용하여 분산 처리 학습을 하려면 아래의 method를 사용해야 한다.
아마 Pre-train BERT 모델을 학습해 봤다면 익숙한 함수일 것이다.

torch.distributed.init_process_group()

여기서 보통 backend와, init_method, world_size, rank를 선택하는데
world_size와 rank는 위에서 언급한 것과 맞춰 넣어주면 된다.

backend의 경우는 , Gloo, MPI, NCCL의 옵션이 있다. 보통은 NCCL이 GPU 기반 학습에서 사용하는 것이 좋다고 한다. 필자는 그것도 모르고 그냥 NCCL로 학습을 했던 기억이 있다...
- NCCL은 분산 GPU 학습 시, Gloo는 분산 CPU 학습 시, MPI는 고성능 컴퓨팅 시 필요하다고 한다.
- 여기( link )를 참고하면 더 자세한 정보를 알 수 있다.
init_method
- URL specifying how to initialize the process group 이라고 하는데... 솔직히 뭔 소린지 모르겠다. process 계산을 위한 설정인가..?
- init method는 각 프로세스가 서로 탐색하는 방법
- 통신 backend를 사용하여 프로세스 그룹을 초기화하고 확인하는 방법을 알려준다.
- init_method가 지정되어 있지 않으면 Pytorch에서는 환경 변수 초기화 메서드(env://)를 사용
torch.distributed.barrier
- 전체 프로세스를 동기화
- 이 collective는 async_op가 False인 경우 또는 wait()에서 비동기 작업 핸들이 호출되는 경우 전체 그룹이 이 함수에 들어갈 때까지 프로세스를 차단.
- 여기 ( link_1, link_2, link_3 )를 참고하면 더 자세한 정보를 알 수 있다.

TBP

(To Be Posting 의 의미)

'널널한 개발자'라는 유튜브 채널에서 process와 같은 컴퓨팅 처리 방식을 잘 설명해준다. 추후에는 해당 유튜브에서 설명한 process를 공부할겸 포스팅하려 한다.
그리고 분산 처리 학습의 종류에는 크게 DP와 DDP가 있다. DP와 DDP가 무엇인지, 어떻게 다른지 포스팅하도록 하겠다.

저작자표시 비영리 변경금지

'Python > Study' 카테고리의 다른 글

[class 기능 정리] 코딩을 깔끔하게 해주는 기능 (0)	2022.08.12
[Super] 상속에 사용하는 Super 함수 알아보기 (0)	2022.08.03
[Overriding] 오버라이딩을 이용한 코드 수정 (0)	2022.08.02
[소개] ONNX 란? (0)	2022.07.27
[Package] 파이썬 코드 패키지화 → setup.py (0)	2022.07.11

Beeny is all you need

[창시모] Pytorch Multi-GPU 정리

출처: better-tomorrow 님의 tistory

용어

함수

TBP

'Python > Study' 카테고리의 다른 글

댓글

티스토리툴바

[창시모] Pytorch Multi-GPU 정리

출처: better-tomorrow 님의 tistory

용어

함수

TBP

'Python > Study' 카테고리의 다른 글

관련글

댓글

티스토리툴바