From d933bf72d4ac7e4d194151d294f316ebfc230871 Mon Sep 17 00:00:00 2001 From: Hojun Song <84840627+hojunking@users.noreply.github.com> Date: Tue, 15 Oct 2024 20:05:20 +0900 Subject: [PATCH] =?UTF-8?q?beginner=5Fsource/ddp=5Fseries=5Fintro.rst=20?= =?UTF-8?q?=EB=B2=88=EC=97=AD=20(#892)?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- beginner_source/ddp_series_intro.rst | 78 ++++++++++++---------------- 1 file changed, 32 insertions(+), 46 deletions(-) diff --git a/beginner_source/ddp_series_intro.rst b/beginner_source/ddp_series_intro.rst index 527a3cc1c..baeed0f28 100644 --- a/beginner_source/ddp_series_intro.rst +++ b/beginner_source/ddp_series_intro.rst @@ -1,15 +1,16 @@ -**Introduction** \|\| `What is DDP `__ \|\| -`Single-Node Multi-GPU Training `__ \|\| -`Fault Tolerance `__ \|\| -`Multi-Node training <../intermediate/ddp_series_multinode.html>`__ \|\| -`minGPT Training <../intermediate/ddp_series_minGPT.html>`__ +**소개** \|\| `DDP란 무엇인가 `__ \|\| +`단일 노드 다중-GPU 학습 `__ \|\| +`결함 내성 `__ \|\| +`다중 노드 학습 <../intermediate/ddp_series_multinode.html>`__ \|\| +`minGPT 학습 <../intermediate/ddp_series_minGPT.html>`__ -Distributed Data Parallel in PyTorch - Video Tutorials -====================================================== +PyTorch의 분산 데이터 병렬 처리 - 비디오 튜토리얼 +===================================================== -Authors: `Suraj Subramanian `__ +저자: `Suraj Subramanian `__ +번역: `송호준 `_ -Follow along with the video below or on `youtube `__. +아래 비디오를 보거나 `YouTube `__에서도 보실 수 있습니다. .. raw:: html @@ -17,40 +18,25 @@ Follow along with the video below or on `youtube -This series of video tutorials walks you through distributed training in -PyTorch via DDP. - -The series starts with a simple non-distributed training job, and ends -with deploying a training job across several machines in a cluster. -Along the way, you will also learn about -`torchrun `__ for -fault-tolerant distributed training. - -The tutorial assumes a basic familiarity with model training in PyTorch. - -Running the code ----------------- - -You will need multiple CUDA GPUs to run the tutorial code. Typically, -this can be done on a cloud instance with multiple GPUs (the tutorials -use an Amazon EC2 P3 instance with 4 GPUs). - -The tutorial code is hosted in this -`github repo `__. -Clone the repository and follow along! - -Tutorial sections ------------------ - -0. Introduction (this page) -1. `What is DDP? `__ Gently introduces what DDP is doing - under the hood -2. `Single-Node Multi-GPU Training `__ Training models - using multiple GPUs on a single machine -3. `Fault-tolerant distributed training `__ - Making your distributed training job robust with torchrun -4. `Multi-Node training <../intermediate/ddp_series_multinode.html>`__ Training models using - multiple GPUs on multiple machines -5. `Training a GPT model with DDP <../intermediate/ddp_series_minGPT.html>`__ “Real-world” - example of training a `minGPT `__ - model with DDP +이 비디오 튜토리얼 시리즈는 PyTorch에서 DDP(Distributed Data Parallel)를 사용한 분산 학습에 대해 안내합니다. + +이 시리즈는 단순한 비분산 학습 작업에서 시작하여, 클러스터 내 여러 기기들(multiple machines)에서 학습 작업을 배포하는 것으로 마무리됩니다. 이 과정에서 `torchrun `__을 사용한 결함 내성(fault-tolerant) 분산 학습에 대해서도 배우게 될 예정입니다. + +이 튜토리얼은 PyTorch에서 모델 학습에 대한 기본적인 이해를 전제로 하고 있습니다. + +코드 실행 +-------- + +튜토리얼 코드를 실행하려면 여러 개의 CUDA GPU가 필요합니다. 일반적으로 여러 GPU가 있는 클라우드 인스턴스에서 이를 수행할 수 있으며, 튜토리얼에서는 4개의 GPU가 탑재된 Amazon EC2 P3 인스턴스를 사용합니다. + +튜토리얼 코드는 이 `GitHub 저장소 `__에 올라와 있습니다. 저장소를 복제하고 함께 진행하세요! + +튜토리얼 섹션 +-------------- + +0. 소개 (이 페이지) +1. `DDP란 무엇인가? `__ DDP가 내부적으로 수행하는 작업에 대해 간단히 소개 +2. `단일 노드 멀티-GPU 학습 `__ 한 기기에서 여러 GPU를 사용하여 모델을 학습하는 방법 +3. `결함 내성 분산 학습 `__ torchrun을 사용하여 분산 학습 작업을 견고하게 만드는 방법 +4. `다중 노드 학습 <../intermediate/ddp_series_multinode.html>`__ 여러 기기에서 여러 GPU를 사용하여 모델을 학습하는 방법 +5. `DDP를 사용한 GPT 모델 학습 <../intermediate/ddp_series_minGPT.html>`__ DDP를 사용한 `minGPT `__ 모델 학습의 “실제 예시”