pytorch · briankosw · Dec 6, 2020 · romesco · Jan 13, 2021 · omry
diff --git a/examples/ddp_00.py b/examples/ddp_00.py
@@ -0,0 +1,50 @@
+from dataclasses import dataclass, field
+import logging
+import os
+from typing import Any, List
+
+import hydra
+from hydra.core.config_store import ConfigStore
+from omegaconf import DictConfig, MISSING
+import torch
+import torch.distributed as dist
+
+log = logging.getLogger(__name__)
+
+
+defaults = [
+    {"hydra/launcher": "joblib"}
-    {"hydra/launcher": "joblib"}
+    {"override hydra/launcher": "joblib"}
-    {"hydra/launcher": "joblib"}
+    {"override hydra/launcher": "joblib"}
+]
+
+@dataclass
+class DDPConf:
+    defaults: List[Any] = field(default_factory=lambda: defaults)
+    backend: str = "gloo"
+    init_method: str = MISSING
-    init_method: str = MISSING
+    MASTER_ADDR: str = "127.0.0.1"
+    MASTER_PORT: str = str(random.randint(48620,49150))
+    init_method: str = "tcp://" + MASTER_ADDR + ":" + MASTER_PORT
-    init_method: str = MISSING
+    MASTER_ADDR: str = "127.0.0.1"
+    MASTER_PORT: str = str(random.randint(48620,49150))
+    init_method: str = "tcp://" + MASTER_ADDR + ":" + MASTER_PORT
+    world_size: int = 4
-    world_size: int = 4
+    nodes: int = 1
+    gpus_per_node: int = 2
+    world_size: int = nodes * gpus_per_node
-    world_size: int = 4
+    nodes: int = 1
+    gpus_per_node: int = 2
+    world_size: int = nodes * gpus_per_node
+    rank: int = 0
+
+
+cs = ConfigStore.instance()
+cs.store(name="ddp", node=DDPConf)
+
+
+@hydra.main(config_name="ddp")
+def main(cfg: DictConfig):
+    dist.init_process_group(
+        backend=cfg.backend,
+        init_method=cfg.init_method,
+        world_size=cfg.world_size,
+        rank=cfg.rank,
+    )
+    group = dist.new_group(list(range(cfg.world_size)))
+    value = torch.tensor([cfg.rank])
+    log.info(f"Rank {cfg.rank} - Value: {value}")
+    dist.reduce(value, dst=0, op=dist.ReduceOp.SUM, group=group)
+    if cfg.rank == 0:
+        average = value / 4.0
+        log.info(f"Rank {cfg.rank} - Average: {average}")
+
+
+if __name__ == "__main__":
+    main()