[minor] support multi-node training #389

cdliang11 · 2024-11-29T06:56:53Z

No description provided.

cdliang11 · 2024-11-29T07:05:00Z

voxceleb/v2/run.sh and cnceleb/v2/run.sh have been verified.
The default setting is HOST_NODE_ADDR="localhost:0", which means single machine.

++++++++++++++++++++++++++++++++++++++++++

已验证 voxceleb/v2/run.sh / cnceleb/v2/run.sh
默认设置为HOST_NODE_ADDR="localhost:0" 表示单机

JiJiJiang · 2024-11-29T10:13:56Z

Please check the difference. @cdliang11

#131 by @czy97

cdliang11 · 2024-12-02T01:50:14Z

Please check the difference. @cdliang11

#131 by @czy97

ok，之前没注意这个#131 。
对比了下：

torchrun的用法相同
train.py中更改了一个小bug：gpu通过local_rank获取，否则会报list越界。
同时改了run.sh脚本，方便使用

JiJiJiang · 2024-12-02T05:27:51Z

examples/cnceleb/v2/run.sh

 stage=-1
 stop_stage=-1

+HOST_NODE_ADDR="localhost:0"


这里的port 0是必须的吗？0感觉更容易被系统进程占用的样子（torchrun的默认端口应该是29400）

如果是单机上跑两个多卡任务，是否把port 0改成其他值即可？（可以验证下）

part0不是必须的，可以随便改。可以统一改为29400。
单机跑两个多卡任务，用两个不同的端口号即可。

JiJiJiang

Good job!

czy97 · 2024-12-02T11:45:01Z

voxceleb/v2/run.sh and cnceleb/v2/run.sh have been verified. The default setting is HOST_NODE_ADDR="localhost:0", which means single machine.

++++++++++++++++++++++++++++++++++++++++++

已验证 voxceleb/v2/run.sh / cnceleb/v2/run.sh 默认设置为HOST_NODE_ADDR="localhost:0" 表示单机

chengdong @cdliang11 , 问一下，我看这里其实并没有显示指定哪个机器才是host_node, 是torchrun现在支持根据相同的job_id去找关联的进程，然后随机分配一个host_node吗？不知道我理解的对不对

cdliang11 · 2024-12-02T11:56:17Z

voxceleb/v2/run.sh and cnceleb/v2/run.sh have been verified. The default setting is HOST_NODE_ADDR="localhost:0", which means single machine.
++++++++++++++++++++++++++++++++++++++++++
已验证 voxceleb/v2/run.sh / cnceleb/v2/run.sh 默认设置为HOST_NODE_ADDR="localhost:0" 表示单机

chengdong @cdliang11 , 问一下，我看这里其实并没有显示指定哪个机器才是host_node, 是torchrun现在支持根据相同的job_id去找关联的进程，然后随机分配一个host_node吗？不知道我理解的对不对

指定master。
以voxceleb/v2为例，假设有两台机器，选172.16.0.101为master节点:

# 在172.16.0.101执行
bash run.sh --stage 3 --stop-stage 3 --HOST_NODE_ADDR "172.16.0.101:23333" --num_nodes 2
# 在172.16.0.102执行
bash run.sh --stage 3 --stop-stage 3 --HOST_NODE_ADDR "172.16.0.101:23333" --num_nodes 2

[train] support multi-node training

a160723

cdliang11 mentioned this pull request Nov 29, 2024

wespeaker多机多卡训练 #383

Closed

cdliang11 requested a review from JiJiJiang November 29, 2024 06:58

JiJiJiang reviewed Dec 2, 2024

View reviewed changes

[train] modify localhost:0 to localhost:29400

fb1c02e

cdliang11 changed the title ~~[train] support multi-node training~~ [minor] support multi-node training Dec 2, 2024

JiJiJiang approved these changes Dec 2, 2024

View reviewed changes

JiJiJiang merged commit d2e1bf2 into master Dec 2, 2024
4 checks passed

JiJiJiang deleted the chengdong-multi-node branch December 2, 2024 06:26

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[minor] support multi-node training #389

[minor] support multi-node training #389

cdliang11 commented Nov 29, 2024

cdliang11 commented Nov 29, 2024 •

edited

Loading

JiJiJiang commented Nov 29, 2024

cdliang11 commented Dec 2, 2024

JiJiJiang Dec 2, 2024 •

edited

Loading

cdliang11 Dec 2, 2024

JiJiJiang left a comment

czy97 commented Dec 2, 2024 •

edited

Loading

cdliang11 commented Dec 2, 2024

[minor] support multi-node training #389

[minor] support multi-node training #389

Conversation

cdliang11 commented Nov 29, 2024

cdliang11 commented Nov 29, 2024 • edited Loading

JiJiJiang commented Nov 29, 2024

cdliang11 commented Dec 2, 2024

JiJiJiang Dec 2, 2024 • edited Loading

Choose a reason for hiding this comment

cdliang11 Dec 2, 2024

Choose a reason for hiding this comment

JiJiJiang left a comment

Choose a reason for hiding this comment

czy97 commented Dec 2, 2024 • edited Loading

cdliang11 commented Dec 2, 2024

cdliang11 commented Nov 29, 2024 •

edited

Loading

JiJiJiang Dec 2, 2024 •

edited

Loading

czy97 commented Dec 2, 2024 •

edited

Loading