-
Notifications
You must be signed in to change notification settings - Fork 5.6k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
分布式稳定性测试 #11289
Comments
其他的配置,用CI去做吧,放到CE的话跑一次时间太长了。验证的模型中,seq2seq包含稀疏embedding的话其实也可以覆盖稀疏场景的用例。 后续也需要加上分布式稀疏场景的验证。 |
这个issue不包含最终精度对奇? |
我觉得直接使用: 2个ps,2个trainer, nccl用2个trainer; 这样的参数规模就挺好; 既照顾到了多pservers, 多trainers的情况, 同时也省CE资源, 加速测试 |
您好,此issue在近一个月内暂无更新,我们将于今天内关闭。若在关闭后您仍需跟进提问,可重新开启此问题,我们将在24小时内回复您。因关闭带来的不便我们深表歉意,请您谅解~感谢您对PaddlePaddle的支持! |
1.功能验证
主要需要验证在不同的参数和运行条件时,多机功能的正常。需要考虑如下维度:
(1) 模型
(2)多机训练规模
(3) 训练相关配置
以上的维度,进行组合测试,验证功能,主要关注训练速度、训练收敛。
2.持续稳定性验证
验证对一些比较大的模型进行持续训练时的稳定情况。
(1) 模型
(2)训练规模
(3)训练相关配置
主要关注训练收敛度、速度、内存占用。可以持续稳定的训练较长时间(1-2天)
The text was updated successfully, but these errors were encountered: