更大的模型需要更多的block吗？ #18

PoseidomWong · 2024-03-13T07:40:25Z

如果想把llama-pro应用到更大的模型中比如34B、72B，那么是否需要按比例增大block的数量？这方面的实验是否有做过呢？

hills-code · 2024-03-13T07:46:08Z

我们也在探索更大的模型，不过这样的实验很需要资源，目前为止我们探索了在不同架构，如mistral上的扩展，取得了一定的效果，如Mistral-Pro，后续我们也会进一步探索这方面的idea。我们发现yi也最近使用深度扩展进行了数学代码的训练，Yi-9B，他扩展了16层，我相信复制的位置，复制的层数，还是有很多值得研究的地方，我们会逐步研究的。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

更大的模型需要更多的block吗？ #18

更大的模型需要更多的block吗？ #18

PoseidomWong commented Mar 13, 2024

hills-code commented Mar 13, 2024 •

edited

Loading

更大的模型需要更多的block吗？ #18

更大的模型需要更多的block吗？ #18

Comments

PoseidomWong commented Mar 13, 2024

hills-code commented Mar 13, 2024 • edited Loading

hills-code commented Mar 13, 2024 •

edited

Loading