-
Notifications
You must be signed in to change notification settings - Fork 112
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
训练我自己的数据集的时候,加载预训练模型一直报错 #4
Comments
第一个问题应该是缺少prefetch_generator库,https://pypi.org/project/prefetch_generator/ |
您好, |
|
抱歉忘说了,更新torch1.8以后lib里面的DCN库要重新编译一下就好了。如果没用到DCN可以把这些注释掉就行,这个是为GGHLv2.0预留的,这里没有用到。cd ./lib/DCNv2, sh make.sh |
您好,换成1.8也还是不好用,还是上面的那个错误,提示TypeError: barrier() got an unexpected keyword argument 'device_ids' |
在train_GGHL_dist.py的第104行,这里是多卡分布式训练DDP函数传入参数的位置,这里的参数是来自bash里面设置的值,错误应该是这里的devices_id传入的GPU id号或数量不对导致的 错误反馈的代码是在train_GGHL_dist.py的第129行 需要检查的是train_GGHL_dist.sh这里面的参数设置,我简单解释一下每个参数,麻烦您检查一下看看 下面这个是torch官方的tutorials,可以查到我上述内容更详细的解释 |
嗯嗯,torch1.7 torch1.8, torch1.10这几个版本的DDP函数都不一样,这里有坑,您再试试看看。然后train_GGHL_dist.py里面您看看local rank的设置有没有错,我检查一下这个。谢谢。 |
太感谢你啦,确实是torch版本的问题,改成1.8.1就可以了,之前1.8.0有问题,现在可以啦,还有个问题,就是模型保存的默认路径是在哪里呢,需要在哪修改呢 |
好的,谢谢啦,后面有问题再和您请教 |
OK~~互相交流学习😄 |
作者,你好,我在训练自己的数据集的时候,加载模型一直报错,能帮忙看下是什么问题吗
torch.nn.modules.module.ModuleAttributeError: 'DataParallel' object has no attribute 'load_darknet_weights'
The text was updated successfully, but these errors were encountered: