-
Notifications
You must be signed in to change notification settings - Fork 900
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
无相关词相似性计量值过大的原因;请求分享训练Word2vec模型训练的参数、技巧 #43
Labels
Comments
训练过程,设置参数主要靠试。数据不同,最优的参数也会不同。 |
您好,我初学Python没多久,能力有限可能无法修复这个bug,但我也尽自己最大能力尝试了看看能否找出问题所在,学习您的代码后我发现有两个地方有些疑问如上图所示: 2. 您的编剧距离函数似乎不对,测试后发现变换字符后相似性保持不变,且与另一个Levenshtein.distance包里的编辑距离输出结果有差异,很抱歉我没能理清这个距离的计算方法并修改代码。好像求过编剧距离后再算相似性分母有好几种取法。 3. 我不太了解word2vec模型后面相似性计算的原理,有点奇怪相似性函数中为何采用系数5和0.8分别整合word2vec输出和编剧距离?是否有参考依据?这个系数是权重的意思吗(权重不该相加和为1)?不过从这个测试case来看,结果高得离谱好像还是编辑距离弄得(u * 0.8) 非常抱歉饿哦能做到的只有这些,确实不很了解算法原理,看了很久也不太明白,上述所提拙见仅供参考,如有不当请包涵,非常期待您能尽快找到并修复此bug,毕竟Python3现在的用户很不少了。。。 |
又做了一些优化,现在可以用2.5版本了,效果更好。 |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
description
1.使用Synonyms过程中发现其会过高估计无关联词的相似性,测试至今,感觉其输出的最小词相似度都是0.5左右(例如:synonyms.compare("骨折", "巴赫", seg=False)=0.544),是因为您在设计包时有意设计了这个下限吗?
2. 用户似乎不能再您训练的Word2vec模型中添加自己的语料再训练模型,请问您是否可将您基于中文wiki训练Word2vec模型的的参数设置情况分享给大家学习下?我在自己训练过程中发现模型表现不好,即便很相似的词,相似性也不超过0.28。。。。
3. 训练时参数设置和语料大小间的关联是否有些经验规则可以提升模型效果?
current
synonyms.compare("骨折", "巴赫", seg=False)=0.544
expected
后续建议: 建议后续开发允许用户自定义语料重新训练的模型,应用领域会更广。此外,建议有机会尝试下稍新点的glove模型,据说词相似性计量效果会更好。
solution
environment
Windows 10
The commit hash (
git rev-parse HEAD
)The text was updated successfully, but these errors were encountered: