We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
@ray1007 作者,您好,我读过了您的论文,关于整个的训练过程,我的理解是 (1)先找好语料,构建位图,训练convAE,抽取出 glyphs features (2)通过上述的 glyphs,去增强word representation的表达
我有如下疑问: (1)我看github文件中,您只放出了char_glyph_feat.txt文件,那使用char_glyph_feat增强得到的词向量/子向量,是需要我们自己根据我们自己的数据集去训练吗 (2)我看您使用的是繁体中文得到的char_glyph_feat,那如果我的数据集是简体中文,按照上面的训练过程,我是需要自己构建位图,训练模型提取char_glyph_feat,然后再去做 词/字向量的 增强是吗
非常感谢您做的这些关于中文词向量的研究,同时希望能得到您的解答。
The text was updated successfully, but these errors were encountered:
(1) 是的,這部分是需要您自行從語料去訓練的。不公開作為初始值的詞向量與增強後的詞向量,是因為當時訓練語料來自 LDC 的中文gigaword。由於是實驗室取得授權,為了避免有授權的問題所以並未上傳。
(2) 是的。供您參考:我當初是使用 Pillow 產生中文字的bitmap,再餵進convAE。
希望能幫助到您,也祝您研究順利!
Sorry, something went wrong.
No branches or pull requests
@ray1007 作者,您好,我读过了您的论文,关于整个的训练过程,我的理解是
(1)先找好语料,构建位图,训练convAE,抽取出 glyphs features
(2)通过上述的 glyphs,去增强word representation的表达
我有如下疑问:
(1)我看github文件中,您只放出了char_glyph_feat.txt文件,那使用char_glyph_feat增强得到的词向量/子向量,是需要我们自己根据我们自己的数据集去训练吗
(2)我看您使用的是繁体中文得到的char_glyph_feat,那如果我的数据集是简体中文,按照上面的训练过程,我是需要自己构建位图,训练模型提取char_glyph_feat,然后再去做 词/字向量的 增强是吗
非常感谢您做的这些关于中文词向量的研究,同时希望能得到您的解答。
The text was updated successfully, but these errors were encountered: