-
-
Notifications
You must be signed in to change notification settings - Fork 616
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
单字拼音预测有误 #263
Comments
单个汉字的拼音数据来自这个项目 https://github.com/mozillazg/pinyin-data 至于你说的【豉】,是有那个音的: https://www.homeinmists.com/hd/orgpage.html?page=3803 |
|
对于你的这个需求,可以考虑选择性的使用 https://github.com/mozillazg/pinyin-data 这个项目里的某些拼音数据覆盖默认的单字拼音数据,方法可以参考 #198 (comment) |
谢谢,那么我们现代汉语普通话所需的字库文件是哪个呢? |
可以看一下 cc_cedict.txt 。 BTW,并没有一个完全符合普通话标准的拼音数据,因为获取不到一份最新版准确无误的文本格式的标准普通话拼音数据,教育部好像也没有提供一个所谓的常用汉字标准普通话拼音数据库,似乎都是各大字典/词典编撰者自己维护自己的标准。 |
那就是至今没有一份统一标准的现代汉语普通话拼音字词典? 类似社科院语言所这类权威机构是否有释出相关数据? |
他们的标准就是他们编撰的《新华字典》、《现代汉语词典》。但是我们没法把它电子化为程序可解析的数据,严格来说是没有一个无版权限制的文本化可供编程使用的统一标准的现代汉语普通话拼音字/词典。 |
运行环境
问题描述
pypinyin 给出整个句子的拼音,跟单个字单个字给出的拼音不一样。有时候错误的非常厉害,不只是多音字错误问题。
问题复现步骤
pypinyin.pinyin("淡豆豉")
pypinyin.pinyin("豉") ---> shi4
豉不是多音字,应该没有 shi4这种读音的。
The text was updated successfully, but these errors were encountered: