corpuscharacterlist.dict.yaml:现代汉语语料库汉字频率表
语料规模:2000万字,只列入出现次数大于5次的字。
汉字频率表没给出多音字在不同读音下的频率,以上注音选取多音字较常见读音
corpuswordlist.dict.yaml:现代汉语语料库词语频率表
语料规模:2000万字,只列入出现次数大于50次的词。
数据来源:语料库在线网站
sogouw.dict.yaml:互联网词库(SogouW)
互联网词库(SogouW)来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,标出了这部分词条的词频信息。
数据来源:搜狗实验室
示例:
我们 wo men 26823
一个 yi ge 24807
与 yu 23823
从 cong 23749
polyphones.dict.yaml:用以解决汉字频率表中的多音字注音的问题
因汉字频率表中并无多音字不同读音下的频率,故此表无汉字出现频率
数据来源:PolyphoneDisambiguation
示例:
乐 le
乐 yue
乘 cheng
乘 sheng
symbols.dict.yaml:部分数学符号、Emoji表情及希腊字母
拼音输出特殊符号(如☑,α,Ⅷ,⑧,😀等)
Emoji数据来源:fcitx-emoji
示例:
✓ gou
✖ cha
∫ jifen
∞ wuxian
α alpha
β beta
😂 xiaoku
😃 haha
Ⅶ qi
⑦ qi