本倉庫係 rime-cantonese 嘅上游詞表。rime-cantonese 作為下游輸入法碼表會通過 CI 自動從本倉庫揸取更新構建新碼表。
呢個上游詞表會將所有詞條分成以下幾類,每類對應一個文件:
char.csv
:單字音variant.csv
:異體字分類word.csv
:常用詞fixed_expressions.csv
:成語、諺語、歇後語、文言短句phrase_fragment.csv
:短句、文字碎片、常見輸入組合、ngramtrending.csv
未分類嘅流行詞
char | jyutping | pron_rank | tone_var | literary_vernacular | comment |
---|---|---|---|---|---|
漢字 Unicode | 粵拼:漢字對應嘅粵拼發音 | 發音常見度:
|
該發音是否本調變調:
|
該發音是否文白異讀:
|
該發音例子、解釋:
|
高升變調唔歸入白讀
,歸入變調
。-aak
/-ak
互換、ek
/ik
等等先歸入白讀
。濁上歸去嘅陽去讀音歸入文讀
,陽上讀音歸入白讀
。
variant.csv
係用嚟將一啲異體字壓低個排序。因為 essay
收集數據嘅範圍書面語比較多,一啲粵語先用嘅字頻率反而會低過啲其他語言嘅異體字,所以要根據呢個表去調校返單字嘅排序。
char | class | normal_char | comment |
---|---|---|---|
漢字 | 分類:
|
現代繁體中文使用嘅常用字(如適用) | 其他解釋 |
正常嚟講字表唔應該有簡化字(例如:银、纲),但係部分簡體中文會用到嘅字屬於俗字或者古字,例如「国」、「网」、「碍」,呢啲 case 就可以標做「罕見」。
標成「日文」唔代表得日文先用,大部分日文新字體都係以前曾經流通過嘅字形。
- 區分 ng-/∅- 聲母,統一剩收原讀音,唔收混淆後嘅讀音。
- 除簡化漢字外,所有異體字字形都收錄。字形轉換交畀 OpenCC 處理。
- 唔收懶音,例如 n-/l- 混淆音
- 同單字音一樣,區分 ng-/∅- 聲母。
- 所有詞條全部標準化成 OpenCC 字形。
- 詞語標音全部記作實際發音,即係變調後嘅發音。
單字音主數據源
- LSHK 電腦用漢字粵語拼音表 https://github.com/lshk-org/jyutping-table
參考數據源
詞條主數據源
- 粵典
- 冚唪唥粵文
- 《實用廣州話分類詞典》
- A Dictionary of Cantonese Slang
- 《廣州話詞典》
- 《地道廣州話用語》
- laubonghaudoi
- Ayaka
- Leimaau
- Chaak
- Bing Cheung
- Cherry
- Lili Ou
- Philip Wong
- Henry Chan
- Alex Man