-
Notifications
You must be signed in to change notification settings - Fork 0
青空文庫のデータから自動生成した、Microsoft IME用辞書データ
License
taksas/AOZORA_IME_Dictionary
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
はじまりはこの
「これ、もっとまともな用途に使えるんじゃね…?」と思ったのが事の発端。
青空文庫に収録された様々な文章表現を辞書データとしてまとめました。
Python +
GiNZA(自然言語処理担当その1) +
spaCy(自然言語処理担当その2) +
pykakasi(自然言語処理担当その3) +
青空文庫(aozorahackさんのaozorabunko_text( https://github.com/aozorahack/aozorabunko_text )を使用)
を使用しています。
生成された生データ自体はDictionary.txtですが、サイズが100MBを超えるためgithubに上げられません。
当初は外部ストレージにでも保存しようか(あるいはGit LFSにリポジトリを対応させよう)…と思っていたのですが、
・生成されたDictionary.txtが890MB
・収録単語が22,926,613単語(重複あり)
・推定5,000,000単語(重複無し)
・推定で5%ほどをIMEに読み込んだ段階で丸2日経過
・その時点でIMEが内部で保持する専用フォーマットの辞書ファイルが1GB超え
などが発生した上、IMEがこの辞書の単語を優先的に変換候補に出してくるせいで学習辞書が働かなくなるため、実用に堪えませんでした。
利用したいという方は是非ご自分で辞書ファイルを生成してください(或いはツイッターの方で私に呼び掛けていただければ生データが残っていれば送ります)。
About
青空文庫のデータから自動生成した、Microsoft IME用辞書データ
Resources
License
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published