Skip to content

青空文庫のデータから自動生成した、Microsoft IME用辞書データ

License

Notifications You must be signed in to change notification settings

taksas/AOZORA_IME_Dictionary

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 

Repository files navigation

青空文庫IME辞書データ

青空文庫のデータから自動生成した、Microsoft IME用辞書データ



はじまりはこの

リポジトリ




「これ、もっとまともな用途に使えるんじゃね…?」と思ったのが事の発端。
青空文庫に収録された様々な文章表現を辞書データとしてまとめました。

Python +
GiNZA(自然言語処理担当その1) +
spaCy(自然言語処理担当その2) +
pykakasi(自然言語処理担当その3) +
青空文庫(aozorahackさんのaozorabunko_text( https://github.com/aozorahack/aozorabunko_text )を使用)

を使用しています。

ダウンロード

生成された生データ自体はDictionary.txtですが、サイズが100MBを超えるためgithubに上げられません。
当初は外部ストレージにでも保存しようか(あるいはGit LFSにリポジトリを対応させよう)…と思っていたのですが、
・生成されたDictionary.txtが890MB
・収録単語が22,926,613単語(重複あり)
・推定5,000,000単語(重複無し)
・推定で5%ほどをIMEに読み込んだ段階で丸2日経過
・その時点でIMEが内部で保持する専用フォーマットの辞書ファイルが1GB超え

などが発生した上、IMEがこの辞書の単語を優先的に変換候補に出してくるせいで学習辞書が働かなくなるため、実用に堪えませんでした。
利用したいという方は是非ご自分で辞書ファイルを生成してください(或いはツイッターの方で私に呼び掛けていただければ生データが残っていれば送ります)。

About

青空文庫のデータから自動生成した、Microsoft IME用辞書データ

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages