青空文庫IME辞書データ

青空文庫のデータから自動生成した、Microsoft IME用辞書データ

はじまりはこの

「これ、もっとまともな用途に使えるんじゃね…？」と思ったのが事の発端。
青空文庫に収録された様々な文章表現を辞書データとしてまとめました。

Python +
GiNZA(自然言語処理担当その1) +
spaCy(自然言語処理担当その2) +
pykakasi(自然言語処理担当その3) +
青空文庫(aozorahackさんのaozorabunko_text（ https://github.com/aozorahack/aozorabunko_text ）を使用)

を使用しています。

ダウンロード

生成された生データ自体はDictionary.txtですが、サイズが100MBを超えるためgithubに上げられません。
当初は外部ストレージにでも保存しようか（あるいはGit LFSにリポジトリを対応させよう）…と思っていたのですが、
・生成されたDictionary.txtが890MB
・収録単語が22,926,613単語（重複あり）
・推定5,000,000単語（重複無し）
・推定で5%ほどをIMEに読み込んだ段階で丸2日経過
・その時点でIMEが内部で保持する専用フォーマットの辞書ファイルが1GB超え

などが発生した上、IMEがこの辞書の単語を優先的に変換候補に出してくるせいで学習辞書が働かなくなるため、実用に堪えませんでした。
利用したいという方は是非ご自分で辞書ファイルを生成してください（或いはツイッターの方で私に呼び掛けていただければ生データが残っていれば送ります）。

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.gitignore		.gitignore
Dictionary_Generator_v1.py		Dictionary_Generator_v1.py
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

青空文庫IME辞書データ

青空文庫のデータから自動生成した、Microsoft IME用辞書データ

ダウンロード

About

Releases

Packages

Languages

License

taksas/AOZORA_IME_Dictionary

Folders and files

Latest commit

History

Repository files navigation

青空文庫IME辞書データ

青空文庫のデータから自動生成した、Microsoft IME用辞書データ

ダウンロード

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages