教師なし品詞推定の論文4本の実装を目標にしています。
実装状況
-
A Fully Bayesian Approach to Unsupervised Part-of-Speech Tagging
-
Embedded HMMに基づくiTHMMのforward-backwardによる学習
https://github.com/wojzaremba/lstm/tree/master/dataからPenn TreeBankのテキストデータをダウンロードできます。
text/ptb.txt
は上記データのptb.train.txt
とptb.valid.txt
を結合したものになります。
http://www.aozora.gr.jp/cards/000148/card773.htmlからダウンロードできます。
text/kokoro.txt
は上記データに前処理を施したものになります。
http://www.aozora.gr.jp/cards/000148/card789.htmlからダウンロードできます。
text/neko.txt
は上記データに前処理を施したものになります。