NLP2016(2016)
半教師あり形態素解析 NPYCRF の修正
本研究のテーマは「大量の文書から辞書に載っていない新語・俗語・略語などの検出できるか?」です。日本語を含む単語の境界が自明でない言語に対する「分かち書き」タスクに関する研究で、学習データに含まれる単語についてはCRFというモデルで高精度が達成されています。一方、大量の教師なしデータから単語らしい文字列を発見できるNPYLMというモデル、さらに両者を合体させたNPYCRFというモデルが提案されましたが、合体モデルの振る舞いは不安定でした。本研究ではNPYCRF論文の誤りを訂正することで精度が高いまま辞書外の単語も検出できる道筋を示しました。
言語処理学会 第22回年次大会 発表論文集 (2016年3月)
この記事はいかがでしたか?