2017年4月12日水曜日

ナイーブベイズ分類器

KH Coderのナイーブベイズ分類器を使って論文の抄録を分類してみました。

【方法】
コーパスは医学中央雑誌からダウンロードした論文の抄録です。検索条件として「子宮頸がん」, 「子宮内膜症」, 「子宮体癌」, 「子宮筋腫」, 「卵巣腫瘍」を指定し、得られた論文からそれぞれ10件ずつ、合計50件の論文の抄録を抽出して実験用データを作成します。
50件の実験データは10個に分割され、9つのデータで学習した結果を残りの1件でテストします。この学習とテストを10回繰り返します。これを交差妥当性テストと言います。

【結果】

交差妥当性の結果を下表に示します。



正解率は42.0%でした。交差妥当性テストはやるたびに値が変わります。学習が不安定だと結果は大きくばらつくでしょう。そこで、交差妥当性テストを10回やって結果を箱ひげ図で表すことにします。
このようにして、抽出する論文数を20件、30件、・・・と増やしながら正解率がどのように変化していくかを調べます。横軸に抽出する抄録数、縦軸に正解率をとってグラフを描くとよいでしょう。その場合。正答率は箱ひげ図にするのがポイントです。おそらくコーパスのサイズに応じて正解率は上昇し、なおかつ分類器が安定してくるので箱ひげ図によって正解率のばらつきも小さくなることがわかるでしょう。正解率がある程度頭打ちになったら、それ以上コーパスサイズを上げても分類器の精度向上は望めないので打ち切ります。

0 件のコメント:

コメントを投稿