2017年5月31日水曜日

ナイーブベイズ分類に対する考察

ナイーブベイズ分類器による抄録(医中誌で検索した論文・症例報告集)の分類問題で、正解率が7割を超えるには、素性として利用する形態素の出現頻度が200語を超える場合との結果が出ましたが、これは分類器がコーパスに過学習しているものと思われます。ですからコーパスを変えると、正解率がぐっと下がってしまうかもしれません。出現頻度が200を超える形態素って一体どんな形態素なんでしょう?見てみたいものです。それから、コンフュージョンマトリックスも見たいです。出せますか?
さて、今、論文の抄録を学習して疾患分類問題をやっていますが、実際は論文ではなく、アプリから入力した症状を用いて疾患を予測するというシナリオになっています。ですから、現コーパスを使って僅か数パーセントの正解率を上げるためにいろいろやってみるのははっきり言って時間の無駄です。それよりもネットから集めた、より一般の人でもわかるような文章(実際、アプリユーザはそれを入力するのですから)のコーパスを作って、それを学習することが重要です。
それからもう一つ、機械学習の手法をベイズから他のものに変えるのも一つの手です。一般的な分類器として、SVM(サポート・ベクタ・マシン)、KNN(k近傍法)、Random Forestなどがあります。中でもRandom Forestは過学習に陥りにくいということです。

0 件のコメント:

コメントを投稿