2017年7月17日月曜日

ネット記事を集めたコーパスで学習曲線を作ってみた

Googleで疾患名を入力して検索した結果を集めて作ったコーパスを利用してベイズ学習をやった結果を下表に示す。分類はscikit-learnのMultipleNBを使って行い、性能は10-fold交差検証テストで評価した。

表1 ネット記事の分類実験の結果

これをグラフにして学習曲線を描いたのが下図である。


図1 ネット記事によるコーパスの学習曲線

1疾患当たりの学習データ件数が50のとき、Accuracyは最大の0.9を示した。このグラフから、データをさらに増やすと性能がさらに向上する可能性がみられる。

モデル係数の調査

ベイズモデルのモデル係数が最も大きい20の特徴量と最も小さい20の特徴量を 図2~6に示す。

図2 子宮頸がんのモデル係数
図3 子宮体癌のモデル係数
図4 子宮内膜症のモデル係数
図5 子宮筋腫のモデル係数
図6 卵巣腫瘍のモデル係数
いずれの疾患も最小の25の特徴量はおそらくアンダーフローしている。分類の貢献している特徴量を見ると「おり」「もの」があるが、これは「おりもの」が過分割されているものであろう。ユーザ辞書を作って過分割を抑える必要がある。

0 件のコメント:

コメントを投稿