2017年9月20日水曜日

疾患予測サーバの性能

医中誌抄録データで学習したベイズ分類器の分類実験を行った。
学習データは各カテゴリ500件,総数で2,500件の抄録である。KHcoderで抽出した複合語をMeCabのユーザ辞書に登録した。
まず,形態素解析で名詞のみ抽出した場合の混同行列を下表に示す。

疾患 keigan kinsyu naimaku ransou taigan 総計 再現率
keigan 147 14 13 8 18 200 73.5%
kinsyu 3 151 26 7 13 200 75.5%
naimaku 1 7 183 2 7 200 91.5%
ransou 9 4 13 162 12 200 81.0%
taigan 20 12 11 14 143 200 71.5%
総計 180 188 246 193 193 1000  
適合率 81.7% 80.3% 74.4% 83.9% 74.1%   78.6%

なお,ストップワードは設定していない。また,単語の出現頻度は1語以上とした。検証に用いたデータは,学習データとは異なる,ランダムに抽出した各カテゴリ200件のデータである。
正確度(Accuracy)は78.6%であった。

次にストップワードに「がん,癌,筋腫,子宮,子宮筋腫,子宮体がん,子宮体癌,子宮内膜症,子宮頸がん,子宮頸癌,腫瘍,内膜症,卵巣,卵巣腫瘍,」を設定した場合の結果を下表に示す。

疾患 keigan kinsyu naimaku ransou taigan 総計 再現率
keigan 133 16 16 9 26 200 66.5%
kinsyu 4 121 41 16 18 200 60.5%
naimaku 2 8 180 4 6 200 90.0%
ransou 9 5 17 155 14 200 77.5%
taigan 30 13 13 25 119 200 59.5%
総計 178 163 267 209 183 1000  
適合率 74.7% 74.2% 67.4% 74.2% 65.0%   70.8%

正確度は70.8%となり,8ポイント下がった。

全品詞を使った場合

次に,形態素解析で得られた全品詞を用いた場合の結果を下表に示す。
 
疾患 keigan kinsyu naimaku ransou taigan 総計 再現率
keigan 139 16 15 11 19 200 69.5%
kinsyu 3 148 27 9 13 200 74.0%
naimaku 2 9 182 1 6 200 91.0%
ransou 8 3 16 160 13 200 80.0%
taigan 23 13 11 14 139 200 69.5%
総計 175 189 251 195 190 1000  
適合率 79.4% 78.3% 72.5% 82.1% 73.2%   76.8%

正確度は名詞のみの場合に比べて2ポイントほど下がった。
次にストップワードを設定すると次のようになった。
 
疾患 keigan kinsyu naimaku ransou taigan 総計 再現率
keigan 126 19 17 11 27 200 63.0%
kinsyu 3 116 45 18 18 200 58.0%
naimaku 2 10 177 5 6 200 88.5%
ransou 9 2 20 156 13 200 78.0%
taigan 32 15 13 23 117 200 58.5%
総計 172 162 272 213 181 1000  
適合率 73.3% 71.6% 65.1% 73.2% 64.6%   69.2%

正確度が69.2%となった。

0 件のコメント:

コメントを投稿