学習データは各カテゴリ500件,総数で2,500件の抄録である。KHcoderで抽出した複合語をMeCabのユーザ辞書に登録した。
まず,形態素解析で名詞のみ抽出した場合の混同行列を下表に示す。
疾患 | keigan | kinsyu | naimaku | ransou | taigan | 総計 | 再現率 |
keigan | 147 | 14 | 13 | 8 | 18 | 200 | 73.5% |
kinsyu | 3 | 151 | 26 | 7 | 13 | 200 | 75.5% |
naimaku | 1 | 7 | 183 | 2 | 7 | 200 | 91.5% |
ransou | 9 | 4 | 13 | 162 | 12 | 200 | 81.0% |
taigan | 20 | 12 | 11 | 14 | 143 | 200 | 71.5% |
総計 | 180 | 188 | 246 | 193 | 193 | 1000 | |
適合率 | 81.7% | 80.3% | 74.4% | 83.9% | 74.1% | 78.6% |
なお,ストップワードは設定していない。また,単語の出現頻度は1語以上とした。検証に用いたデータは,学習データとは異なる,ランダムに抽出した各カテゴリ200件のデータである。
正確度(Accuracy)は78.6%であった。
次にストップワードに「がん,癌,筋腫,子宮,子宮筋腫,子宮体がん,子宮体癌,子宮内膜症,子宮頸がん,子宮頸癌,腫瘍,内膜症,卵巣,卵巣腫瘍,」を設定した場合の結果を下表に示す。
疾患 | keigan | kinsyu | naimaku | ransou | taigan | 総計 | 再現率 |
keigan | 133 | 16 | 16 | 9 | 26 | 200 | 66.5% |
kinsyu | 4 | 121 | 41 | 16 | 18 | 200 | 60.5% |
naimaku | 2 | 8 | 180 | 4 | 6 | 200 | 90.0% |
ransou | 9 | 5 | 17 | 155 | 14 | 200 | 77.5% |
taigan | 30 | 13 | 13 | 25 | 119 | 200 | 59.5% |
総計 | 178 | 163 | 267 | 209 | 183 | 1000 | |
適合率 | 74.7% | 74.2% | 67.4% | 74.2% | 65.0% | 70.8% |
正確度は70.8%となり,8ポイント下がった。
全品詞を使った場合
次に,形態素解析で得られた全品詞を用いた場合の結果を下表に示す。疾患 | keigan | kinsyu | naimaku | ransou | taigan | 総計 | 再現率 |
keigan | 139 | 16 | 15 | 11 | 19 | 200 | 69.5% |
kinsyu | 3 | 148 | 27 | 9 | 13 | 200 | 74.0% |
naimaku | 2 | 9 | 182 | 1 | 6 | 200 | 91.0% |
ransou | 8 | 3 | 16 | 160 | 13 | 200 | 80.0% |
taigan | 23 | 13 | 11 | 14 | 139 | 200 | 69.5% |
総計 | 175 | 189 | 251 | 195 | 190 | 1000 | |
適合率 | 79.4% | 78.3% | 72.5% | 82.1% | 73.2% | 76.8% |
正確度は名詞のみの場合に比べて2ポイントほど下がった。
次にストップワードを設定すると次のようになった。
疾患 | keigan | kinsyu | naimaku | ransou | taigan | 総計 | 再現率 |
keigan | 126 | 19 | 17 | 11 | 27 | 200 | 63.0% |
kinsyu | 3 | 116 | 45 | 18 | 18 | 200 | 58.0% |
naimaku | 2 | 10 | 177 | 5 | 6 | 200 | 88.5% |
ransou | 9 | 2 | 20 | 156 | 13 | 200 | 78.0% |
taigan | 32 | 15 | 13 | 23 | 117 | 200 | 58.5% |
総計 | 172 | 162 | 272 | 213 | 181 | 1000 | |
適合率 | 73.3% | 71.6% | 65.1% | 73.2% | 64.6% | 69.2% |
正確度が69.2%となった。
0 件のコメント:
コメントを投稿