2017年9月20日水曜日

抄録コーパス

ベイズ学習器の性能は学習に用いたコーパスに大きく依存する。特に,カテゴリごとの単語数は一様である必要がある。偏りがあると特定のカテゴリ(単語数の少ないカテゴリ)に分類されてしまう傾向がある。
そこで,学習に用いるデータを一様にするため,収集した抄録からランダムに学習データを抽出することにした。こうして抽出した学習データプロフィールを下表に示す。

# 疾患 文書数   総語数 総異なり語数 (A) log(総語数) (B) log(総語数+総異なり語数) (A) -(B)
3 Shikkan:naimaku 500 0 34291 7392 10.44263821 10.63784865 -0.195210443
5 Shikkan:taigan 500 0 37736 8730 10.53836982 10.74647614 -0.208106316
4 Shikkan:ransou 500 0 35970 8326 10.49044054 10.69864966 -0.208209122
2 Shikkan:kinsyu 500 0 37964 8935 10.54439362 10.75575163 -0.211358011
1 Shikkan:keigan 500 0 35608 8651 10.48032561 10.69781402 -0.217488409

総語数の平均は36,314語(標準偏差1,537),異なり語数の平均は8,407語(標準偏差608)であった。

0 件のコメント:

コメントを投稿