そこで,学習に用いるデータを一様にするため,収集した抄録からランダムに学習データを抽出することにした。こうして抽出した学習データプロフィールを下表に示す。
# | 疾患 | 文書数 | 総語数 | 総異なり語数 | (A) log(総語数) | (B) log(総語数+総異なり語数) | (A) -(B) | |
3 | Shikkan:naimaku | 500 | 0 | 34291 | 7392 | 10.44263821 | 10.63784865 | -0.195210443 |
5 | Shikkan:taigan | 500 | 0 | 37736 | 8730 | 10.53836982 | 10.74647614 | -0.208106316 |
4 | Shikkan:ransou | 500 | 0 | 35970 | 8326 | 10.49044054 | 10.69864966 | -0.208209122 |
2 | Shikkan:kinsyu | 500 | 0 | 37964 | 8935 | 10.54439362 | 10.75575163 | -0.211358011 |
1 | Shikkan:keigan | 500 | 0 | 35608 | 8651 | 10.48032561 | 10.69781402 | -0.217488409 |
総語数の平均は36,314語(標準偏差1,537),異なり語数の平均は8,407語(標準偏差608)であった。
0 件のコメント:
コメントを投稿