ゼミの彷徨: 抄録コーパス

2017年9月20日水曜日

抄録コーパス

ベイズ学習器の性能は学習に用いたコーパスに大きく依存する。特に，カテゴリごとの単語数は一様である必要がある。偏りがあると特定のカテゴリ（単語数の少ないカテゴリ）に分類されてしまう傾向がある。
そこで，学習に用いるデータを一様にするため，収集した抄録からランダムに学習データを抽出することにした。こうして抽出した学習データプロフィールを下表に示す。

#	疾患	文書数		総語数	総異なり語数	(A) log(総語数)	(B) log(総語数+総異なり語数)	(A) -(B)
3	Shikkan:naimaku	500	0	34291	7392	10.44263821	10.63784865	-0.195210443
5	Shikkan:taigan	500	0	37736	8730	10.53836982	10.74647614	-0.208106316
4	Shikkan:ransou	500	0	35970	8326	10.49044054	10.69864966	-0.208209122
2	Shikkan:kinsyu	500	0	37964	8935	10.54439362	10.75575163	-0.211358011
1	Shikkan:keigan	500	0	35608	8651	10.48032561	10.69781402	-0.217488409

総語数の平均は36,314語（標準偏差1,537），異なり語数の平均は8,407語（標準偏差608）であった。

ゼミの彷徨

2017年9月20日水曜日

抄録コーパス

0 件のコメント:

コメントを投稿