ゼミの彷徨
2017年9月28日木曜日
ネット記事コーパス
抄録コーパスと同じく、学習に用いるデータを一様にするため、収集したネット記事からランダムに学習データを抽出した。その抽出した学習データプロフィールを下表に示す。
#
疾患
文書数
総語数
総異なり語数
11
Net:keigan
50
0
1785
467
12
Net:naimaku
50
0
1793
496
13
Net:kinsyu
50
0
2806
647
14
Net:ransou
50
0
1917
487
15
Net:taigan
50
0
1645
418
総語数の平均は3,438語(標準偏差2,721)、異なり語数の平均は503語(標準偏差77)であった。
0 件のコメント:
コメントを投稿
前の投稿
ホーム
登録:
コメントの投稿 (Atom)
0 件のコメント:
コメントを投稿