2017年9月28日木曜日

ネット記事コーパス


 抄録コーパスと同じく、学習に用いるデータを一様にするため、収集したネット記事からランダムに学習データを抽出した。その抽出した学習データプロフィールを下表に示す。


#疾患文書数総語数総異なり語数
11Net:keigan5001785467
12Net:naimaku5001793496
13Net:kinsyu5002806647
14Net:ransou5001917487
15Net:taigan5001645418

総語数の平均は3,438語(標準偏差2,721)、異なり語数の平均は503語(標準偏差77)であった。

0 件のコメント:

コメントを投稿