2017年8月2日水曜日

特徴語の抽出

ネット上で収集した各疾患50件ずつの学習データより、特徴語を抽出した。

方法:収集データ、ストップワードについてはこちらを参照。

このデータを用い、KHcoderのツール→外部変数と見出し→リストより、特徴語から抽出を行う。今回は最初に品詞の指定をせず、得られたデータから重要そうな名詞、タグに品詞を指定し、個別に抽出した。

結果を下記に示す。

品詞指定なし

名詞のみ

タグのみ

今後、これらの中から疾患予測機能に用いる項目を作っていく。

0 件のコメント:

コメントを投稿