2017年7月12日水曜日

ストップワードと複合語リスト

KH Coderでベイズ学習を行うとき、ストップワードと複合語リストを指定できる。
複合語リストとは、形態素解析の過分割を抑制するために指定する単語リストで、ここに指定した単語は、それ以上形態素解析処理によって分割されることなく、そのままの単語として抽出される。
ストップワードは、抽出された語をベイズ学習の特徴量(素性)から除外したい場合に指定する語リストである。
今回の中間発表では以下のように設定した。

ストップワード

子宮筋腫
子宮頸がん
子宮頸癌
子宮体癌
子宮体がん
卵巣腫瘍
子宮



卵巣
腫瘍
筋腫

がん

複合語リスト

子宮筋腫
子宮内膜症
腫瘤
子宮頸部
子宮体癌
子宮頸癌
子宮内膜
卵巣癌
卵巣腫瘍
腫瘍細胞
組織学
腺癌
摘術
摘出術
子宮内膜癌
子宮体部
単純子宮
化学療法
子宮腺筋症
類内膜腺癌
子宮内膜組織
以下省略(全部で17455語)

0 件のコメント:

コメントを投稿