複合語リストとは、形態素解析の過分割を抑制するために指定する単語リストで、ここに指定した単語は、それ以上形態素解析処理によって分割されることなく、そのままの単語として抽出される。
ストップワードは、抽出された語をベイズ学習の特徴量(素性)から除外したい場合に指定する語リストである。
今回の中間発表では以下のように設定した。
ストップワード
子宮筋腫子宮頸がん
子宮頸癌
子宮体癌
子宮体がん
卵巣腫瘍
子宮
体
膜
頸
卵巣
腫瘍
筋腫
癌
がん
複合語リスト
子宮筋腫子宮内膜症
腫瘤
子宮頸部
子宮体癌
子宮頸癌
子宮内膜
卵巣癌
卵巣腫瘍
腫瘍細胞
組織学
腺癌
摘術
摘出術
子宮内膜癌
子宮体部
単純子宮
化学療法
子宮腺筋症
類内膜腺癌
子宮内膜組織
・
・
・
以下省略(全部で17455語)
0 件のコメント:
コメントを投稿