2017年2月10日金曜日

疾患データベースを用いた分析

いま,医学中央雑誌から子宮筋腫,子宮体癌,子宮内膜症,子宮頸がん,卵巣腫瘍の5疾患をキーワードにして検索し,結果をダウンロードして疾患データベースを作っています。しかし,考えてみたら,互いに類似した疾患領域だけに検索結果が互いに被ってしまうことは大いにあり得ます。そんな状態でテキストマイニングしてもあまり良い結果が得られるとも思えません。そこで,重複を除外し,各々の疾患における検索結果のみでコーパスを作って分析することを考えてみましょう。
いきなり対応分析なんかしてもよくわからないんで,まずは各疾患における頻出単語を見て特徴的なことがないかを探ってみましょう。共起分析などもいいかもしれません。その際,単純な頻度だけでなくTF/IDFなどの指標で上位単語を抽出するのもよいでしょう。また,医学用語辞書を形態素解析辞書に組み込んで可分割を防ぐのもよいでしょう。とにかくいろいろやってみましょう。


0 件のコメント:

コメントを投稿