2017年2月23日木曜日

今週の結果について

前回の論文で学んだことを活かし、対応分析を行った。
名詞、サ変名詞、名詞B、Cに絞り、茶筅を利用して複合語の検出を行った。
出力結果を記す。


時間の都合上、ほかのパターンが試せなかったので、次は複合語の検出法を変更したり、語句の取捨選択を行って出力したい。

疾患間の関連性の強さ


対応分析では,関連性の強い疾患が近くに布置される。 図から子宮内膜症と子宮筋腫,子宮頸がんと子宮体癌に関連性がみられる。また,縦軸は遠く離れているものの子宮体癌と卵巣腫瘍は横軸では近い関係がみられる。
これを前回行った分析と比較してみる。


疾患 子宮筋腫 子宮体癌 子宮内膜症 子宮頸がん 卵巣腫瘍
子宮筋腫   1.47 2.72 0.61 0.69
子宮体癌     0.54 1.09 2.13
子宮内膜症       0.20 0.71
子宮頸がん         0.28
卵巣腫瘍          

この表は,子宮筋腫と子宮内膜症の間に最も強い関連性を示している。また,子宮体癌と卵巣腫瘍,子宮犬種と子宮体癌の間にも関連性があることを示している。これらの結果は対応分析で示唆された結果と符合している。
対応分析は, 複数の疾患に関連する論文は除外されているにも拘わらずこのような類似性があるのは興味深い。

2017年2月16日木曜日

疾患データベースの問題点

2017年2月時点で医学中央雑誌から子宮筋腫,子宮体癌,子宮内膜症,子宮頸がん,卵巣腫瘍の5疾患をキーワードにして検索した結果は下表の通りでした。ただし,原著と症例に限定しています。

子宮筋腫    2049
子宮体癌    1521
子宮内膜症    1562
子宮頸がん    1500
卵巣腫瘍    4412
合計    11044

しかし,よく考えてみると,子宮筋腫で検索した論文と子宮体癌で検索した論文が同じだったということはあるわけで,単純に上記の論文の抄録から病名と症状の関係を導き出すというのは無理があります。ということで,上記の検索結果から重複がある論文を数えてみました。その結果が次の表です。


行ラベル 重複なし 重複あり 総計
子宮筋腫 1409 640 2049
子宮体癌 744 777 1521
子宮内膜症 1072 490 1562
子宮頸がん 1294 206 1500
卵巣腫瘍 3368 1044 4412
総計 7887 3157 11044

結構な数です。このとき,重複を取り除いた純粋な論文の数は9344本でした。

 さて,こうなると,重複の様子がどうなっているのか気になります。そこで,重複している論文の数を調べてみました。その結果が次の表です。
 
重複数 件数 レコード数
1 7887 7887
2 1234 2468
3 203 609
4 20 80
5 0 0
    11044

重複数が1というのは重複していない,つまり,その論文は上記の5疾患のいずれか一つにだけヒットしたという意味です。そして,重複数が2というのは5疾患のうち2疾患にヒットしたという意味です。

そこで,重複数が2の論文について,どの疾患とどの疾患で重複しているか調べてみました。その結果が次の表です。


疾患 子宮筋腫 子宮体癌 子宮内膜症 子宮頸がん 卵巣腫瘍 合計
子宮筋腫   98 173 41 205 517
子宮体癌     25 47 431 503
子宮内膜症       9 150 159
子宮頸がん         55 55
卵巣腫瘍           0

この結果を見ると,子宮体癌と卵巣腫瘍のペアが431件で一番多そうですが,これは,もともと卵巣腫瘍の論文数が4412本と他の疾患に比べて倍以上多いための見かけ上の数字かもしれません。そこで,本当はどの組み合わせがもっとも多いのかを調べるために,各々の頻度をそれらの期待値で割ってみることにしました。ここで,期待値はつぎのようにして計算します。

まず,重複を除いた論文の総数を数えます。先述したように 9344本ありました。
次に,各々の疾患の割合を求めます。たとえば,子宮筋腫であれば2049÷9344=0.2193です。さらに,2つの疾患の組み合わせと,それらが出現する(同時に論文のキーワードになる)確率を計算します。たとえば,子宮筋腫と子宮体癌の組み合わせならば0.2193×0.1628=0.0357となります。2つの疾患の組み合わせは全部で5×4÷2=10通りあるので,それぞれの同時確率を求め,それらを足し合わせて同時確率の合計を求めます。同時確率の合計は0.5229になりました。
これで準備が整いました。以上の結果を用いて期待値を次のように計算します。
期待値=重複数が2の論文の総数×同時確率÷同時確率の合計
最後に同時確率の合計で割っているのは,「重複数が2のときの条件付き確率」を求めるためです。
以上の結果,次のような期待値が得られました。


期待値 子宮筋腫 子宮体癌 子宮内膜症 子宮頸がん 卵巣腫瘍 総計
子宮筋腫   84 87 83 244  
子宮体癌     64 62 181  
子宮内膜症       63 186  
子宮頸がん         179  
卵巣腫瘍            
            1234

先に求めた重複数をこの期待値で割ると次のようになります。


比率 子宮筋腫 子宮体癌 子宮内膜症 子宮頸がん 卵巣腫瘍
子宮筋腫   1.16 2.00 0.49 0.84
子宮体癌     0.39 0.76 2.38
子宮内膜症       0.14 0.81
子宮頸がん         0.31
卵巣腫瘍          

もっとも比率が高かったのは,やはり子宮体癌と卵巣腫瘍で2.38でした。この2疾患には密接な関連があるということでしょうか。次に多かったのは子宮筋腫と子宮内膜症で2.00です。逆に最も比率が小さかったのは子宮内膜症と子宮頸がんの組み合わせで0.14でした。

間違いを発見!

「重複数が2のときの条件付き確率」の求め方に間違いがあることが分かりました。
 上では,同時確率を計算するのにP(子宮筋腫)×P(子宮体癌)としました。ここで,P(XXX)は疾患がXXXである確率です。しかし,よく考えてみるとこの計算だと「重複数が2のときの」という条件が入っていません。子宮筋腫と子宮体癌だけでなく,他の疾患が含まれる場合でもカウントしてしまいます。ですから,正確に計算するためにはこの中から重複数が3以上の場合を取り除いてやらねばなりません。しかし,これはとても大変な計算になります。重複数が3以上の場合なんてほとんどないと考えれば概ねこの結果が正しいと言えます。
実際,重複数が3の場合は203本,4の場合は20本,そして5本の場合はありませんでした。重複数が2の場合が1234本であることを考えると,まあいいかということになります。
それでも気持ちが悪いのでシミュレーションを行ってみました。その結果が次の表です。


  子宮筋腫 子宮体癌 子宮内膜症 子宮頸がん 卵巣腫瘍
子宮筋腫   1.47 2.72 0.61 0.69
子宮体癌     0.54 1.09 2.13
子宮内膜症       0.20 0.71
子宮頸がん         0.28
卵巣腫瘍          

先ほどの結果とあまり違わないように見えます。念のため,先ほどの結果で割ってみます。


比率 子宮筋腫 子宮体癌 子宮内膜症 子宮頸がん 卵巣腫瘍
子宮筋腫   1.3 1.4 1.2 0.8
子宮体癌     1.4 1.4 0.9
子宮内膜症       1.4 0.9
子宮頸がん         0.9
卵巣腫瘍          

 このように比を取るとやはり違いがあるようです。これは理論計算では同時確率の計算方法に間違いがあるからです。間違った理論計算では論文の本数が少ない場合,同時確率がシミュレーションよりも大きくなる傾向があるようです。重複数が3以上の効果が論文数が多い場合に比べてより顕著に効いてくるからだろう考えられます。

シミュレーションでは,最も多い組み合わせは子宮筋腫と子宮内膜症の組み合わせでした。そして2番目に多いのが子宮体癌と卵巣腫瘍の組み合わせです。1位と2位が逆転したものの,これらの疾患が類似していることには変わりがないようです。

2017年2月14日火曜日

論文紹介No.4

八軒 浩子,松岡 有紗,村井 亜衣,木下 佐晶子,高田 充隆:医療薬学研究のテキストマイニングによる計量的分析. 医薬品情報学 13(4), 152-159, 2012

今回この論文を読み、見つかった課題を記す。

1.私たちと論文とで、テキストデータの前処理で使っている複合語の検出の方法が異なっていた。
同じソフト「KHCoder」を使用しているが、この論文では「茶筌」によって複合語の検出をしていた。
私たちは現在「TermExtract」を利用しており、これらによって結果も変わると考えられるので、
双方とも使用し、その結果をまとめていきたい。

2.論文中の表1のような上位頻出語表を作成する必要があると考えた。 表頭を疾患名にすることにより、各疾患にはどのような語句が頻出するかを見ることができる。これによって各疾患と共通する語句をまとめたり、その疾患特有の語句を抽出することが可能になると考えられる。あまりにも各疾患に共通する語句が出た場合などにはその語句を除外する必要もあると学んだ。またTF-IDFにより、特徴付ける語句を並び替えようという話も出た。

3.対応分析の語の取捨選択を行う必要があると考えた。
やみくもに分析をしていても出てほしい語句が出ないので、関係のない語句を除いて分析を行うことにした。 
とりあえずはこの論文通り、名詞、サ変名詞、名詞B、名詞Cに絞り分析を行ってみる。

 これらの課題を踏まえ、今後の研究を努めていきたい。

2017年2月10日金曜日

疾患データベースを用いた分析

いま,医学中央雑誌から子宮筋腫,子宮体癌,子宮内膜症,子宮頸がん,卵巣腫瘍の5疾患をキーワードにして検索し,結果をダウンロードして疾患データベースを作っています。しかし,考えてみたら,互いに類似した疾患領域だけに検索結果が互いに被ってしまうことは大いにあり得ます。そんな状態でテキストマイニングしてもあまり良い結果が得られるとも思えません。そこで,重複を除外し,各々の疾患における検索結果のみでコーパスを作って分析することを考えてみましょう。
いきなり対応分析なんかしてもよくわからないんで,まずは各疾患における頻出単語を見て特徴的なことがないかを探ってみましょう。共起分析などもいいかもしれません。その際,単純な頻度だけでなくTF/IDFなどの指標で上位単語を抽出するのもよいでしょう。また,医学用語辞書を形態素解析辞書に組み込んで可分割を防ぐのもよいでしょう。とにかくいろいろやってみましょう。


論文紹介No.3

  1. 佐久嶋 研,佐々木 秀直,田代 邦雄:テキストマイニングを用いた学会誌論文タイトルの時系列分析 -日本神経学会誌「臨床神経学」の分析-.医療情報学 32(6), 315-321, 2012.
  2. 鈴木啓,大内紀伊知:テキストマイニングを用いた学会のポジショニング分析.経営情報学会 全国研究発表大会要旨集,2015f,188-191,2015.
1は,過去50年間分の学術論文誌「臨床神経学」に掲載された論文等のタイトルをテキストマイニングして,この分野の情報の動向を調べたという趣旨の論文。論文タイトルは形態素解析(MeCab)を行って単語に分割している。可分割を避けるために「日本神経用語集」(日本神経学会)を形態素解析の辞書に組み込んで使っている。疾患名/カテゴリーと医学的学術用語の2つのグループ間の関連をコレスポンデンス分析(対応分析)で調べている。疾患と学術用語の関連を調べるというタスクは我々の疾患と症状の関連を調べるというタスクと通じるところがある。

2は,経営工学分野の8つの学会が出している学術論文誌から論文を抽出し,その序論部分を集めてテキストマイニングを行い,各学会がどのような手間に取り組んでいるかを可視化している(学会のポジショニングの可視化)。収集した論文は2011年~2014年までの論文。毎年約300本。TF-IDFで各学会の上位単語を求め,学会誌と単語の関連を対応分析で調べた。また,経年推移を調べるため,年度ごとに学会誌と単語の関連も調べた。この分析によって学会ごとの役割を明確にすることができた。

我々の場合は用語の可分割に悩まされている。上記論文1に倣って,用語集を形態素解析の辞書に組み込もうか・・・。辞書候補としてはMEDISの出している用語集が候補か・・・。産婦人科用語集というのもある。しかも電子版。6,800円とお手頃。ただし,テキストファイルとして再利用可能か不明。
Life Science Dictionaryでも使っていた医学用語シソーラスも有料ながら電子データが利用できる。
また「保健・医療関連データベース・情報源」も参考になるかも・・・。

2017年2月1日水曜日

論文紹介No.2


「ライフサイエンス辞書からクリニカル インフォマティクスへ」



 今回、この論文を読んで分かったことを記載する。
 私たちの卒業研究の目的と比較した際の問題点が見えた。
 抄録から参考にすると、

問題点

  1.  症状に特化していない
  2.  疾患に特徴的な用語が出ない
  3.  専門用語が多く、分かりにくい

などの課題が見つかった。
 

このライフサイエンス辞書との違いを比較していきたいと考える。



出典