2017年1月17日火曜日

対応分析による疾患と症状の関係分析

疾患と症状の関連性を調べるために対応分析を行ってみました。方法はこうです。まず,ネットから各疾患の症状を説明した文書を複数集め,それらをマージして疾患ラベルを付けました。これを疾患コーパスと呼ぶことにしましょう(下図)。今回は子宮筋腫,子宮内膜症,子宮頸がん,子宮体がん,卵巣腫瘍の5つの疾患をとりあげました。
<H1>子宮筋腫</H1>
子宮筋腫は良性の腫瘍ですから、それ自体が生命を脅かすものではありません。
しかし放置しておきますと10kgを超えるような大きさまでになることもあります。女性ホルモンによって筋腫が大きくなりますが、逆に閉経後には小さくなります。複数個できることが多く、数や大きさはさまざまです。
大きさやできた場所によって症状が違ってきます。できた場所によって、子宮の内側(粘膜下筋腫)、子宮の筋肉の中(筋層内筋腫)、子宮の外側(漿膜下筋腫)に分けられています。
代表的な症状は月経量が多くなることと月経痛です。その他の症状としては月経以外の出血、腰痛、頻尿(トイレが近い)等があります。症状は、できた場所によってまちまちですが、子宮の内側にできた筋腫は小さくても症状が強く、月経量が多くなります。逆に子宮の外側にできた筋腫は相当大きくなっても症状がでません。ですから、治療法もできた場所や症状によって異なってきます。若い人では妊娠しにくくなったり、流産しやすくなったりするのも大きな問題です。

<H1>子宮筋腫</H1>
子宮内膜またはそれに似た組織が何らかの原因で、本来あるべき子宮の内側以外の場所で発生し発育する疾患が子宮内膜症です。20~30代の女性で発症することが多く、そのピークは30~34歳にあるといわれています。
子宮内膜症は女性ホルモンの影響で月経周期に合わせて増殖し、月経時の血液が排出されずにプールされたり、周囲の組織と癒着をおこしてさまざまな痛みをもたらしたりします。また、不妊症の原因にもなります。
代表的なものは「痛み」と「不妊」です。痛みの中でも月経痛は子宮内膜症の患者さんの約90%にみられます。この他、月経時以外にも腰痛や下腹痛、排便痛、性交痛などがみられます。こうした症状は20~30歳代の女性に多く発症し、加齢による女性ホルモン分泌の減少を境におさまります。また、妊娠を希望する生殖年齢の女性では「不妊」が問題となります。妊娠の希望のある内膜症患者さんの約30%に不妊があると考えられています。

<H1>子宮頸がん</H1>
子宮下部の管状の部分を子宮頸部、子宮上部の袋状の部分を子宮体部と呼び、それぞれの部位に生じるがんを子宮頸がん、子宮体がんといいます。
子宮頸がんは子宮がんのうち約7割程度を占めます。以前は発症のピークが40~50歳代でしたが、最近は20~30歳代の若い女性にも増えてきており、30歳代後半がピークとなっています。
子宮頸がんは通常、早期にはほとんど自覚症状がありませんが進行するに従って異常なおりもの、月経以外の出血(不正出血)、性行為の際の出血、下腹部の痛みなどが現れてきます。

<H1>子宮体がん</H1>
子宮は妊娠した時に胎児を育てる部分と分娩の時に産道の一部となる部分に分けることができ、それぞれを子宮体部、子宮頸部といいます。子宮体部に発生するがんが子宮体がんで、最近我が国の成人女性に増えてきているがんのひとつです。そのほとんどは、子宮体部の内側にあり卵巣から分泌される卵胞ホルモンの作用をうけて月経をおこす子宮内膜という組織から発生し、子宮内膜がんとも呼ばれています。
一番多い自覚症状は不正出血です。子宮頸がんに比べ、子宮体がんになる年代は比較的高齢ですから、閉経後あるいは更年期での不正出血がある時には特に注意が必要です。閉経前であっても、月経不順、乳がんを患ったことがあるなどということがあればやはり注意が必要です。

<H1>卵巣腫瘍</H1>
卵巣は子宮の左右に一つずつあり、通常では2~3cmぐらいの大きさです。ここに発生した腫瘍が卵巣腫瘍であり、大きいものでは30cmを超えることもあります。卵巣腫瘍には様々な種類がありますが、その発生起源から表層上皮性・間質性腫瘍、性索間質性腫瘍、胚細胞腫瘍などに大別され、それぞれに、良性腫瘍、境界悪性腫瘍、悪性腫瘍があります。
卵巣腫瘍の症状には腹部膨満感(お腹が張って苦しい)、下腹部痛、頻尿などがありますが、小さいうちは無症状で経過することが多く、大きくなったり腹水がたまったりしてから症状が出現することが多いのです。時に腫瘍が破裂したり、茎捻転といって腫瘍がお腹の中でねじれてしまうと突然の強い下腹部痛が出現することもあります。

次にこのコーパスをKH-Coderに読み込みました。その結果,コーパスは全部で42文,14段落,H1ラベル(疾患)を付けた文書が5つあることがわかりました。次に文書から用語を抽出するために[前処理]→[複合語の検出]→[TermExtractを利用]を選択しました。これは,形態素解析だけだと語が分割され過ぎて,例えば「子宮内膜症」が「子宮」「内」「膜」「症」に分割され意味のない語になってしまうため,互いに関連する語はくっつけるためです。
 これによって,子宮頸がん,子宮内膜症,子宮体がん,子宮体部,子宮内膜,卵巣腫瘍,子宮頸部,子宮筋腫など,全部で50個の関連語が抽出されました。これをファイルに保存して,[前処理]→[語の取捨選択]を選び,[強制的に抽出する語の設定]の[ファイルから読み込み]のファイルに設定しました。その後,[前処理]→[前処理の実行]を行いました。これで準備が整ったのでいよいよ対応分析です。
対応分析は,[ツール]→[抽出語]→[対応分析]を選択します。オプション画面が表示されますが,とりあえずデフォルトで実行しました。その結果が下の図です。
疾患と症状の関連性を対応分析した図

図から子宮内膜症は不妊,女性ホルモン,痛み,腰痛,月経痛といった症状との関連性が認められました。同様に子宮筋腫は筋腫,月経量といった用語,卵巣腫瘍は主要,下腹部痛など,そして,子宮がんと子宮体がんは不正出血,子宮体部,子宮頸部といった語との関連性が示されました。
また,図の縦軸については下へいくほど腫瘍やがんといった新生物に関連する疾患が付置される傾向が見られものの,横軸については明確な傾向が見られません。 そこで分析に用いる語の出現頻度が全体を通じて3以上のものに限定すると次のような結果が得られました。
分析に使用する語の出現頻度を3以上に設定したもの
すると先ほどに比べて横軸の特徴が少し見えてきました。どうやら,左へいくほど大きい,小さい,多いといった形容詞が見られるようです。これはいったい何を意味しているのでしょうか?卵巣腫瘍や子宮筋腫など左側に付置される疾患は形容詞を用いて説明されることが多いということでしょうか。それに対して子宮内膜症や子宮頸がん,子宮体がんは形容詞ではなく名詞をつかって説明されることが多いということでしょうか。しかし,これはあまり本質的なこととは思われません。そもそも,症状を疾患と関連づけようとこの分析を始めたのですから,形容詞には用はありません。これらの問題はコーパスに起因するものと思われます,もっとたくさん文書を集めないと疾患と症状の関連性は見つけられないということでしょうか。
 今回分析対象とした5つの疾患はどれも似たような疾患なので用語で特徴づけるのが難しいのかもしれません。全く種類の違う疾患を対象にした場合はもっと明確な違いを見出せるのではないかと感じています。

課題と対策

  1. 疾患が十分に分離できていない(子宮頸がんと子宮体がん)
  2. 被修飾語がない(例:大きい,小さい)
  3. (症状とは)関係のない語が抽出されている(例:分ける,それぞれ,最近,呼ぶ,・・・)
  4. 症状が抽出されていない
  5. 疾患名がそのまま用語として出ている

 1と4についてはコーパスを充実させる。2は何らかの方法で修飾語と被修飾語を連結させる。3については強制的に除去する用語をファイルにする。5は4と同様に除去する。

また,対象とする疾患をどれとどれにするかについての検討も行う。さらに,どのくらいコーパスを準備すればよいのかを評価する基準についても検討を行う。

0 件のコメント:

コメントを投稿