これらの問題点として以下の原因が考えられる。
- 過分割の問題
- コーパスの問題
- 出現頻度で用語を抽出する問題
- 専門用語の問題
また,KH Coderの対応分析では,一定以上の出現頻度を持つ単語が分析対象として抽出されているが,「子宮」「患者」「症例」「来院」といった用語の出現頻度が多いのは当然であって,それらが疾患を特徴づける用語になるとは思われない。
さらに,抽出された用語に「開腹」「染色」「浸潤」「切除」といった専門用語が多くみられるのは,論文の抄録からコーパスを作成したことが原因である。
一般の人が使用するアプリに,このような専門用語を提示したり選択させたりするのは適切ではない。
過分割の問題
形態素解析など,機械的な方法で単語を抽出しても意味のある症状用語を抽出するのは絶望的である。かといって手作業で大量の文書から意味のある症状用語を抽出するのも現実的でない。そこで,別途症状用語のリストを作成し,機械学習によってそれらに疾患ラベルを貼るという分類問題に帰着させてはどうだろう。その際,学習用コーパスとして論文の抄録を用いる。これらはすでに疾患というラベルが貼られているのだから,客観的な教師データとして利用できる(我々医学の非専門家がラベリングするというリスクを回避できる)。
この分類問題の評価は,次のように行う。
- 疾患について書かれた文書を収集する(ネットの文書でも教科書の文書でも構わない。できるだけ信頼性の高いものを集める)
- 収集した文書から手作業で症状用語を抽出し,疾患とのペアで記録する(「疾患・症状ペア」と呼ぶ)
- 収集した症状用語を論文コーパスで作成した分類器にかけて疾患ラベル付与する
- 付与された疾患ラベルの正解・不正解を「疾患・症状ペア」を用いて検証する
多面的な判断材料の導入
テキストマイニングだけで疾患を言い当てるのは無理である。テキストマイニングは,所詮,文字情報だけを頼って関連性を類推しているだけである。医学的知見に基づいているわけではない(文字で伝えることのできる医学的知見を除いて)。
そこで,文字情報以外の情報の利用を考える。例えば以下のものが考えられる。
- 年齢
- 身長・体重
- バイタル(体温,血圧,脈拍,・・・)
- 生理日
- 食欲
- 出血(少・中・多)
0 件のコメント:
コメントを投稿