2017年8月9日水曜日

論文の構成

1.はじめに
・背景(現状・問題点など)
 女性疾患の受診率が低い(軽く見ている)。
 放置しておくと重篤な疾患に発展する恐れがある。
 受診しやすい環境整備が必要。
・研究の目的
 受診に役立つアプリを開発することで,受診を促進し、現状の改善を目指す。
 診療支援システムを開発するのが目的ではない。
 あくまでも女性健康管理および受診促進が目的で,疾患予測機能はスマホアプリに蓄積したライフログを有効活用する手段の一つ。
 予測結果は利用者が参考程度に活用する。
・研究の範囲
  受診時に役立てるために問診票に記入する項目を入力できるようにする
 ライフログから疾患を予測する疾患予測機能を試行的に実装
 今回はスマホアプリを開発するところまでとし,実証実験までにはいたっていない
・先行研究
 女性健康アプリに関する先行研究の紹介
  「月経前症候群の管理におけるスマートフォンアプリを用いた症状記録システムの開発と臨床使用」
 Bayes分類に関する先行研究
  「インターネット経由で集めた症例を利用した機械学習による診断システム」
  「結核接触者におけるナイーブベイズ分類による発症予測の試み」
2.方法
・入力項目の選定
 実際の医療機関が公開している問診票
 既存の女性健康アプリの入力項目の分析
・疾患分類
 Bayes学習
  医中誌から収集した抄録を学習データとして利用した場合の分析方法
  インターネットから集めた記事を学習データとして利用した場合の分析方法
・スマホアプリの構築方法
  MonacaによるHTML5ハイブリッドアプリ
  疾患予測サーバ
   Webサービスとして実装
    WebAPI
    相互運用性を考慮したインターフェース(HL7 FHIRの利用)
・疾患予測機能の評価方法
 検証データを作成して分類性能を評価
3.結果
・選定した入力項目
・作成したスマホアプリ
・疾患予測の結果
 抄録コーパス,インターネット記事コーパス各々の分類成績(学習曲線,混同マトリックス)
 検証データを用いた分類性能
4.考察
・疾患予測に対する評価
 抄録コーパスとインターネット記事コーパスで学習したときの分類性能の違い
 疾患を分類する上でどの用語が効いているか 
・先行研究との比較
 他の普及しているアプリとの比較
 Bayes分類性能の先行研究との比較
・限界
 テキストマイニングだけで疾患予測は難しい
  他の項目(検査結果,バイタル,生理周期,・・・)
 実証実験に至っていない
・今後の課題
 データの標準化による他のシステムとの相互運用性(HL7 FHIRの利用)
5.結論
・研究の目的の達成度
 当初の目的は達成した
 本研究は疾患予測を実装した初の女性健康アプリ
 問診データを取り入れた2番目のスマホアプリ
6.参考文献
 「月経前症候群の管理におけるスマートフォンアプリを用いた症状記録システムの開発と臨床使用」
 「インターネット経由で集めた症例を利用した機械学習による診断システム」
 「結核接触者におけるナイーブベイズ分類による発症予測の試み」

2017年8月2日水曜日

特徴語の抽出

ネット上で収集した各疾患50件ずつの学習データより、特徴語を抽出した。

方法:収集データ、ストップワードについてはこちらを参照。

このデータを用い、KHcoderのツール→外部変数と見出し→リストより、特徴語から抽出を行う。今回は最初に品詞の指定をせず、得られたデータから重要そうな名詞、タグに品詞を指定し、個別に抽出した。

結果を下記に示す。

品詞指定なし

名詞のみ

タグのみ

今後、これらの中から疾患予測機能に用いる項目を作っていく。

機械学習処理について

現在、機械学習処理で行っていること


 サンプルプログラム「けんてーごっこコーパス」を使って、各単語の出現する確率から、単語のスコアを計算している。

例)ベイジアンフィルタ : 単語スコアの確認
使用コーパス       : けんてーごっこ コーパス
***********************************************************
●カテゴリ : game
単語 イャンクック = 1.000000
単語 オセロット = 1.000000
単語 グラビモス = 1.000000
単語 モンハン = 1.000000
単語 ndG = 1.000000
単語 MHP = 1.000000
単語 SFC = 1.000000
単語 スタン = 1.000000
単語 チョコボ = 1.000000
単語 ラージャン = 1.000000
単語 詠唱 = 1.000000
単語 素早 = 1.000000
単語 ラオシャンロン = 1.000000
単語 KEY = 1.000000


「けんてーごっこコーパス」とは、検定クイズサイト「けんてーごっこ」のデータを基に作成されているコーパスである。テキストマイニングや機械学習処理の実験に使いやすい形になっており、

  • music(音楽)
  • game(ゲーム)
  • anime_manga(アニメ・マンガ)
  • idol(アイドル)
の4つのカテゴリに分類される。

各疾患10件~50件までの正確度について

ネット上で収集した学習データを用い、各疾患10件~50件までの正確度の推移を調べた。

方法:収集データ、使用したソフト等についてはこちらを参照。

条件:疾患名をそのまま特徴語とさせないため、ストップワードを設けた。
~ストップワード一覧~
子宮筋腫
子宮頸がん
子宮頸癌
子宮体癌
子宮体がん
子宮内膜症
卵巣腫瘍
子宮



卵巣
腫瘍
筋腫

がん
~~~~~~~~~~~
品詞の限定は今回しておらず、全品詞を指定した。

結果を下に記す。



各疾患10件

各疾患20件

各疾患30件

各疾患40件

各疾患50件


各件数ごとの推移

件数を増やしていくごとに結果が良くなっていることがわかる。
今後は各疾患のすべてのデータを用い、検証したい。
また、品詞の指定をすることでどう結果が変わるかも検証したい。