2017年2月14日火曜日

論文紹介No.4

八軒 浩子,松岡 有紗,村井 亜衣,木下 佐晶子,高田 充隆:医療薬学研究のテキストマイニングによる計量的分析. 医薬品情報学 13(4), 152-159, 2012

今回この論文を読み、見つかった課題を記す。

1.私たちと論文とで、テキストデータの前処理で使っている複合語の検出の方法が異なっていた。
同じソフト「KHCoder」を使用しているが、この論文では「茶筌」によって複合語の検出をしていた。
私たちは現在「TermExtract」を利用しており、これらによって結果も変わると考えられるので、
双方とも使用し、その結果をまとめていきたい。

2.論文中の表1のような上位頻出語表を作成する必要があると考えた。 表頭を疾患名にすることにより、各疾患にはどのような語句が頻出するかを見ることができる。これによって各疾患と共通する語句をまとめたり、その疾患特有の語句を抽出することが可能になると考えられる。あまりにも各疾患に共通する語句が出た場合などにはその語句を除外する必要もあると学んだ。またTF-IDFにより、特徴付ける語句を並び替えようという話も出た。

3.対応分析の語の取捨選択を行う必要があると考えた。
やみくもに分析をしていても出てほしい語句が出ないので、関係のない語句を除いて分析を行うことにした。 
とりあえずはこの論文通り、名詞、サ変名詞、名詞B、名詞Cに絞り分析を行ってみる。

 これらの課題を踏まえ、今後の研究を努めていきたい。

0 件のコメント:

コメントを投稿