2017年2月10日金曜日

論文紹介No.3

  1. 佐久嶋 研,佐々木 秀直,田代 邦雄:テキストマイニングを用いた学会誌論文タイトルの時系列分析 -日本神経学会誌「臨床神経学」の分析-.医療情報学 32(6), 315-321, 2012.
  2. 鈴木啓,大内紀伊知:テキストマイニングを用いた学会のポジショニング分析.経営情報学会 全国研究発表大会要旨集,2015f,188-191,2015.
1は,過去50年間分の学術論文誌「臨床神経学」に掲載された論文等のタイトルをテキストマイニングして,この分野の情報の動向を調べたという趣旨の論文。論文タイトルは形態素解析(MeCab)を行って単語に分割している。可分割を避けるために「日本神経用語集」(日本神経学会)を形態素解析の辞書に組み込んで使っている。疾患名/カテゴリーと医学的学術用語の2つのグループ間の関連をコレスポンデンス分析(対応分析)で調べている。疾患と学術用語の関連を調べるというタスクは我々の疾患と症状の関連を調べるというタスクと通じるところがある。

2は,経営工学分野の8つの学会が出している学術論文誌から論文を抽出し,その序論部分を集めてテキストマイニングを行い,各学会がどのような手間に取り組んでいるかを可視化している(学会のポジショニングの可視化)。収集した論文は2011年~2014年までの論文。毎年約300本。TF-IDFで各学会の上位単語を求め,学会誌と単語の関連を対応分析で調べた。また,経年推移を調べるため,年度ごとに学会誌と単語の関連も調べた。この分析によって学会ごとの役割を明確にすることができた。

我々の場合は用語の可分割に悩まされている。上記論文1に倣って,用語集を形態素解析の辞書に組み込もうか・・・。辞書候補としてはMEDISの出している用語集が候補か・・・。産婦人科用語集というのもある。しかも電子版。6,800円とお手頃。ただし,テキストファイルとして再利用可能か不明。
Life Science Dictionaryでも使っていた医学用語シソーラスも有料ながら電子データが利用できる。
また「保健・医療関連データベース・情報源」も参考になるかも・・・。

0 件のコメント:

コメントを投稿