2017年9月20日水曜日

MeCabの辞書

形態素解析(MeCab)による過分割を押さえたり,専門用語を抽出できるようにするために,MeCabのユーザ辞書を作成する。

■HOST上のMeCab環境

  • 実行ファイル /usr/local/bin/mecab
  • システム辞書ディレクトリ /usr/local/lib/mecab/dic/ipadic
  • 辞書作成プログラム /usr/local/libexec/mecab/mecab-dict-index
  • ユーザ辞書ディレクトリ /usr/local/lib/mecab/dic/userdic/
  • MeCab設定ファイル /usr/local/etc/mecabrc 

辞書ファイルの作成

  • 辞書ファイルはKHcoderの複合語抽出機能を用いる。
    • ただし,複合語にカンマが含まれるものは除去する。
  • 抽出した複合語を所定のCSVファイルに編集してサーバへアップロードする。
    • 追加した辞書は47,674語(全抄録から複合語を作成した)
    • アップロード先:%HOME/usr/dic/abstract_utf-8n.csv
  • 辞書コンパイル
    • /usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u /usr/local/lib/mecab/dic/userdic/abstract.dic -f utf-8 -t utf-8 /home/nlp_ai/usr/dic/abstract_utf-8n.csv
      
  • ユーザ辞書をMeCabに登録する
    • /usr/local/etc/mecabrcに下記を追加
      userdic = /usr/local/lib/mecab/dic/userdic/abstract.dic
      


0 件のコメント:

コメントを投稿