形態素解析(MeCab)による過分割を押さえたり,専門用語を抽出できるようにするために,MeCabのユーザ辞書を作成する。
■HOST上のMeCab環境
- 実行ファイル
/usr/local/bin/mecab
- システム辞書ディレクトリ
/usr/local/lib/mecab/dic/ipadic
- 辞書作成プログラム
/usr/local/libexec/mecab/mecab-dict-index
- ユーザ辞書ディレクトリ
/usr/local/lib/mecab/dic/userdic/
- MeCab設定ファイル
/usr/local/etc/mecabrc
辞書ファイルの作成
- 辞書ファイルはKHcoderの複合語抽出機能を用いる。
- 抽出した複合語を所定のCSVファイルに編集してサーバへアップロードする。
- 追加した辞書は47,674語(全抄録から複合語を作成した)
- アップロード先:%HOME/usr/dic/abstract_utf-8n.csv
- 辞書コンパイル
/usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u /usr/local/lib/mecab/dic/userdic/abstract.dic -f utf-8 -t utf-8 /home/nlp_ai/usr/dic/abstract_utf-8n.csv
ユーザ辞書をMeCabに登録する
- /usr/local/etc/mecabrcに下記を追加
userdic = /usr/local/lib/mecab/dic/userdic/abstract.dic
0 件のコメント:
コメントを投稿