茶筌

形態素解析ソフト茶筌に関する情報です。
Windowsで動く茶筌には2通りがあります。一つはコマンドプロンプト上で動くもので,もう一つはGUIを持ったWinChaです。バッチ処理には前者が向いていますが,対話的に解析をするには後者がいいでしょう。前者はインストールパスを環境変数のpathに設定することを忘れないように。

茶筌を使った形態素解析のテスト

以下の「子宮内膜症」に関する説明文書を茶筌を使って形態素解析を行った。
基本的な症状は「痛み」です。 内膜症のある場所、大きさ、癒着の程度などによって症状はさまざまですが、主に生理痛や下腹部痛、腰痛、性交痛、排便痛、慢性骨盤痛などが現れます。 痛み以外では、不正出血が見られたり、経血量が多かったり、レバー状の塊が出ることもあります。(https://192abc.com/21595)
 形態素解析の結果は以下のとおりである。

1基本キホン基本名詞-一般
2テキ名詞-接尾-形容動詞語幹
3助動詞
4症状ショウジョウ症状名詞-一般
5助詞-係助詞
6記号-括弧開
7痛みイタミ痛み名詞-一般
8記号-括弧閉
9ですデスです助動詞
10記号-句点
11ウチ接頭詞-名詞接続
12マク名詞-一般
13ショウ名詞-接尾-一般
14助詞-格助詞-一般
15あるアルある動詞-自立
16場所バショ場所名詞-一般
17記号-読点
18大きオオキ大きい形容詞-自立
19名詞-接尾-特殊
20記号-読点
21癒着ユチャク癒着名詞-サ変接続
22助詞-連体化
23程度テイド程度名詞-一般
24などナドなど助詞-副助詞
25によってニヨッテによって助詞-格助詞-連語
26症状ショウジョウ症状名詞-一般
27助詞-係助詞
28さまざまサマザマさまざま名詞-形容動詞語幹
29ですデスです助動詞
30助詞-接続助詞
31記号-読点
32オモ名詞-形容動詞語幹
33助詞-副詞化
34生理セイリ生理名詞-一般
35ツウ名詞-接尾-一般
36助詞-並立助詞
37下腹部カフクブ下腹部名詞-一般
38ツウ名詞-接尾-一般
39記号-読点
40腰痛ヨウツウ腰痛名詞-一般
41記号-読点
42性交セイコウ性交名詞-サ変接続
43ツウ名詞-接尾-一般
44記号-読点
45排便ハイベン排便名詞-サ変接続
46ツウ名詞-接尾-一般
47記号-読点
48慢性マンセイ慢性名詞-一般
49骨盤コツバン骨盤名詞-一般
50ツウ名詞-接尾-一般
51などナドなど助詞-副助詞
52助詞-格助詞-一般
53現れアラワレ現れる動詞-自立
54ますマスます助動詞
55記号-句点
56痛みイタミ痛み名詞-一般
57以外イガイ以外名詞-非自立-副詞可能
58助詞-格助詞-一般
59助詞-係助詞
60記号-読点
61不正フセイ不正名詞-形容動詞語幹
62出血シュッケツ出血名詞-サ変接続
63助詞-格助詞-一般
64見る動詞-自立
65られラレられる動詞-接尾
66たりタリたり助詞-並立助詞
67記号-読点
68ケイ名詞-一般
69名詞-一般
70リョウ名詞-接尾-一般
71助詞-格助詞-一般
72多かっオオカッ多い形容詞-自立
73たりタリたり助詞-並立助詞
74記号-読点
75レバーレバーレバー名詞-一般
76ジョウ名詞-接尾-一般
77助詞-連体化
78カタマリ名詞-一般
79助詞-格助詞-一般
80出るデル出る動詞-自立
81ことコトこと名詞-非自立-一般
82助詞-係助詞
83ありアリある動詞-自立
84ますマスます助動詞
85記号-句点
86EOS

この結果から「症状」を抽出しなければならないが,例えば34~35行目のように「生理痛」が「生理」と「痛」に分かれている。同様に,37~38行目の「下腹部痛」,42~43行目の「性交痛」,45~46行目の「排便通」,48~50行目の「慢性骨盤痛」,・・・と本来一塊の用語として抽出したい単語が分離されてしまっている。これは,茶筌の辞書にそのような症状を表す単語が登録されていないからである。
そこで,茶筌のユーザ辞書を作ってこの問題を解決することにする。茶筌の辞書の作り方についてはこのサイトに書かれてある。 また,辞書定義ファイルのフォーマットはこのサイトにある。
下記は,それに従って作成した辞書ファイルである。

(品詞 (名詞 一般)) ((見出し語 (月経痛 100)) (読み 【症状】ゲッケイツウ))
(品詞 (名詞 一般)) ((見出し語 (下腹部痛 100)) (読み 【症状】カフクブツウ))
(品詞 (名詞 一般)) ((見出し語 (生理痛 100)) (読み 【症状】セイリツウ))
(品詞 (名詞 一般)) ((見出し語 (性交痛 100)) (読み 【症状】セイコウツウ))
(品詞 (名詞 一般)) ((見出し語 (排便痛 100)) (読み 【症状】ハイベンツウ))
(品詞 (名詞 一般)) ((見出し語 (慢性骨盤痛 100)) (読み 【症状】マンセイコツバンツウ))
(品詞 (名詞 一般)) ((見出し語 (不正出血 100)) (読み 【症状】フセイシュッケツ))
(品詞 (名詞 一般)) ((見出し語 (レバー状の塊 100)) (読み 【症状】レバージョウノカタマリ))
(品詞 (名詞 一般)) ((見出し語 (経血量が多 100)) (読み 【症状】ケイケツリョウガタ))
(品詞 (名詞 一般)) ((見出し語 (気分不快 100)) (読み 【症状】キブンフカイ))
(品詞 (名詞 一般)) ((見出し語 (子宮内膜症 100)) (読み 【疾患】シキュウナイマクショウ))
(品詞 (名詞 一般)) ((見出し語 (子宮内膜 110)) (読み 【部位】シキュウナイマク))

この辞書ファイルをinput1.dicという名前で茶筌のインストールフォルダ(C:\Program Files (x86)\ChaSen\dic)内にあるdicフォルダ内に保存(メモ帳を管理者権限で起動して名前を付けて保存する)し,以下のようにして辞書ファイルをコンパイルする(コマンドプロンプトは管理者権限で起動する必要がある)。
C:\Program Files (x86)\ChaSen\dic>makeda user input1.dic
parsing grammar.cha
parsing cforms.cha
parsing table.cha
parsing dictionaries...
input1.dic
12 entries
12 keys

また,設定ファイル(C:\Program Files (x86)\ChaSen\dic\chasenrc)の14行目を以下のように書き換える。
(DADIC        chadic user)
こうして形態素解析を行うと以下の結果を得る。
1基本キホン基本名詞-一般
2テキ名詞-接尾-形容動詞語幹
3助動詞
4症状ショウジョウ症状名詞-一般
5助詞-係助詞
6記号-括弧開
7痛みイタミ痛み名詞-一般
8記号-括弧閉
9ですデスです助動詞
10記号-句点
11ウチ接頭詞-名詞接続
12マク名詞-一般
13ショウ名詞-接尾-一般
14助詞-格助詞-一般
15あるアルある動詞-自立
16場所バショ場所名詞-一般
17記号-読点
18大きオオキ大きい形容詞-自立
19名詞-接尾-特殊
20記号-読点
21癒着ユチャク癒着名詞-サ変接続
22助詞-連体化
23程度テイド程度名詞-一般
24などナドなど助詞-副助詞
25によってニヨッテによって助詞-格助詞-連語
26症状ショウジョウ症状名詞-一般
27助詞-係助詞
28さまざまサマザマさまざま名詞-形容動詞語幹
29ですデスです助動詞
30助詞-接続助詞
31記号-読点
32オモ名詞-形容動詞語幹
33助詞-副詞化
34生理痛【症状】セイリツウ生理痛名詞-一般
35助詞-並立助詞
36下腹部痛【症状】カフクブツウ下腹部痛名詞-一般
37記号-読点
38腰痛ヨウツウ腰痛名詞-一般
39記号-読点
40性交痛【症状】セイコウツウ性交痛名詞-一般
41記号-読点
42排便痛【症状】ハイベンツウ排便痛名詞-一般
43記号-読点
44慢性骨盤痛【症状】マンセイコツバンツウ慢性骨盤痛名詞-一般
45などナドなど助詞-副助詞
46助詞-格助詞-一般
47現れアラワレ現れる動詞-自立
48ますマスます助動詞
49記号-句点
50痛みイタミ痛み名詞-一般
51以外イガイ以外名詞-非自立-副詞可能
52助詞-格助詞-一般
53助詞-係助詞
54記号-読点
55不正出血【症状】フセイシュッケツ不正出血名詞-一般
56助詞-格助詞-一般
57見る動詞-自立
58られラレられる動詞-接尾
59たりタリたり助詞-並立助詞
60記号-読点
61経血量が多【症状】ケイケツリョウガタ経血量が多名詞-一般
62かっカッかう動詞-自立
63たりタリたり助詞-並立助詞
64記号-読点
65レバー状の塊【症状】レバージョウノカタマリレバー状の塊名詞-一般
66助詞-格助詞-一般
67出るデル出る動詞-自立
68ことコトこと名詞-非自立-一般
69助詞-係助詞
70ありアリある動詞-自立
71ますマスます助動詞
72記号-句点

この結果が示すように,34行目は「生理痛」と分離されずに抽出され,また読み仮名も辞書に設定したように「【症状】セイリツウ」とその用語が何を表しているか(この場合は「症状」)を示すことができたので,容易に症状を抽出できる。
しかし,この方法にも問題がある。たとえば次のような説明文書を考える(http://www.sofy.jp/library/21-1.html)。
子宮内膜症のおもな症状
  1. 以前よりも月経痛が強くなった     
  2. 月経時以外でも下腹部が痛む     
  3. 経血量が多く、夜用のナプキンを重ねても下着が汚れたり、タンポンとナプキンを併用しても間に合わないほど多い     
  4. 経血にレバー状のかたまりが混じる     
  5. 生理のとき以外にも出血がある     
  6. 性交痛がある     
  7. 排便時に肛門が痛むことが多い     
  8. 月経をはさんで、前後1週間ずつくらいの間、おなかが張る     
  9. 赤ちゃんが欲しいのに妊娠しない
 これを形態素解析すると,「下腹部が痛む」及び「排便時に肛門が痛む」や「レバー状のかたまり」が先ほどの辞書では抽出されない。前者は「下腹部痛」及び「排便痛」と同義だし,後者は「レバー状の塊」との表記の揺れである。こうした問題を解決する必要がある。たとえばこういうのはどうだろう。「読み」には必ずしも読み仮名を書く必要はないので,ここに正規化した表現を書いて標記の揺れを除去する。たとえば
 (品詞 (名詞 一般)) ((見出し語 (レバー状のかたまり 100)) (読み 【症状】レバー状の塊))
 (品詞 (名詞 一般)) ((見出し語 (排便時に肛門が痛む 100)) (読み 【症状】排便痛))
といった辞書ファイルを作成する。

0 件のコメント:

コメントを投稿