YUMで一発、cabocha で係り受け解析
cabocha 入れると、係り受け解析できます。
だけど、入れるのめんどいですね。コンパイルとか、だるい。
だから、 yum っときました。
(テスト用VMなどに入れて遊んでください。)
遊び方
RHEL5互換・・・つまり、centos5系とかだと、以下3行をコピれば入ります。
rpm -Uvh http://ftp.iij.ad.jp/pub/linux/fedora/epel/5/x86_64/epel-release-5-4.noarch.rpm rpm -Uvh http://rtilabs.net/files/repos/yum/rh/5/x86_64/rtilabs-release-1-0.noarch.rpm yum install --enablerepo=rtilabs cabocha mecab-ipadic
OR
RHEL6互換・・・つまり、centos6系?とか Scientific Linux 6系 だと、以下2行をコピれば入ります。
rpm -Uvh http://rtilabs.net/files/repos/yum/rh/6/x86_64/rtilabs-release-1-0.noarch.rpm yum install --enablerepo=rtilabs cabocha mecab-ipadic
以上。
簡単ですね。
動作テスト
cabocha 魅音ちゃんと亜麻音ちんがチューしていたのをセッちゃんが見ていた。 魅音ちゃんと---D 亜麻音ちんが-D チューしていたのを---D <PERSON>セッ</PERSON>ちゃんが-D 見ていた。 EOS
やったね☆。
(ちょっと辞書が残念な気もするが・・・)
python のクライアントでの遊び方
pythonで係り受け解析をやらせてみます。
(注意:centos 5系は python2.6縛りにさせてもらいました。あしからず。)
まずは pythonの cabochaモジュールを入れます。1行コピペ。
yum install --enablerepo=rtilabs cabocha-python
では実行してみましょう。
#centos5とかでは python26 になります。 python26 OR #centos6や SLLinux6だと python でOKです。 python
以下 pythonのシェルに貼り付けるコード。
このコードをコピペして貼りつけてください。
import CaboCha c = CaboCha.Parser() sentence = "京子と結衣がチューしているのをあかりんが見ていた。" print c.parseToString(sentence) tree = c.parse(sentence) print tree.toString(CaboCha.FORMAT_TREE) print tree.toString(CaboCha.FORMAT_LATTICE)
結果。
<PERSON>京子</PERSON>と-D <PERSON>結衣</PERSON>が-D チューしているのを-D あか---D りんが-D 見ていた。 EOS <PERSON>京子</PERSON>と-D <PERSON>結衣</PERSON>が-D チューしているのを-D あか---D りんが-D 見ていた。 EOS * 0 1D 0/1 1.546197 京子 名詞,固有名詞,人名,名,*,*,京子,キョウコ,キョーコ B-PERSON と 助詞,並立助詞,*,*,*,*,と,ト,ト O * 1 2D 0/1 0.000000 結衣 名詞,固有名詞,人名,名,*,*,結衣,ユイ,ユイ B-PERSON が 助詞,格助詞,一般,*,*,*,が,ガ,ガ O * 2 3D 4/5 0.000000 チュー 名詞,一般,*,*,*,*,* O し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ O て 助詞,接続助詞,*,*,*,*,て,テ,テ O いる 動詞,非自立,*,*,一段,基本形,いる,イル,イル O の 名詞,非自立,一般,*,*,*,の,ノ,ノ O を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ O * 3 5D 0/0 0.000000 あか 動詞,自立,*,*,五段・カ行イ音便,未然形,あく,アカ,アカ O * 4 5D 0/1 0.000000 りん 副詞,助詞類接続,*,*,*,*,りん,リン,リン O が 助詞,格助詞,一般,*,*,*,が,ガ,ガ O * 5 -1D 0/3 0.000000 見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ O て 助詞,接続助詞,*,*,*,*,て,テ,テ O い 動詞,非自立,*,*,一段,連用形,いる,イ,イ O た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ O 。 記号,句点,*,*,*,*,。,。,。 O EOS
あかりん辞書にないよ、\アッカリ〜ン/。
PHP cabochaがほすい。工藤先生のプロジェクトはなぜかPHPバインディングがハブられまくられているという。
先生はPHP嫌いなんだろうかw
RPMとSRPMはご自由に。
(ほとんど工藤先生が作られた奴のままですけど・・・)