YUMで一発、cabocha で係り受け解析

cabocha 入れると、係り受け解析できます。
だけど、入れるのめんどいですね。コンパイルとか、だるい。


だから、 yum っときました。
(テスト用VMなどに入れて遊んでください。)



遊び方

RHEL5互換・・・つまり、centos5系とかだと、以下3行をコピれば入ります。

rpm -Uvh http://ftp.iij.ad.jp/pub/linux/fedora/epel/5/x86_64/epel-release-5-4.noarch.rpm
rpm -Uvh http://rtilabs.net/files/repos/yum/rh/5/x86_64/rtilabs-release-1-0.noarch.rpm
yum install --enablerepo=rtilabs cabocha mecab-ipadic


OR


RHEL6互換・・・つまり、centos6系?とか Scientific Linux 6系 だと、以下2行をコピれば入ります。

rpm -Uvh http://rtilabs.net/files/repos/yum/rh/6/x86_64/rtilabs-release-1-0.noarch.rpm
yum install --enablerepo=rtilabs cabocha mecab-ipadic


以上。
簡単ですね。


動作テスト

cabocha
魅音ちゃんと亜麻音ちんがチューしていたのをセッちゃんが見ていた。

                 魅音ちゃんと---D
                   亜麻音ちんが-D
               チューしていたのを---D
      <PERSON>セッ</PERSON>ちゃんが-D
                           見ていた。
EOS


やったね☆。
(ちょっと辞書が残念な気もするが・・・)


python のクライアントでの遊び方

python係り受け解析をやらせてみます。
(注意:centos 5系は python2.6縛りにさせてもらいました。あしからず。)


まずは pythonの cabochaモジュールを入れます。1行コピペ。

yum install --enablerepo=rtilabs cabocha-python


では実行してみましょう。

#centos5とかでは python26 になります。
python26


OR


#centos6や SLLinux6だと python でOKです。
python


以下 pythonのシェルに貼り付けるコード。
このコードをコピペして貼りつけてください。

import CaboCha
c = CaboCha.Parser()
sentence = "京子と結衣がチューしているのをあかりんが見ていた。"
print c.parseToString(sentence)

tree =  c.parse(sentence)
print tree.toString(CaboCha.FORMAT_TREE)
print tree.toString(CaboCha.FORMAT_LATTICE)

結果。

<PERSON>京子</PERSON>と-D
  <PERSON>結衣</PERSON>が-D
         チューしているのを-D
                         あか---D
                         りんが-D
                       見ていた。
EOS


<PERSON>京子</PERSON>と-D
  <PERSON>結衣</PERSON>が-D
         チューしているのを-D
                         あか---D
                         りんが-D
                       見ていた。
EOS


* 0 1D 0/1 1.546197
京子    名詞,固有名詞,人名,名,*,*,京子,キョウコ,キョーコ        B-PERSON
と      助詞,並立助詞,*,*,*,*,と,ト,ト  O
* 1 2D 0/1 0.000000
結衣    名詞,固有名詞,人名,名,*,*,結衣,ユイ,ユイ        B-PERSON
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ O
* 2 3D 4/5 0.000000
チュー  名詞,一般,*,*,*,*,*     O
し      動詞,自立,*,*,サ変・スル,連用形,する,シ,シ      O
て      助詞,接続助詞,*,*,*,*,て,テ,テ  O
いる    動詞,非自立,*,*,一段,基本形,いる,イル,イル      O
の      名詞,非自立,一般,*,*,*,の,ノ,ノ O
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ O
* 3 5D 0/0 0.000000
あか    動詞,自立,*,*,五段・カ行イ音便,未然形,あく,アカ,アカ    O
* 4 5D 0/1 0.000000
りん    副詞,助詞類接続,*,*,*,*,りん,リン,リン  O
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ O
* 5 -1D 0/3 0.000000
見      動詞,自立,*,*,一段,連用形,見る,ミ,ミ    O
て      助詞,接続助詞,*,*,*,*,て,テ,テ  O
い      動詞,非自立,*,*,一段,連用形,いる,イ,イ  O
た      助動詞,*,*,*,特殊・タ,基本形,た,タ,タ   O
。      記号,句点,*,*,*,*,。,。,。      O
EOS

あかりん辞書にないよ、\アッカリ〜ン/。



PHP cabochaがほすい。工藤先生のプロジェクトはなぜかPHPバインディングがハブられまくられているという。
先生はPHP嫌いなんだろうかw



RPMとSRPMはご自由に
(ほとんど工藤先生が作られた奴のままですけど・・・)