MeCab を使う

MeCabのインストールから確認まで

miyuki
MeCab Note

--

MeCab (めかぶ) は、オープンソースの形態素解析エンジンで、日本語の解析を目的とした多くのシステムで使われています。

辞書は一般的にIPADICを使います。

たとえば、「ずいぶん暖かくなりお花が咲く季節になりましたね。」という文章は、MeCabを使うと次のように品詞毎に分けてくれます。

ずいぶん 副詞,助詞類接続,*,*,*,*,ずいぶん,ズイブン,ズイブン
暖かく 形容詞,自立,*,*,形容詞・アウオ段,連用テ接続,暖かい,アタタカク,アタタカク
なり 動詞,自立,*,*,五段・ラ行,連用形,なる,ナリ,ナリ
お 接頭詞,名詞接続,*,*,*,*,お,オ,オ
花 名詞,一般,*,*,*,*,花,ハナ,ハナ
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
咲く 動詞,自立,*,*,五段・カ行イ音便,基本形,咲く,サク,サク
季節 名詞,一般,*,*,*,*,季節,キセツ,キセツ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
なり 動詞,自立,*,*,五段・ラ行,連用形,なる,ナリ,ナリ
まし 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
ね 助詞,終助詞,*,*,*,*,ね,ネ,ネ
。 記号,句点,*,*,*,*,。,。,。

これをいったいどう使うか・・・
日本語のサイト内検索や商品検索でベースの解析エンジンとして採用しているシステムも多いと思いますが、たとえば、レビューから形容詞を抽出してポジティブorネガティブを判断する といった使い方なんかもできそうです。

スクリプト言語 perl / ruby / python / java のバインディングを使いプログラミングすることもできます。

インストール (Mac)

MeCabのサイト を参考にすると簡単にインストールできます。

1.ダウンロード

MeCab本体 (現在の最新ver 0.996)
IPA辞書 (現在の最新ver 2.7.0)

2.mecabのインストール ※今回はcharset(UTF-8)を指定します。

$ tar zxvf mecab-0.996.tar.gz
$ cd mecab-0.996
$ ./configure —with-charset=utf8 ※ディレクトリを指定する場合は—prefix オプションを指定
$ make
$ make check
$ make install

3.辞書のインストール ※こちらもcharset(UTF-8)を指定します。

$ tar zxvf mecab-ipadic-2.7.0-20070801.tar.gz 
$ cd mecab-ipadic-2.7.0-20070801
$ ./configure —with-charset=utf8 ※ディレクトリを指定する場合は—prefix
$ make
$ make install

これだけです。

インストールする環境によっては、
「importError: libmecab.so.1: cannot open shared object file」
というエラーが発生する場合があります。その時は環境変数を追加して対応します。

$ LD_LIBRARY_PATH=/[DIR]/mecab/lib:$LD_LIBRARY_PATH

4.mecabを使ってみる。

$ mecab
$ 人生はちょっとした奇遇である。
人生 名詞,一般,*,*,*,*,人生,ジンセイ,ジンセイ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
ちょっとした 連体詞,*,*,*,*,*,ちょっとした,チョットシタ,チョットシタ
奇遇 名詞,形容動詞語幹,*,*,*,*,奇遇,キグウ,キグー
で 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
ある 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
。 記号,句点,*,*,*,*,。,。,。
EOS

このような結果が返ってくれば正常にインストールされています。

--

--