覚え書きブログ

Mecabのインストール

形態素解析システムのMecabをインストールしてみた。
https://www.mlab.im.dendai.ac.jp/~yamada/ir/MorphologicalAnalyzer/MeCab.html

インストール手順は、以下のサイトを参考にした。
https://qiita.com/elm200/items/2c2aa2093e670036bb30

  • mecab関連のパッケージをapt-getでインストール。
> sudo apt-get install mecab libmecab-dev mecab-ipadic mecab-ipadic-utf8
  • mecab-ipadic-NEologdのインストール

mecabのデフォルトの辞書ipadicよりも、多数のWeb上の言語資源から得た新語を追加した辞書である、mecab-ipadic-NEologdをインストールする。
https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md

> git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
> cd mecab-ipadic-neologd
> ./bin/install-mecab-ipadic-neologd -n -a

mecab-ipadic-NEologdを、デフォルト辞書に設定するために、/etc/mecabrcを以下のように編集する。

> dicdir = /usr/lib/mecab/dic/mecab-ipadic-neologd

以下、インストールしたmecabで「八谷大岳は、日本人の男性です。」の形態素解析をしてみる。

$ mecab
八谷大岳は、日本人の男性です。
八谷大岳        名詞,固有名詞,人名,一般,*,*,八谷大岳,ハチヤヒロタカ,ハチヤヒロタカ
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
、      記号,読点,*,*,*,*,、,、,、
日本人  名詞,一般,*,*,*,*,日本人,ニッポンジン,ニッポンジン
の      助詞,連体化,*,*,*,*,の,ノ,ノ
男性    名詞,一般,*,*,*,*,男性,ダンセイ,ダンセイ
です    助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。      記号,句点,*,*,*,*,。,。,。
EOS

驚くことに、珍しい名前の「八谷大岳」を人名と認識し、かつ「ハチヤヒロタカ」と振り仮名も正しく認識していた。幅広くwebから情報を収集しているようだ。それ以外にも、正しく分割し品詞を選んでいる。

次に、python3.5.2をインストールする。python3.5.2が入っているなかでは最新版のAnaconda3-4.2.0をダウンロードし、インストールする。
https://repo.continuum.io/archive/Anaconda3-4.2.0-Linux-x86_64.sh

そして、mecab-python3をインストールする。

> pip install --upgrade pip
> pip install mecab-python3

以下のような、pythonコードを書いて実行してみる。

import sys
import MeCab
m = Mecab.Tagger("-Ochasen")
print(m.parse("八谷大岳は、日本人の男性です。"))
八谷大岳        ハチヤヒロタカ  八谷大岳        名詞-固有名詞-人名-一般
は      ハ      は      助詞-係助詞
、      、      、      記号-読点
日本人  ニッポンジン    日本人  名詞-一般
の      ノ      の      助詞-連体化
男性    ダンセイ        男性    名詞-一般
です    デス    です    助動詞  特殊・デス      基本形
。      。      。      記号-句点
EOS