形態素解析システムのMecabをインストールしてみた。
https://www.mlab.im.dendai.ac.jp/~yamada/ir/MorphologicalAnalyzer/MeCab.html
インストール手順は、以下のサイトを参考にした。
https://qiita.com/elm200/items/2c2aa2093e670036bb30
- mecab関連のパッケージをapt-getでインストール。
> sudo apt-get install mecab libmecab-dev mecab-ipadic mecab-ipadic-utf8
- mecab-ipadic-NEologdのインストール
mecabのデフォルトの辞書ipadicよりも、多数のWeb上の言語資源から得た新語を追加した辞書である、mecab-ipadic-NEologdをインストールする。
https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md
> git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git > cd mecab-ipadic-neologd > ./bin/install-mecab-ipadic-neologd -n -a
mecab-ipadic-NEologdを、デフォルト辞書に設定するために、/etc/mecabrcを以下のように編集する。
> dicdir = /usr/lib/mecab/dic/mecab-ipadic-neologd
以下、インストールしたmecabで「八谷大岳は、日本人の男性です。」の形態素解析をしてみる。
$ mecab 八谷大岳は、日本人の男性です。 八谷大岳 名詞,固有名詞,人名,一般,*,*,八谷大岳,ハチヤヒロタカ,ハチヤヒロタカ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 、 記号,読点,*,*,*,*,、,、,、 日本人 名詞,一般,*,*,*,*,日本人,ニッポンジン,ニッポンジン の 助詞,連体化,*,*,*,*,の,ノ,ノ 男性 名詞,一般,*,*,*,*,男性,ダンセイ,ダンセイ です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス 。 記号,句点,*,*,*,*,。,。,。 EOS
驚くことに、珍しい名前の「八谷大岳」を人名と認識し、かつ「ハチヤヒロタカ」と振り仮名も正しく認識していた。幅広くwebから情報を収集しているようだ。それ以外にも、正しく分割し品詞を選んでいる。
次に、python3.5.2をインストールする。python3.5.2が入っているなかでは最新版のAnaconda3-4.2.0をダウンロードし、インストールする。
https://repo.continuum.io/archive/Anaconda3-4.2.0-Linux-x86_64.sh
そして、mecab-python3をインストールする。
> pip install --upgrade pip > pip install mecab-python3
以下のような、pythonコードを書いて実行してみる。
import sys import MeCab m = Mecab.Tagger("-Ochasen") print(m.parse("八谷大岳は、日本人の男性です。")) 八谷大岳 ハチヤヒロタカ 八谷大岳 名詞-固有名詞-人名-一般 は ハ は 助詞-係助詞 、 、 、 記号-読点 日本人 ニッポンジン 日本人 名詞-一般 の ノ の 助詞-連体化 男性 ダンセイ 男性 名詞-一般 です デス です 助動詞 特殊・デス 基本形 。 。 。 記号-句点 EOS