CentOS Python アプリ

Python3でMeCabを使用するための設定手順

投稿日:2017年11月30日 更新日:

Linux上のPythonでMeCabを使用するための設定手順を紹介します。

最終的には、Pythonを使用して「マルコフ連鎖」を使用して自動文章作成ツールを作成したいと思います。

Pythonのインストール手順は以下になります。

LinuxにPython3系をインストールする手順

こんにちは!シミダイ(@shimidai2100)です。 LinuxにPythonをインストールする手順を紹介します。 LinuxにはデフォルトでPython2.xがインストールされています。 今回は ...

MeCabをLinuxにインストール手順は以下になります。

LinuxにMeCabをインストールする手順

LinuxにMeCabをインストールする手順を紹介します。 最終的には、Pythonを使用して「マルコフ連鎖」を使用して自動文章作成ツールを作成したいと思います。 Pythonのインストール手順は以下 ...


MeCabとは?なぜPythonで使用する?

MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓(さん)によって開発されている。名称は開発者の好物「和布蕪(めかぶ)」から取られた。
開発開始当初はChaSenを基にし、ChaSenTNGという名前で開発されていたが、現在はChaSenとは独立にスクラッチから開発されている。ChaSenに比べて解析精度は同程度で、解析速度は平均3-4倍速い。

Wikipediaより

すごいざっくり説明すると「文章を意味単位で単語にぶつ切りにする」ライブラリです。

なぜPythonでMeCabを利用する理由は

  • Python特有の統計ライブラリと組み合わせることが出来る
  • 将来的には機械学習に利用できる

です。これは一個人の意見です。

インストール環境

今回のインストール環境は以下になります。

  • CentOS:CentOS Linux release 7.4.1708 (Core)
  • Python:Python 3.6.3
  • MeCab:MeCab 0.996
  • IPA 辞書:ipadic-2.7.0-20070801

MeCabには辞書が必要になります。

例えば、「私は朝にご飯を食べます。」という言葉は、

「私」、「は」、「朝」、「に」、「ご飯」、「を」、「食べる」、「ます」という単語に分けることが出来ます。

文章を分割するために、どこで分割するか?それが動詞か?名詞か?などを識別するために必要になります。

設定手順

インストールの流れは以下になります。

  1. Pythonバインディングのインストール
  2. 共有ライブラリの依存関係を更新

今回の手順は以下の手順を実施していることを前提に行っています。

LinuxにMeCabをインストールする手順

LinuxにMeCabをインストールする手順を紹介します。 最終的には、Pythonを使用して「マルコフ連鎖」を使用して自動文章作成ツールを作成したいと思います。 Pythonのインストール手順は以下 ...

まずはPythonバインディングである、mecab-python3」をインストールします。

次に共有ライブライの依存関係を更新します。

まず、システム全体でライブラリパスを設定します。「/etc/ld.so.conf」にユーザライブライパスを指定します。

ファイルの更新が終了したら、「ldconfig」コマンドで依存関係を更新しましょう。

仮に共有ライブラリが設定されていないと以下のエラーが出ますので注意してください。

ImportError: libmecab.so.2: cannot open shared object file: No such file or directory」が出ている場合の解消方法になります。

設定確認

インストールの確認をしてみたいと思います。

インタプリタモードでPyhtonを使用して実行してみます。

↓が実行ログです。

以上でPythonでMeCabを使用するための設定順はです。お疲れ様です。

参考Python3で形態素解析エンジンMeCabを使えるようにする(2016年3月版)

 

スポンサードリンク

関連記事

-CentOS, Python, アプリ

Translate »

Copyright© shimidai2100 , 2018 All Rights Reserved.