2016年3月22日火曜日

RMeCabのインストール

RにはRMeCab(石田基広氏による)というテキスト処理を行うためのパッケージがあり、日本語文章の解析ができるようになります。RMeCabは、MeCab(工藤拓氏による)という形態素解析ソフトと連携して動作しています。形態素解析は文章を形態素に分解し、各形態素の品詞を特定します。形態素は「意味を持つ語の最小単位」です。
で、RMeCabをインストールします。まず、準備としてMeCabをダウンロードし、インストールします。OSとしてWindowsを想定しています。MeCabは、http://taku910.github.io/mecab/ からダウンロードできます。

「ダウンロード」にある「Binary package for MS-Windows」の下、「mecab-0.996.exe」横のダウンロードをクリックします。ファイルがダウンロードできたら、この実行ファイルをダブルクリックします。そうすると、インストールが始まります。幾つかポップアップ画面が出て来ますが、defaultのままOKでよいです。

MeCabは、CドライブのProgram Files (x86)の中に入ります。Windowsではこれで辞書もインストールされますので、すぐRMeCabを使えます。Windowsならば、desktopに「MeCab」アイコンができているはずですから、これをダブルクリックします。もし見当たらなければ、menuから「MeCab」を選択して起動します。ウィンドウ画面が出てきますので、何か文章を入力します。で、形態素解析の結果が表示されれば、MeCabが正常にインストールされたことがわかります。

次に、RMeCabをインストールします。RMeCabは石田基広氏によって開発され、Rのinstall.packagesでインストールできます。RStudioを起動し、以下のコマンドを実行してインストールします。
install.packages("RMeCab", repos = "http://rmecab.jp/R")

インストールに成功したら、以下のコマンドを入力して、正常にインストールされたことを確認します。
> library(RMeCab)
> rmec <- RMeCabC("私は誰だ。")
> unlist(rmec)
  名詞   助詞   名詞 助動詞   記号
   "私"   "は"   "誰"   "だ"   "。"
>

0 件のコメント:

コメントを投稿