ここの手順で Ubuntu の設定をすると MeCab とその拡張辞書 (mecab-ipadic-NEologd) がインストールされています.このページでは MeCab で形態素解析を行なってみよう.
MeCab で形態素解析を行うには ubuntu にログインして mecab
コマンドを実行します.その後,形態素解析を実行したい文を入力し,Enter
で実行します.終了するには Ctrl + C を押します.
vagrant@ubuntu2204 ~ $ mecab ⏎
今日はメロンパンを食べました ⏎
今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
メロン 名詞,一般,*,*,*,*,メロン,メロン,メロン
パン 名詞,一般,*,*,*,*,パン,パン,パン
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
食べ 動詞,自立,*,*,一段,連用形,食べる,タベ,タベ
まし 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
EOS
自然言語処理の基本である形態素解析を勉強します ⏎
自然 名詞,形容動詞語幹,*,*,*,*,自然,シゼン,シゼン
言語 名詞,一般,*,*,*,*,言語,ゲンゴ,ゲンゴ
処理 名詞,サ変接続,*,*,*,*,処理,ショリ,ショリ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
基本 名詞,一般,*,*,*,*,基本,キホン,キホン
で 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
ある 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
形態素 名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
解析 名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
勉強 名詞,サ変接続,*,*,*,*,勉強,ベンキョウ,ベンキョー
し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
EOS
^C # 終了するには Ctrl + C を押す
vagrant@ubuntu2204 ~ $
形態素解析に用いる辞書を指定するには -d
オプションを利用します.次の例では標準辞書を指定しているので,上と全く同じ結果が得られるはずです.標準の辞書では「メロンパン」が「メロン」と「パン」という形態素に分割されていることがわかります.
vagrant@ubuntu2204 ~ $ mecab -d /var/lib/mecab/dic/ipadic-utf8 ⏎ 今日はメロンパンを食べました ⏎ 今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー は 助詞,係助詞,*,*,*,*,は,ハ,ワ メロン 名詞,一般,*,*,*,*,メロン,メロン,メロン パン 名詞,一般,*,*,*,*,パン,パン,パン を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 食べ 動詞,自立,*,*,一段,連用形,食べる,タベ,タベ まし 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ EOS 自然言語処理の基本である形態素解析を勉強します ⏎ 自然 名詞,形容動詞語幹,*,*,*,*,自然,シゼン,シゼン 言語 名詞,一般,*,*,*,*,言語,ゲンゴ,ゲンゴ 処理 名詞,サ変接続,*,*,*,*,処理,ショリ,ショリ の 助詞,連体化,*,*,*,*,の,ノ,ノ 基本 名詞,一般,*,*,*,*,基本,キホン,キホン で 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ ある 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル 形態素 名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ 解析 名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 勉強 名詞,サ変接続,*,*,*,*,勉強,ベンキョウ,ベンキョー し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス EOS ^C # 終了するには Ctrl + C を押す vagrant@ubuntu2204 ~ $
次に,MeCabの拡張辞書である mecab-ipadic-NEologd を指定して形態素解析を実行します.拡張辞書を利用すると「メロンパン」が認識できているだけでなく,「自然言語処理」や「形態素解析」なども一つの形態素として認識されていることがわかります.拡張辞書では芸能人の芸名のような固有名詞についても多くが登録されています.
vagrant@ubuntu2204 ~ $ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd ⏎ 今日はメロンパンを食べました ⏎ 今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー は 助詞,係助詞,*,*,*,*,は,ハ,ワ メロンパン 名詞,固有名詞,一般,*,*,*,メロンパン,メロンパン,メロンパン を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 食べ 動詞,自立,*,*,一段,連用形,食べる,タベ,タベ まし 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ EOS 自然言語処理の基本である形態素解析を勉強します ⏎ 自然言語処理 名詞,固有名詞,一般,*,*,*,自然言語処理,シゼンゲンゴショリ,シゼンゲンゴショリ の 助詞,連体化,*,*,*,*,の,ノ,ノ 基本 名詞,一般,*,*,*,*,基本,キホン,キホン で 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ ある 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル 形態素解析 名詞,固有名詞,一般,*,*,*,形態素解析,ケイタイソカイセキ,ケイタイソカイセキ を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 勉強 名詞,サ変接続,*,*,*,*,勉強,ベンキョウ,ベンキョー し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス EOS ^C # 終了するには Ctrl + C を押す vagrant@ubuntu2204 ~ $
なお,拡張辞書のインストール先は環境によって異なる可能性があることにも注意してください.
分かち書きを行うには -Owakachi
オプションを指定します.
vagrant@ubuntu2204 ~ $ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd -Owakati ⏎ 今日はメロンパンを食べました ⏎ 今日 は メロンパン を 食べ まし た 自然言語処理の基本である形態素解析を勉強します ⏎ 自然言語処理 の 基本 で ある 形態素解析 を 勉強 し ます ^C # 終了するには Ctrl + C を押す vagrant@ubuntu2204 ~ $
MeCab の標準形式とは異なる茶筌形式で出力するには -Ochasen
オプションを指定します.
vagrant@ubuntu2204 ~ $ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd -Ochasen ⏎ 今日はメロンパンを食べました ⏎ 今日 キョウ 今日 名詞-副詞可能 は ハ は 助詞-係助詞 メロンパン メロンパン メロンパン 名詞-固有名詞-一般 を ヲ を 助詞-格助詞-一般 食べ タベ 食べる 動詞-自立 一段 連用形 まし マシ ます 助動詞 特殊・マス 連用形 た タ た 助動詞 特殊・タ 基本形 EOS 自然言語処理の基本である形態素解析を勉強します ⏎ 自然言語処理 シゼンゲンゴショリ 自然言語処理 名詞-固有名詞-一般 の ノ の 助詞-連体化 基本 キホン 基本 名詞-一般 で デ だ 助動詞 特殊・ダ 連用形 ある アル ある 助動詞 五段・ラ行アル 基本形 形態素解析 ケイタイソカイセキ 形態素解析 名詞-固有名詞-一般 を ヲ を 助詞-格助詞-一般 勉強 ベンキョウ 勉強 名詞-サ変接続 し シ する 動詞-自立 サ変・スル 連用形 ます マス ます 助動詞 特殊・マス 基本形 EOS ^C # 終了するには Ctrl + C を押す vagrant@ubuntu2204 ~ $
テキストファイルの形態素解析を行うこともできます.なおテキストファイルの文字コードは UTF-8 として作業します.既に解析したいテキストファイルがあれば,Documents フォルダなど任意の場所に設置して次のステップに進んでください.ここでは GitHub のサンプルデータセットをダウンロードして展開します.
まず,GitHub からクローンを作成(ダウンロード)します.
vagrant@ubuntu2204 ~ $ cd Documents/ ⏎ vagrant@ubuntu2204 Documents $ git clone https://github.com/rinsaka/sample-data-sets.git ⏎ Cloning into 'sample-data-sets'... remote: Enumerating objects: 282, done. remote: Counting objects: 100% (77/77), done. remote: Compressing objects: 100% (47/47), done. remote: Total 282 (delta 39), reused 68 (delta 30), pack-reused 205 Receiving objects: 100% (282/282), 15.32 MiB | 13.46 MiB/s, done. Resolving deltas: 100% (131/131), done. vagrant@ubuntu2204 Documents $
ダウンロードされたデータセットを確認します.サンプル文書データは corpora.zip
です.この圧縮ファイルを unzip
コマンドで展開します.
vagrant@ubuntu2204 Documents $ cd sample-data-sets/ ⏎ vagrant@ubuntu2204 sample-data-sets $ ls ⏎ (中略) corpora.zip names.json (中略) vagrant@ubuntu2204 sample-data-sets $ unzip corpora.zip ⏎ Archive: corpora.zip inflating: corpora/en_abs_1.txt inflating: corpora/en_abs_2.txt inflating: corpora/en_abs_3.txt inflating: corpora/en_abs_4.txt inflating: corpora/ja_abs_1.txt inflating: corpora/ja_abs_2.txt inflating: corpora/ja_abs_3.txt inflating: corpora/ja_abs_4.txt inflating: corpora/ja_abs_5.txt inflating: corpora/sample_1.txt inflating: corpora/sample_2.txt inflating: corpora/sample_3.txt extracting: corpora/sample_4.txt inflating: corpora/sample_5.txt vagrant@ubuntu2204 sample-data-sets $ ls ⏎ (中略) corpora names.json corpora.zip novels.json (中略) vagrant@ubuntu2204 sample-data-sets $ cd corpora/ ⏎ vagrant@ubuntu2204 corpora $
展開されたテキストファイルを確認します.例えば ja_abs_1.txt
ファイルの中身を確認します.
vagrant@ubuntu2204 corpora $ ls ⏎
en_abs_1.txt en_abs_4.txt ja_abs_3.txt sample_1.txt sample_4.txt
en_abs_2.txt ja_abs_1.txt ja_abs_4.txt sample_2.txt sample_5.txt
en_abs_3.txt ja_abs_2.txt ja_abs_5.txt sample_3.txt
vagrant@ubuntu2204 corpora $ cat ja_abs_1.txt ⏎
研究者が自身で収集した学術論文の文献 PDF ファイルを効率的に管理し,研究活動に
有効活用することを目的として,文献 PDF データベースシステムを開発した.利用者は
PDF ファイルを Web ブラウザからサーバにアップロードすることで,PDF ファイルを
一元的に管理できるようになるとともに,全文検索,ジャーナル検索,著者検索,タグ
(キーワード)検索が利用できるようになる.また,論文情報の登録などに BIBTEX 情報を
活用することも本システムの特徴のひとつである.本論文では文献 PDF データベースシ
ステムの詳細について議論するとともに,性能評価実験の結果を考察する.
vagrant@ubuntu2204 corpora $
テキストファイルの形態素解析を行うには,ファイル名を引数に与えます.
vagrant@ubuntu2204 corpora $ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd -Owakati ja_abs_1.txt ⏎
研究者 が 自身 で 収集 し た 学術 論文 の 文献 PDF ファイル を 効率的 に 管理 し , 研究 活動 に
有効活用 する こと を 目的 として , 文献 PDF データベースシステム を 開発 し た . 利用者 は
PDF ファイル を Web ブラウザ から サーバ に アップロード する こと で , PDF ファイル を
一元的 に 管理 できる よう に なる とともに , 全文検索 , ジャーナル 検索 , 著者 検索 , タグ
( キーワード ) 検索 が 利用 できる よう に なる . また , 論文 情報 の 登録 など に BIBTEX 情報 を
活用 する こと も 本 システム の 特徴 の ひとつ で ある . 本 論文 で は 文献 PDF データベース シ
ステム の 詳細 について 議論 する とともに , 性能 評価 実験 の 結果 を 考察 する .
vagrant@ubuntu2204 corpora $
解析結果をファイルに書き出すには > 出力ファイル名
によるリダイレクトを使うと良いでしょう.例えば解析結果を result.txt
に書き出します.
vagrant@ubuntu2204 corpora $ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd -Owakati ja_abs_1.txt > result.txt ⏎ vagrant@ubuntu2204 corpora $ ls ⏎ en_abs_1.txt en_abs_4.txt ja_abs_3.txt result.txt sample_3.txt en_abs_2.txt ja_abs_1.txt ja_abs_4.txt sample_1.txt sample_4.txt en_abs_3.txt ja_abs_2.txt ja_abs_5.txt sample_2.txt sample_5.txt vagrant@ubuntu2204 corpora $ cat result.txt ⏎ 研究者 が 自身 で 収集 し た 学術 論文 の 文献 PDF ファイル を 効率的 に 管理 し , 研究 活動 に 有効活用 する こと を 目的 として , 文献 PDF データベースシステム を 開発 し た . 利用者 は PDF ファイル を Web ブラウザ から サーバ に アップロード する こと で , PDF ファイル を 一元的 に 管理 できる よう に なる とともに , 全文検索 , ジャーナル 検索 , 著者 検索 , タグ ( キーワード ) 検索 が 利用 できる よう に なる . また , 論文 情報 の 登録 など に BIBTEX 情報 を 活用 する こと も 本 システム の 特徴 の ひとつ で ある . 本 論文 で は 文献 PDF データベース シ ステム の 詳細 について 議論 する とともに , 性能 評価 実験 の 結果 を 考察 する . vagrant@ubuntu2204 corpora $