« startforceの使い道 | メイン | 誰でも出来る!エントリがスクロールするRSSリンクの貼り方の紹介です »



タグクラウドと形態素解析エンジン

タグクラウドと形態素解析エンジンをはてなブックマークに追加 タグクラウドと形態素解析エンジンをdel.icio.usに追加  Yahoo!ブックマークに登録 タグクラウドと形態素解析エンジンをGoogle Bookmarksに追加 タグクラウドと形態素解析エンジンをtwitterにポスト

タグを打つと何かいいことあんの?

mojalogは「ストップモーションアニメの製作とその作り方なんかを紹介する!」というのがメインコンテンツなわけですが、一方ではソフトウェア技術の紹介や、ペーパークラフト、面白かったムービーの紹介の他、ブックレビューや料理の紹介まで取り留めなくエントリを増やしてしまい、なにがしたいのか判らなくなってきましたのでタグクラウドを追加しました。

静的なカテゴリページを構築していくより、お手軽にカテゴリ分けできるし、その嵩みがどんなだか直感(見た目)でわかるってのはかなり便利ですね。

そういうわけで、タグをちょこちょこ追加していたのですが、エントリを遡って適当に付与していたため不十分なところもあるかと思います。

でも、まぁ、こうやって出来上がってきたタグクラウドを見ればなんとなくこのブログの方向性も見えてきますね。ませんね。節操ないですがいいです。そういうわけでして、タグクラウドもご利用いただければと思います。

形態素解析エンジン

で、こういうタグって、エントリから単語を抜いたり、あるいは要約したものを使うことになると思いますが、それは当然、当人が考えて作成するものです。

ですが、例えば"兆し"などで見られる「話題になった単語」ってどうやって自動的に拾うんでしょうか。まさか兆しの中の人が人海戦術でブログを読んで集計するんじゃないだろうな?などとエンジニアとは思えない発想をしてしまいましたが、もちろんシステムが自動的に単語を拾うわけです。

ところで、どうして「プログラムで単語を拾う」という発想に直結しないのかといいますと、単純にその方法が全く見当もつかないからです。

普通、英文は以下のように単語ごとに空白を置いて文章が作られますよね。
"love actually is all around."
ですので、単語をプログラムで拾う際に空白などをデリミタ(区切り)とすればよいと思うのですが、夏季のようになるかと思います。

love
actually
is
all
around

日本語はどうすればよいのでしょうか。明示的な区切りが(素人目ですが)見た目ではないですよね。うーん。わからない。

で、いろいろ検索していましたらMecab(和布蕪)というオープンソース形態素解析エンジンを見つけました。形態素解析エンジン??(一覧も一応。)ってなんだ?ワタシも実はよく判りません。が、どういうものかは使ってみれば判ると思います。

例えば「すもももももも」をこのエンジンにかけると以下のような出力がされます。

すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
EOS

failure.jpg

うわーあったまいいなこれ。
でもスクリーンショットの「にわにはにわにわとりがいる」は失敗しているような。。。はにわ?

使ってみると、日本語を単語ごとに区切ってくれるではないですか。どうやってんだこれ。辞書ファイル的なものを引いて抽出するにしても限界があるだろうし、その仕組みはあるわけです。

日本語はどうやって成り立っているかってところから考えなきゃいけないのかな。わからない。ふーん。でもブラックボックスでいいから使えたらいろいろなウェブサービスが展開できそうですね。すげー。

で、話は戻りますが、"兆し"がこれを丸ごと使っていると言っているわけではありませんし、使ってないかもしれません。単語をひとつ拾うにしてもプログラムで行うと、日本語の場合かなり大変だなぁと思ったわけです。



というわで、ずぼらなワタシは、カテゴリの振り分けもままならないため、「じゃあタグを使おう」ということで現在に至ります。

で、このタグ生成すらプログラムで自動的に出来ないかなーなんて思い、この形態素解析エンジンにたどり着いたわけですが、タグぐらい自分で打たなきゃ駄目ですね。

楽をしたいが為に、ものすごい苦労するところでした。でも勉強になったからいいや。何か作ろうかな。あ、そうだタグを自動的につくtt(文頭に戻る)

★このコンテンツに目的の情報はありませんでしたか?


[ 最近のエントリーとその関連エントリー ]


[ スポンサードリンク ]

トラックバック

このエントリーのトラックバックURL:
http://mojalog.com/cgi/mt/mt-tb.cgi/82

コメントを投稿

ツリータイプ・カテゴリー

open all | close all

リファラから検索


サイト内検索