2007年9月3日 のアーカイブ

タグクラウドと形態素解析エンジン

タグクラウドと形態素解析エンジンをはてなブックマークに追加 タグクラウドと形態素解析エンジンをdel.icio.usに追加 Yahoo!ブックマークに登録 タグクラウドと形態素解析エンジンをGoogle Bookmarksに追加

2007年9月3日 月曜日

タグを打つと何かいいことあんの?

mojalogは「ストップモーションアニメの製作とその作り方なんかを紹介する!」というのがメインコンテンツなわけですが、一方ではソフトウェア技術の紹介や、ペーパークラフト、面白かったムービーの紹介の他、ブックレビューや料理の紹介まで取り留めなくエントリを増やしてしまい、なにがしたいのか判らなくなってきましたのでタグクラウドを追加しました。

静的なカテゴリページを構築していくより、お手軽にカテゴリ分けできるし、その嵩みがどんなだか直感(見た目)でわかるってのはかなり便利ですね。

そういうわけで、タグをちょこちょこ追加していたのですが、エントリを遡って適当に付与していたため不十分なところもあるかと思います。

でも、まぁ、こうやって出来上がってきたタグクラウドを見ればなんとなくこのブログの方向性も見えてきますね。ませんね。節操ないですがいいです。そういうわけでして、タグクラウドもご利用いただければと思います。

形態素解析エンジン

で、こういうタグって、エントリから単語を抜いたり、あるいは要約したものを使うことになると思いますが、それは当然、当人が考えて作成するものです。

ですが、例えば“兆し”などで見られる「話題になった単語」ってどうやって自動的に拾うんでしょうか。まさか兆しの中の人が人海戦術でブログを読んで集計するんじゃないだろうな?などとエンジニアとは思えない発想をしてしまいましたが、もちろんシステムが自動的に単語を拾うわけです。

ところで、どうして「プログラムで単語を拾う」という発想に直結しないのかといいますと、単純にその方法が全く見当もつかないからです。

普通、英文は以下のように単語ごとに空白を置いて文章が作られますよね。
“love actually is all around.”
ですので、単語をプログラムで拾う際に空白などをデリミタ(区切り)とすればよいと思うのですが、夏季のようになるかと思います。

love
actually
is
all
around

日本語はどうすればよいのでしょうか。明示的な区切りが(素人目ですが)見た目ではないですよね。うーん。わからない。

で、いろいろ検索していましたらMecab(和布蕪)というオープンソース形態素解析エンジンを見つけました。形態素解析エンジン??(一覧も一応。)ってなんだ?ワタシも実はよく判りません。が、どういうものかは使ってみれば判ると思います。

例えば「すもももももも」をこのエンジンにかけると以下のような出力がされます。

すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
EOS

failure.jpg

うわーあったまいいなこれ。
でもスクリーンショットの「にわにはにわにわとりがいる」は失敗しているような。。。はにわ?

使ってみると、日本語を単語ごとに区切ってくれるではないですか。どうやってんだこれ。辞書ファイル的なものを引いて抽出するにしても限界があるだろうし、その仕組みはあるわけです。

日本語はどうやって成り立っているかってところから考えなきゃいけないのかな。わからない。ふーん。でもブラックボックスでいいから使えたらいろいろなウェブサービスが展開できそうですね。すげー。

で、話は戻りますが、”兆し”がこれを丸ごと使っていると言っているわけではありませんし、使ってないかもしれません。単語をひとつ拾うにしてもプログラムで行うと、日本語の場合かなり大変だなぁと思ったわけです。

というわで、ずぼらなワタシは、カテゴリの振り分けもままならないため、「じゃあタグを使おう」ということで現在に至ります。

で、このタグ生成すらプログラムで自動的に出来ないかなーなんて思い、この形態素解析エンジンにたどり着いたわけですが、タグぐらい自分で打たなきゃ駄目ですね。

楽をしたいが為に、ものすごい苦労するところでした。でも勉強になったからいいや。何か作ろうかな。あ、そうだタグを自動的につくtt(文頭に戻る)

startforceの使い道

startforceの使い道をはてなブックマークに追加 startforceの使い道をdel.icio.usに追加 Yahoo!ブックマークに登録 startforceの使い道をGoogle Bookmarksに追加

2007年9月3日 月曜日

夏休み終わりました。だるいです。。。

スタートフォースってご存知でしょうか。

“スタートフォースは、インターネット接続さえあればブラウザを便利な作業環境に変えてしまう、「ブロードバンドデスクトップ」です。”

というものです。

startforce.jpg

ウェブブラウザ上でリモート端末を操作するような感覚で、例えば、
・メディアプレイヤーを操作できる
・テキストエディタを使える
・ファイルを外部に共有できる(アップローダに近い感覚で使える)
・ウェブブラウザを利用できる(もちろん、それだけでプロキシみたいな役割をするわけではありません。たぶん)
・エクセルライク(というかエクセルも)なアプリケーションを利用できる
-> OpenOffice のことを言っています。
[ *.doc ] (Microsoft Word)
[ *.odt ] (OpenOffice文書)
[ *.rtf ] (RTF文書)
[ *.xls ] (Microsoft Excel)
[ *.ods ] (Open Office Spreadsheet)

と至れり尽くせりなのですが、リモートデスクトップとしてこれを使う理由ってなんだろなーと考えた結果、やっぱりストレージとして扱うくらいなんですよね。うーん。

あ!ローカル端末に置いておけないお宝ファイルの外部記憶装置としてつかえr痛い。やめてちがうんです誤解だ刑事さんオレはなにもやってねぇ

刑事さんはどうでもよいのですが、効果的な使い道が思い浮かびませんね。ミクシィなんかのSNSでアカウントとパスワードを公開してコミュニティなんかの共有ストレージとして扱うとかってどうかな。

“第7条(禁止事項)(2)ユーザの共有、本サービスは一個人に付き1ユーザを提供しており、一個人が複数ユーザ保有したり、2人以上で1ユーザを共有する事は禁止します。”

だめだった。駄目です。やっちゃだめ。共有カッコワルイ。

ちょっとFAQをよく読んでみたらフリーのグループウェアとして活用できそうですね。チャットやメッセンジャーなどで他のアカウントとつながることが出来るようですので、アカウントの共有自体意味がないのか。

他にもアプリケーションを作って適用することも出来ます。StartForceAPIが公開されているのでこちらを参照してみるといいと思います。

1.JavaScriptの基礎知識
2.Htmlの基礎知識
(3.開発者ガイドに沿ったソースコード書き方)

が必要ですが、勉強がてらいじってみるのもいいかもしれませんね。

10枚の25セント玉を10個のショットグラスに1発で叩き込むよ!

10枚の25セント玉を10個のショットグラスに1発で叩き込むよ!をはてなブックマークに追加 10枚の25セント玉を10個のショットグラスに1発で叩き込むよ!をdel.icio.usに追加 Yahoo!ブックマークに登録 10枚の25セント玉を10個のショットグラスに1発で叩き込むよ!をGoogle Bookmarksに追加

2007年9月3日 月曜日

The Ultimate Quarter Toss
10枚の25セント玉を10個のショットグラスに投げ込むよ!
youtubeのほうにポストされていないようだったので紹介します。何度も失敗してる映像もあるけど、練習して出来るもんなのかなこういうのって。