Science and You

できたてホヤホヤのCoSTEP「Science and You」のブログツールを貼ってみた.CoSTEPが運営している【さっぽろサイエンス観光マップ】【おすすめ科学の本】【かがく探検隊コーステップ】の三つのサイトから関連記事を抽出してくれるらしい.抽出先はこれからも増やしていくとのこと.

管理しているあちこちのサイトにも貼り付けてみたけれど,抽出項目は.雪・氷・札幌,なんてものばかりで,あまりかわり映えしない.極めつきに共通して特徴的なのは生物系がほぼ皆無であるということ.私の思考や指向がいかに偏っているかがわかる.

こちらのサーバーへのアクセスログを見ていて分かったのは,どうやら,ブログツールを貼っているページに逆アクセスしてコンテンツを解析し,それとデータベースとを照合して一致項目をリストアップして返す,という形式らしいこと.このBlogの場合,カテゴリとか日付とかでダイナミックページ分割しているのだけれど,その分割されたページごとに抽出プロセスが働くので,抽出項目はページごとに変化する.

うちのコースのサイトで試したら【該当するコンテンツが見つかりませんでした。】と出た.アクセスログを解析したら,ブログツール側の逆アクセスエージェントは,マルチリンガルサイトの英語パートを読んでいるらしいと判明.つまり,うちのサーバーのほうは,このエージェントを言語無指定エージェントと認識してしまっており,なおかつ向こうのシステムは,日本語を全く含まないコンテンツは照合できない,というようなことらしいのである
(言い換えれば,照合キーワードは日本語でしか設定されていない,ということですな.まあ,抽出されるサイトが日本語のサイトなんだから,それで不都合はないなわけなんだけど...)
実際,明示的に言語指示URLを含めてやって日本語パートにエージェントを誘導してやったら,ちゃんと抽出された.これは面倒,ということで,うちのサイトのデフォルト言語を日本語に変更.

「ゲスト」と「リン」という関連語がやたらと抽出されるのだけれど,どうやら「リン」は「リンク」という記述に反応しているらしく,「ゲスト」は匿名コメントの「ゲスト」に反応しているらしい.「リンク」は大抵のサイトにほぼ普遍的に出てきそうな語だから,へんにヒットさせないアルゴリズムにする必要があるように思う.でも,このツールの趣旨は「新鮮な発見」にあるということだから,「リンク」から「リン」へ飛んでいくような意外な言葉のつながりがあってもいいのかもしれない.

もっと関連サイトが増えると,なかなか面白いことになりそうで,期待は大.