msnbotの謎

※以前別の場所で書いた文章を備忘的に書き記しておきます。

【投稿年月日】2010-02-28 【ジャンル】独り言

 EDIUNETがリニューアルしたということもあって、久しぶりにアクセス解析を眺めてみた。2/26の総リクエスト数が164,186。ただし、画像やらCSSやらを含んだ生ログなので、実質的なリクエスト数は4割ぐらい、すなわち70,000前後かと思われる。

 検索ロボットをピックアップしてみたところ、

2010年 2月26日(金)

  1. msnbot: 29,159
  2. Yahoo! Slurp: 19,569
  3. Googlebot: 15,305
と言う訳で、msnbotが断トツに多い。

 念のためにEDIUNETのリニューアル前も確認してみると、2/23の総リクエスト数が138,594で、検索ロボットの内訳は以下の通り。

2010年 2月23日(火)

  1. msnbot: 28,656
  2. Googlebot: 12,198
  3. Yahoo! Slurp: 3,166
 やはりmsnbotが多い。

 次に各検索エンジンが、EDIUNETをどれぐらいインデックスに登録しているかを確認してみた。

Google ウェブマスター ツール

www.google.com/webmasters/t...

サイトエクスプローラー(サイト管理者向けツール) - Yahoo!検索

siteexplorer.search.yahoo.c...

Webmaster Center - Bing

www.bing.com/webmaster
 思ったよりもインデックス数は、Yahoo!が多く、Googleが少ない。MSNは…

 最後に検索エンジン経由のアクセス数を確認。期間は一ヶ月(2010/01/20 - 2010/02/19)。

Google Analytics

www.google.com/analytics/
  1. yahoo: 9,163
  2. google: 7,530
  3. search: 246
  4. bing: 142
  5. live: 25
  6. ask: 6
  7. aol: 1
 あー、MSN(bingとlive)は少なすぎ。

 つまり、msnbotは連日のように30,000近くのリクエスト(画像等を除くと、実質的には10,000~15,000?)があるにもかかわらず、登録されたインデックス数は500ちょっとで、しかもMSN(bingとlive)からのアクセスはYahoo!やGoogleに比べると10分の1未満。
 サーバへの負担が小さくないので、robots.txtでDisallowしようと思ったが、取り合えずCrawl-delayで様子を見ることにした。

MSNBot および Web サイトのクロールに関する問題に対処する
help.live.com/Help.aspx?mar...

 上記ページを参考に、robots.txtには以下のように記述した。
User-agent: msnbot
Crawl-delay: 120

 それにしてもmsnbotは大丈夫なのだろうか、このままではお役目御免になるのではないか。あまりにも効率が悪すぎる。
 現状では存在自体が謎だ。

EDIUNET | PHP/MySQL | 独り言 | 提供サービス | JavaScript