msnbotの謎
※以前別の場所で書いた文章を備忘的に書き記しておきます。
【投稿年月日】2010-02-28 【ジャンル】独り言
EDIUNETがリニューアルしたということもあって、久しぶりにアクセス解析を眺めてみた。2/26の総リクエスト数が164,186。ただし、画像やらCSSやらを含んだ生ログなので、実質的なリクエスト数は4割ぐらい、すなわち70,000前後かと思われる。検索ロボットをピックアップしてみたところ、
2010年 2月26日(金)
- msnbot: 29,159
- Yahoo! Slurp: 19,569
- Googlebot: 15,305
念のためにEDIUNETのリニューアル前も確認してみると、2/23の総リクエスト数が138,594で、検索ロボットの内訳は以下の通り。
2010年 2月23日(火)
- msnbot: 28,656
- Googlebot: 12,198
- Yahoo! Slurp: 3,166
次に各検索エンジンが、EDIUNETをどれぐらいインデックスに登録しているかを確認してみた。
Google ウェブマスター ツール
www.google.com/webmasters/tools/home?hl=ja - インデックスに登録されている URL: 2,887
- 最終更新日: 2010/02/27
サイトエクスプローラー(サイト管理者向けツール) - Yahoo!検索
siteexplorer.search.yahoo.co.jp/ - インデックス状況 約46,674
- 2010/02/26
Webmaster Center - Bing
www.bing.com/webmaster - Indexed pages: 513
- Last crawled: 2010/02/24
最後に検索エンジン経由のアクセス数を確認。期間は一ヶ月(2010/01/20 - 2010/02/19)。
Google Analytics
www.google.com/analytics/ - yahoo: 9,163
- google: 7,530
- search: 246
- bing: 142
- live: 25
- ask: 6
- aol: 1
つまり、msnbotは連日のように30,000近くのリクエスト(画像等を除くと、実質的には10,000~15,000?)があるにもかかわらず、登録されたインデックス数は500ちょっとで、しかもMSN(bingとlive)からのアクセスはYahoo!やGoogleに比べると10分の1未満。
サーバへの負担が小さくないので、robots.txtでDisallowしようと思ったが、取り合えずCrawl-delayで様子を見ることにした。
MSNBot および Web サイトのクロールに関する問題に対処する
help.live.com/Help.aspx?market=ja-JP&project=WL...
上記ページを参考に、robots.txtには以下のように記述した。
User-agent: msnbot
Crawl-delay: 120
Crawl-delay: 120
それにしてもmsnbotは大丈夫なのだろうか、このままではお役目御免になるのではないか。あまりにも効率が悪すぎる。
現状では存在自体が謎だ。
EDIUNET | PHP/MySQL | 独り言 | 提供サービス | JavaScript