Googleは日夜世界中にあるサイトをクローラーを使って見て回っているわけなのですが、そんなクロールにはとある上限というものがあります。今回はそんなGoogleロボットちゃんの上限のお話をしましょう。
クロールバジェットとは?
SEOをやっていると耳にする言葉だと思います。これがGoogleの上限というやつなのですが、実は私達一般のサイト運営者はまったく気にする必要がないくらい規模が大きいお話です。
あくまでも言葉を知っておくことでGoogleのロボットちゃんに対する理解が深まると思うので今回はお話をしてみます。
クロールバジェットとは、Googleのロボットちゃんが、クロールするにふさわしいと思うURLの上限数です。Googleのロボットちゃんはとっても優秀ですが、だからといって何でも出来るわけではありません。世界中のサイトを見て回るにも限界はありますが、それでもGoogleロボットちゃんはより素敵なサイトを沢山見て回って素敵な検索結果を作りたいのです。
そこで、クロール自体に制御をかけることにしたのです。もちろん様々な要因が加味されていますが、そのおかげでより効率よくサイトを見て回ることが出来ているようです。その制御がクロールバジェットなんですね。
このクロールバジェットは下記のような項目を考えながら決められているそうです。
これは、Googleのロボットちゃんがそのサイトを見に行く速度を指すクロール速度です。例えば、サイトの情報を最新のものにしようとするあまり、ロボットちゃんが何度も何度もサイトを訪れてしまうと、サイトがあるサーバーがそんなに来ないで~!と負荷がかかってしまう可能性があります。
これではサイトに迷惑がかかってしまう、Googleロボットちゃんの望むところではありません。
そこで、それを防止するために「クロールレート」と呼ばれる速度の制御が組み込まれているのです。
これはGoogleロボットちゃんが、このページはクロールして情報を集めないと!と判断したものをクロールするよ、というお話です。この必要性は主に
- 人気度…人気のあるサイト(ページ)※リンク数などを参考にしている
- 鮮度…インデックスしっぱなしにならないようにする
というような指標を元に考えられているようです。
Googleはこれを「クロールデマンド」と呼んでいます。これに該当するページを上手くクロールしておくね~というお話です。
気にする必要はあるのかないのか
結論からいえば、普通のサイトを運営しているのなら気にする必要なはない、です。
例えば、とっても低品質なサイトだったり、気付かないうちに大量のページが生成されてしまうようなごく一部のサイトではこのクロールバジェットを気にしておかないと、望んだURLがインデックスされない!?なんてことも起こるようです。
実は、Googleもこういうページを作ってるサイトはちょっと気にしておいてね、というリストを公開しています。
- 価格違い、色違い商品などのページ
- 重複コンテンツページ
- ソフト404エラーページ
- ハッキングされたページ
- 無限に生成されるページ
- 質の低いコンテンツ、スパムコンテンツ
このようなページはどうやらGoogleロボットちゃんはクロールするのちょっとなぁ、と思っているようですので、このようなページが有るサイトさんはちょっと気を付けなければなりません。
クロールバジェットを説明してきましたが、かなり大きなサイトだったり、システムの制御が出来ていないようなサイト出ない限りは、クロールバジェットを意識する必要は無いようです。普通のサイトであればGoogleロボットちゃんはとっても優秀なので、何の問題もなくインデックスを取ってくれますよ。