robots.txt

【ロボットテキスト:robots.txt】
robots.txtとは、自分のサイトを訪れた検索エンジン(Googlebotなどのクローラー)のアクセスを制御するためのファイルです。
これはサイトのTOPページと同一の階層に置く必要があり、決まった書き方があります。クローラーはサイトを訪れた際にまずこのファイルを探し、このサイトをどのように回ったら良いのかというのを判断します。
このrobots.txtはタグよりも命令要素が強く、ある程度はクローラーを操作できますが、強制させる力はないようです。

例えば、「このページは見てほしくない」「このクローラーは来てもいいけどこれはだめ!」といった特定の動きを制御することができます。

robots.txtで制御できる内容

robots.txtでは下記のような内容を制御することができます。

  • クローラーの選択
  • サイトマップファイルの場所指定
  • アクセス出来るファイル
クローラーの選択

ユーザーエージェントを指定することで、どのクローラーに向けての命令なのかを制御することができます。例えば、Googlebotに対する命令と、その他クローラーに対する命令などを切り分けることも可能です。

サイトマップファイルの場所指定

サイトマップファイルがどこにあるかをURLで記載することができ、そこへクローラーを誘導することができます。

アクセス出来るファイル

サイト内でアクセスが出来るファイル(ページ)や、アクセスをして欲しくない、出来ないファイル(ページ)を細かく指定することができます。

書き方と設置の仕方

robots.txtは「UTF-8」でエンコードされた書式なしテキストである必要があります。拡張子は「.txt」です。ファイルサイズはクローラーごとに異なりますが、Googleでは500KBのサイズ制限があります。
ファイルをアップロードする場所はindexページど同一の階層…つまりトップに置かなくてはなりません。これは絶対に守る必要があります。

テキストの基本的な書き方と指示内容は下記となります。


User-agent: *
Disallow:

Sitemap : http://exmple.com/sitemap.xml

【User-agent: 】こちらでクローラーを選択します。「*」は「すべてのクローラー」という意味があり、この部分を適切なクローラー名に変えることでクローラー指定が出来ます。
この指定部分は次のUser-agentを書き込むまでの記述が有効となります。

【Disallow:】クローラーが来るのを拒否したいページをこちらに記載します。ここはファイル名を相対パスで記述します。基本的にサイト全体を見に来てもいいと言う場合は何も書く必要は無いので上記のように空白となります。
拒否したいページがある場合は下記のように記述をします。

拒否するページがサイト全体の場合
Disallow: /
※サイトのディレクトリをすべて

拒否するページがhttp://exmple.com/aaa/のディレクトリすべての場合
Disallow: /aaa/

拒否するページがhttp://exmple.com/aaa/page1.htmlの場合
Disallow: /aaa/page1.html

【Sitemap :】ここにはサイトマップのURLを記述します。こちらはフルパスでの記載となります。

【一覧へ戻る】