robots.txtとmetaでクローラーを拒否！検索エンジンに表示させない設定をする

クライアントにサイトなどの制作物を確認してもらう際、自社のサーバー上にアップして、URLだけを送信する方法が便利で一般的ですよね。

しかし、同時にテストアップしたドメインの下層に「test」「client_aaaa」というディレクトリが生成され、新たなコンテンツとして検索エンジンにみなされてしまいます。

この場合、テストアップと本番でコンテンツの重複するになってしまい、どちらかのドメインがコピーサイトとしてSEO評価を大きく下げてしまう恐れがあります。

そこで「test」以下のディレクトリは検索エンジンにインデックスさせないを行う必要があります。

robots.txtを使ってクローラーを拒否する

一番簡単な方法として「robots.txt」を使う方法があります。検索エンジンロボットに対する命令をテキストデータに記述、さらに対象になるディレクトリやページも、robots.txtというテキストデータ1つで指定できます。

全てのクローラーを拒否する場合。

User-agent: *
Disallow: /

逆に全てのクローラーを許可する場合。

User-agent: *
Disallow:

ディレクトリ・ページを指定する。

User-agent: *
Disallow: /test/
Disallow: /test/aaaa/
Disallow: /test/aaaa/sample.html

robots.txtは、ドメインのルートディレクトリ（トップディレクトリ）に設置します。

サーバーを触ることに抵抗がある方は、HTMLのmetaでクローリングを制御できます。

<meta name="robots" content="noindex,nofollow">

headタグ内に上記を設置。「noindex」で検索エンジンにインデックスさせない、「nofollow」でこのページのリンクはたどらないという指定になります。

数ページ程度であればmetaでもいいかもしれませんが、頻繁にテストアップを行うようであればrobots.txtの方が効率はいいでしょう。