クライアントにサイトなどの制作物を確認してもらう際、自社のサーバー上にアップして、URLだけを送信する方法が便利で一般的ですよね。
しかし、同時にテストアップしたドメインの下層に「test」「client_aaaa」というディレクトリが生成され、新たなコンテンツとして検索エンジンにみなされてしまいます。
この場合、テストアップと本番でコンテンツの重複するになってしまい、どちらかのドメインがコピーサイトとしてSEO評価を大きく下げてしまう恐れがあります。
そこで「test」以下のディレクトリは検索エンジンにインデックスさせないを行う必要があります。
robots.txtを使ってクローラーを拒否する
一番簡単な方法として「robots.txt」を使う方法があります。検索エンジンロボットに対する命令をテキストデータに記述、さらに対象になるディレクトリやページも、robots.txtというテキストデータ1つで指定できます。
全てのクローラーを拒否する場合。
User-agent: * Disallow: /
逆に全てのクローラーを許可する場合。
User-agent: * Disallow:
ディレクトリ・ページを指定する。
User-agent: * Disallow: /test/ Disallow: /test/aaaa/ Disallow: /test/aaaa/sample.html
robots.txtは、ドメインのルートディレクトリ(トップディレクトリ)に設置します。
metaで1ページずつ設定する
サーバーを触ることに抵抗がある方は、HTMLのmetaでクローリングを制御できます。
<meta name="robots" content="noindex,nofollow">
headタグ内に上記を設置。「noindex」で検索エンジンにインデックスさせない、「nofollow」でこのページのリンクはたどらないという指定になります。
数ページ程度であればmetaでもいいかもしれませんが、頻繁にテストアップを行うようであればrobots.txtの方が効率はいいでしょう。
記事のコメント