Manual:Robots.txt/ja

robots.txtファイルはRobots Exclusion Standardに含まれ、（検索エンジン最適化）を補助します. インターネットボットにサイトの索引付けの方法を指示します. robots.txtファイルは必ずドメインのwebルートに置きます.

索引付けをすべて回避
ご利用のサイトで一切のボットに索引付けをさせないためには、以下のコードを使います:

特定のスパイダーのみブロックする場合は、アスタリスク（記号「*」）にスパイダーのユーザーエージェント名を代入します.

ページ以外の索引付けを防止
MediaWikiが生成するページには実在の人間しか利用しないものが多くあります: 古いリビジョンや差分ファイルは記事内のコンテンツを複製しがちです. 編集ページとおおかたの特別ページは動的に生成される結果、実在の人間の編集者のみが使用でき、サーバには比較的、負荷が高めです. 指示がない限り、スパイダーはそのようなページでも数千回索引付けを試み、ウェブサーバに高い負荷をかけてしまいます.

短縮URLあり
もしウィキペディアに似た形式の短縮URLを採用していると、記事ではないページにスパイダーの索引付けを防止するのは難しくありません. 記事は/wiki/Some_title経由でアクセスし、その他は/w/index.php?title=Some_title&someoption=blah可能だとした場合:

ただし、ご注意! 次の行を間違えて追加してしまうと:

/wikiディレクトリへのアクセスをブロックしてしまい、検索エンジンに無視されてしまいます!

またこの解決策だとCSSもJavaScriptあるいは画像ファイルもブロックしてしまい、Google他の検索エンジンがウィキ記事のプリビューをレンダリングできません. それを回避するにはブロックの対象を/wディレクトリ全体ではなく、index.phpにのみ限定します:

こうすると、/w/load.php経由でCSSやJavaScriptが検索されるため検索対象からの脱落を回避できます. また、 Wikimedia系のプロジェクトでも同じ結果が出ます:

短縮URLなし
を使用しない場合、ロボットの制約方法は少し難しくなります. CGIとしてPHPを走らせていて、URLを短縮していない場合、記事へのアクセスは/index.php?title=Some_title経由で検索できます:

PHPをApacheモジュールとして走らせてもURLを短縮していないと、記事は/index.php/Some_title経由で検索できます:

名前空間の行末にコロン がない場合、トークページが制限されます.

英語以外のウィキでは、上記の各行にそれぞれ翻訳を添える必要があるかもしれません.

外装に属する画像にアクセスするには、/skins/の制限を採用しないという選択をします. /skins/</tt>ディレクトリにアクセスできないと、Google等プリビュー画像を提供する検索エンジンにおいては記事の画像が表示されません.

他の方法として

because some robots like Googlebot accept this wildcard extension to the robots.txt standard, which stops most of what we don't want robots sifting through, just like the /w/ solution above. This does however, suffer from the same limitations in that it blocks access to CSS, preventing search engines from correctly rendering preview images. It may be possible to solve this by adding another line Allow: /load.php</tt> however at the time of writing this is untested.

Allow indexing of raw pages by the Internet Archiver
You may wish to allow the Internet Archiver to index raw pages so that the raw wikitext of pages will be on permanent record. This way, it will be easier, in the event the wiki goes down, for people to put the content on another wiki. You would use:

Rate control
You can only specify what paths a bot is allowed to spider. Even allowing just the plain page area can be a huge burden when two or three pages per second are being requested by one spider over two hundred thousand pages.

Some bots have a custom specification for this; Inktomi responds to a "Crawl-delay" line which can specify the minimum delay in seconds between hits. (Their default is 15 seconds.)

悪意があるボット
Sometimes a custom-written bot isn't very smart or is outright malicious and doesn't obey robots.txt at all (or obeys the path restrictions but spiders very fast, bogging down the site). It may be necessary to block specific user-agent strings or individual IPs of offenders.

More generally, request throttling can stop such bots without requiring your repeated intervention.

An alternative or complementary strategy is to deploy a spider trap.

Spidering vs. indexing
While robots.txt stops (non-evil) bots from downloading the URL, it does not stop them from indexing it. This means that they might still show up in the results of Google and other search engines, as long as there are external links pointing to them. (What's worse, since the bots do not download such pages, noindex meta tags placed in them will have no effect.) For single wiki pages, the  magic word might be a more reliable option for keeping them out of search results.