Manual:Robots.txt/pt-br

Os arquivos robots.txt são parte do Padrão de Exclusão de Robôs. Eles dizem ao robôs web como indexar um site. Um arquivo robots.txt deve ser colocado no web root de um domínio.

Previna toda indexação
Este código impede que todos os bots indexem todas as páginas em seu site: Se você só deseja bloquear um certo aranha, substituir o asterisco com o agente de usuário do aranha.

Impeça a indexação de páginas que não sejam artigos
O MediaWiki gera muitas páginas que são úteis apenas para os seres humanos vivos: revisões antigas e diffs tendem a duplicar o conteúdo encontrado em artigos. Edite as páginas e a maioria das páginas especiais são geradas dinamicamente, o que as torna úteis apenas para os editores humanos e relativamente dispendioso para os servidores. Se não for orientado de outra forma, os aranhas podem tentar indexar milhares de páginas semelhantes, sobrecarregando o servidor.

Com URLs curtas
É fácil evitar que aranhas indexem páginas que não são artigos se você estiver usando URLs curtas ao estilo Wikipédia. Supondo que artigos são acessíveis através de /wiki/Some_title e qualquer outra coisa está disponível através de /w/index.php?title=Some_title&someoption=blah : Tenha cuidado, porém! Se você colocar essa linha por acidente: você vai bloquear o acesso ao diretório /wiki, e os mecanismos de busca irão ignorar sua wiki!

Sem URLs curtas
Se não estiver usando, restringir robôs é um pouco mais difícil. Se você estiver executando PHP como CGI e você não tem URLs embelezadas, de modo que os artigos sejam acessíveis através de /index.php?title=Some_title: Se estiver executando o PHP como módulo do Apache e você não tenha embelezado as URLs, de modo que os artigos são acessíveis através de /index.php/Some_title: As linhas sem os dois pontos no final restringem as páginas de discussão desses namespaces.

As wikis que não estão em inglês podem precisar adicionar várias traduções das linhas acima.

Você pode tentar também porque alguns robôs como o Googlebot aceitam esta extensão curinga para o padrão robots.txt, o que impede a maioria do que nós não queremos robôs vasculhando, assim como a solução /w/ acima.

Permitir a indexação de páginas brutas pelo Internet Archiver
Você pode querer permitir que o Internet Archiver indexe páginas brutas, para que o wikitexto bruto das páginas estejam em gravação permanente. Desta forma, será mais fácil, caso a wiki caia, para que as pessoas coloquem o conteúdo em outra wiki. Você poderia usar:

Controle de taxa
É possível especificar apenas quais caminhos um bot é permitido rastrear. Mesmo permitindo apenas a área de página simples, pode ser um enorme fardo, quando duas ou três páginas por segundo estão sendo solicitadas por uma web spider, mais de duzentas mil páginas.

Some bots have a custom specification for this; Inktomi responds to a "Crawl-delay" line which can specify the minimum delay in seconds between hits. (Their default is 15 seconds.)

Evil bots
Sometimes a custom-written bot isn't very smart or is outright malicious and doesn't obey robots.txt at all (or obeys the path restrictions but spiders very fast, bogging down the site). It may be necessary to block specific user-agent strings or individual IPs of offenders.

More generally, request throttling can stop such bots without requiring your repeated intervention.

An alternative or complementary strategy is to deploy a spider trap.

Spidering vs. indexing
While robots.txt stops (non-evil) bots from downloading the URL, it does not stop them from indexing it. This means that they might still show up in the results of Google and other search engines, as long as there are external links pointing to them. (What's worse, since the bots do not download such pages, noindex meta tags placed in them will have no effect.) For single wiki pages, the  magic word might be a more reliable option for keeping them out of search results.