Manual:Robots.txt/fr

Les fichiers robots.txt font partie des Standards d'exclusion des robots, et peuvent aider à l'. Ils indiquent aux robots web comment indexer un site. Un fichier robots.txt doit être placé à la racine du web d'un domaine.

Empêcher toute indexation
Ce code empêche les robots d'indexer toutes les pages de votre site :

Si vous souhaitez uniquement bloquer un certain fouineur, remplacez l'astérisque par l'agent utilisateur de l'arborescence.

Empêcher l'indexation des pages qui ne sont pas des articles
MediaWiki génère de nombreuses pages qui ne sont utiles que pour les humains vivants: les anciennes versions et les diffs tendent à dupliquer le contenu trouvé dans les articles. Les pages d'édition et la plupart des pages spéciales sont générées de manière dynamique, ce qui les rend utiles uniquement pour les éditeurs humains et relativement coûteuses à diffuser. S'ils ne sont pas canalisés par ailleurs, les fouineurs peuvent essayer d’indexer des milliers de pages similaires, en surchargeant le serveur Web.

Avec les URLs courtes
Il est facile d'empêcher les fouineurs d'indexer les pages qui ne sont pas des articles lorsque vous utilisez des URLs courtes dans le style de Wikipedia. En supposant que les articles sont accessibles au travers de /wiki/Some_title et que les autres éléments soient disponibles par /w/index.php?title=Some_title&someoption=blah :

Soyez prudent, néanmoins ! Si par accident, vous introduisez cette ligne :

Vous bloquerez l'accès au répertoire /wiki, et les moteurs de recherche vont ignorer votre wiki !

Notez bien que cette solution fera que le CSS, le Javascript et les fichiers d'images seront bloqués, et donc les moteurs de recherche tels que Google, ne seront pas en mesure d'afficher les aperçus des articles wiki. Pour contourner ceci, au lieu de bloquer le répertoire /w dans sa totalité, seulement index.php a besoin d'être bloqué :

Ceci fonctionne parce que CSS et JavaScript sont ramenés via /w/load.php. D'une autre façon, vous pourriez le faire comme il est fait dans la ferme Wikimedia :

Sans les URLs courtes
Si vous n'utilisez pas les, restreindre les robots est un peu exagéré. Si vous exécutez PHP comme CGI et que vous n'avez pas magnifié les URLs, les articles étant accessibles au travers de /index.php?title=Some_title :

Si vous utilisez PHP comme un module Apache et que vous n'avez pas magnifié les URLs, les articles étant accessibles par /index.php/Some_title:

Les lignes sans les deux points à la fin restreignent les pages de discussion de ces espaces de noms.

Les wikis qui ne sont pas en anglais devraient ajouter diverses traductions des lignes ci-dessus.

Vous pouvez ne pas mettre de restrictions sur /skins/, sinon cela empêche l'accéder aux images appartenant à l'habillage. Les moteurs de recherche qui affichent l'aperçu des images, tel Google, vont afficher les articles avec des images absentes s'ils ne peuvent pas accéder au répertoire /skins/</tt>.

Vous pouvez aussi essayer

parce que cetains robots comme Googlebot acceptent cette extension avec joker dans le robots.txt standard, ce qui arrête la plupart de ce que nous ne voulons pas que les robots passent au crible, tout comme la solution /w/ ci-dessus. Toutefois, ceci présente les mêmes limites en ce que cela bloque l’accès au CSS, empêchant ainsi les moteurs de recherche de restituer correctement les images d’aperçu. Il est possible de résoudre ce problème en ajoutant une autre ligne Allow: /load.php</tt> cependant, au moment de la rédaction de cet article, ceci n’a pas été testé.

Autoriser l'indexation des pages brutes par l'archiveur internet
Vous pouvez vouloir autoriser l' Archiveur internet à indexer les pages brutes de sorte que les texte wikit brut des pages soit un enregistrement permanent. De cette manière, il sera plus facile, au cas où le wiki devriendrait corrompu, pour les contributeurs de mettre le contenu sur un autre wiki. Vous feriez alors :

Contrôle des seuils
You can only specify what paths a bot is allowed to spider. Even allowing just the plain page area can be a huge burden when two or three pages per second are being requested by one spider over two hundred thousand pages.

Some bots have a custom specification for this; Inktomi responds to a "Crawl-delay" line which can specify the minimum delay in seconds between hits. (Their default is 15 seconds.)

Les robots diaboliques
Sometimes a custom-written bot isn't very smart or is outright malicious and doesn't obey robots.txt at all (or obeys the path restrictions but spiders very fast, bogging down the site). It may be necessary to block specific user-agent strings or individual IPs of offenders.

More generally, request throttling can stop such bots without requiring your repeated intervention.

An alternative or complementary strategy is to deploy a spider trap.

Spidering vs. indexing
While robots.txt stops (non-evil) bots from downloading the URL, it does not stop them from indexing it. This means that they might still show up in the results of Google and other search engines, as long as there are external links pointing to them. (What's worse, since the bots do not download such pages, noindex meta tags placed in them will have no effect.) For single wiki pages, the  magic word might be a more reliable option for keeping them out of search results.