Manual:Robots.txt/pl

Pliki robots.txt są częścią Standardów Wykluczeń Robotów. Informują pająki sieciowe jak mają indeksować stronę. Ten plik musi znajdować się w katalogu głównym domeny.

Zapobieganie indeksowaniu
Ten kod zapobiega indeksowaniu wszystkich podstron twojej witryny: User-agent: * Disallow: / Jeżeli chcesz zablokować konkretne roboty, zamiast gwiazdki wpisz jego nazwę user agent.

Zapobieganie indeksowaniu stron niebędących artykułami
MediaWiki generuje wiele stron będących użyteczne tylko dla ludzi: poprzednie wersje i różnice między nimi doprowadzają do tworzenia zduplikowanej treści. Strony edycji i wiele stron specjalnych są dynamicznie generowane i nadające się tylko do użytku przez redagujących, a ich generowanie zużywa zasoby serwera. Także więc roboty sieciowe mogą indeksować tysiące podobnych stron, bez wielkiej potrzeby, obciążając przy okazji serwery.

Z krótkimi URL
Możesz łatwo zapobiec indeksowaniu stron niebędących artykułami jeżeli używasz stylu Wikipedii (/w/) - krótkie URL. Artykuły są dostępne poprzez adres /wiki/Jakiś_tytuł, a pozostałe strony są dostępne poprzez /w/index.php?title=Jakiś_tytuł&opcja=wartość: User-agent: * Disallow: /w/ Bądź ostrożny: jeżeli przez pomyłkę dasz taką linię: Disallow: /w (zwróć uwagę na brak ukośnika na końcu) to zablokujesz także katalog /wiki, w którym będą linkowane artykuły!

Bez krótkich URL
Jeżeli nie korzystasz z krótkich URL, ograniczanie robotów jest wiele trudniejsze. Jeżeli masz uruchomione PHP jako CGI i nie masz przyjaznych URL, to artykuły są dostępne poprzez /index.php?title=Jakiś_tytuł: User-agent: * Disallow: /index.php?diff= Disallow: /index.php?oldid= Disallow: /index.php?title=Help Disallow: /index.php?title=Image Disallow: /index.php?title=MediaWiki Disallow: /index.php?title=Special: Disallow: /index.php?title=Template Disallow: /skins/

Jeżeli masz uruchomione PHP jako moduł Apache i nie masz przyjaznych URL, to artykuły są dostępne poprzez /index.php/Jakiś_tytuł: User-agent: * Disallow: /index.php? Disallow: /index.php/Help Disallow: /index.php/MediaWiki Disallow: /index.php/Special: Disallow: /index.php/Template Disallow: /skins/

Linie bez dwukropka na końcu ograniczają również dostęp do stron dyskusji tych przestrzeni nazw.

Wersje inne niż angielskie muszą mieć przetłumaczone na tej liście nazwy przestrzeni nazw (np. zamiast Template: - Szablon:). Możesz też spróbować: Disallow: /*& because some robots like Googlebot accept this wildcard extension to the robots.txt standard, which stops most of what we don't want robots sifting through, just like the /w/ solution above.

Problemy
Niestety występują dwa podstawowe problemy z plikiem robots.txt:

Częstotliwość
You can only specify what paths a bot is allowed to spider. Even allowing just the plain page area can be a huge burden when two or three pages per second are being requested by one spider over two hundred thousand pages.

Some bots have a custom specification for this; Inktomi responds to a "Crawl-delay" line which can specify the minimum delay in seconds between hits. (Their default is 15 seconds.)

Złe roboty
Niektóre własne boty pomijają plik robots.txt lub zbyt szybko ściągają strony, co może obciążyć serwer. Zalecane jest zablokowanie user agent takich robotów lub IP.

More generally, request throttling can stop such bots without requiring your repeated intervention.

Alternatywnym rozwiązaniem jest zastawienie pułapki.