Robots.txt/ru

robots.txt позволяет управлять индексацией сайта поисковыми роботами. Файл должен находится в корне сайта, то есть путь к файлу должен быть вида http://example.com/robots.txt.

Структура файла
<директива>:<необязательный пробел><значение><необязательный пробел> Где директивой может быть User-agent, Disallow, Allow, Sitemap

User-agent
User-agent - указывает имя поискового робота: User-agent: googlebot Disallow: Если нужно указать, что инструкция применима ко всем роботам, то пишется User-agent: * Disallow: Директива обязательна. Если вы не желаете ограничивать индексацию, оставляйте пустой.

Disallow
Запрещает индексацию, если не пустой: User-agent: * Disallow: /

А данный пример разрешает индексацию: User-agent: * Disallow:

Allow
Противоположное директиве Disallow, но не все роботы его понимают, поэтому при использовании явно указывайте имя робота User-agent: yandex Disallow: /folder/ Allow: /

Crawl-delay
Указывает задержку (в секундах) между загрузкой страниц, не все роботы поддерживают эту директиву User-agent: yandex Disallow: /folder/ Allow: / Crawl-delay: 200 Рекомендуется использовать если роботы оказывают сильную нагрузку на сервер.

Host
Указывает главное зеркало сайта: User-agent: googlebot Disallow: /folder/ Allow: / Host: www.example.com Нельзя указывать протокол http://

Sitemap
Указывает путь к xml-файлу sitemap User-agent: googlebot Disallow: /folder/ Allow: / Sitemap: http://example.com/sitemap.xml

*
Используется, если значение директивы невозможно указать явно. Используется только для директив Disallow и Allow. Пример: User-agent: * Disallow: *oldid=* Allow: / Sitemap: http://example.com/sitemap.xml Данный пример указывает роботам, что нельзя индексировать страницы в адресе, которых содержится параметр oldid.

Частые ошибки
robot.txt Robots.txt robots.TXT ROBOTS.TXT User-agent: * Disallow: /folder1/ /folder2/ Следует писать: User-agent: * Disallow: /folder1/ Disallow: /folder2/
 * Название файла должно быть в нижнем регистре с обязательной буквой "s", т.е. не допускаются названия вида:
 * Нельзя оставлять директивы без значения, за исключением Disallow.
 * Между директивами нельзя оставлять пустые строки. Пустую строку можно использовать для отделения инструкций предназначенных для разных роботов.
 * Нельзя указывать несколько значений в одной директиве. Пример неправильно оформленного robots.txt:

Злобные роботы
Вредоносные роботы, например копирующие сайт, игнорируют robots.txt, поэтому их следует блокировать по IP-адресам и User-agent. Некоторые поисковые роботы, такие как Яндекс, иногда начинают сканировать сайт с маленькой задержкой, поэтому рекомендуется использовать директиву Crawl-delay для роботов которые поддерживают эту директиву.

См. Также

 * robotstxt.org.ru
 * Использование для Яндекса
 * Использование для Google