Robots.txt/ru

robots.txt позволяет управлять индексацией сайта поисковыми роботами. Файл должен находится в корне сайта, то есть путь к файлу должен быть вида http://example.com/robots.txt. Название файла должно быть в нижнем регистре с обязательной буквой "s", т.е. не допускаются названия вида: robot.txt Robots.txt robots.TXT

Структура файла
<директива>:<необязательный пробел><значение><необязательный пробел> Где директивой может быть User-agent, Disallow, Allow, Sitemap

Директивы и специальные символы

 * User-agent - имя поискового робота
 * Disallow - запрещает индексацию
 * Allow - разрешает индексацию, но используется для создания исrлючений при использовании директивы Disallow
 * Sitemap - указывает путь к файлу sitemap. (см. |sitemap.org)
 * * - используется когда значение заранее неизвестно
 * / - корень сайта

Разрешение индексации
Чтобы разрешить индексацию всего сайта, в файле robots.txt следует ввести User-agent: * Disallow: Sitemap: http://example.com/sitemap.xml Обратите внимание на директиву Disallow, в данном случае / не ставится.

Запрет индексации
Чтобы запретить индексацию всего сайта, в файле robots.txt следует ввести User-agent: * Disallow: /

Частичная индексация
Допустим, нужно запретить индексацию всего сайта, но следует разрешить индексировать страницу file.html, который находится в корне сайта. Для этого укажем: User-agent: * Disallow: / Allow: /file.html

Частые ошибки
Нельзя указывать несколько значений одновремено, т.е. нельзя писать так User-agent: * Disallow: /cgi-bin/ /folder/ Правильней будет User-agent: * Disallow: /cgi-bin/ Disallow: /folder/