Robots.txt/ru
This page is in progress of translating to Russian. You can help translating it or go to another language version that follows:
Эта страница в процессе перевода на русский язык. Вы можете помочь в переводе или перейти на другие языковые версии, указанные ниже:
| Язык: | English • русский |
|---|
robots.txt позволяет управлять индексацией сайта поисковыми роботами. Файл должен находится в корне сайта, то есть путь к файлу должен быть вида http://example.com/robots.txt .
Contents |
Структура файла [edit]
<директива>:<необязательный пробел><значение><необязательный пробел>
Где директивой может быть User-agent, Disallow, Allow, Sitemap
Значения директив [edit]
User-agent [edit]
User-agent - указывает имя поискового робота:
User-agent: googlebot Disallow:
Если нужно указать, что инструкция применима ко всем роботам, то пишется
User-agent: * Disallow:
Директива обязательна. Если вы не желаете ограничивать индексацию, оставляйте пустой.
Disallow [edit]
Запрещает индексацию, если не пустой:
User-agent: * Disallow: /
А данный пример разрешает индексацию:
User-agent: * Disallow:
Allow [edit]
Противоположное директиве Disallow, но не все роботы его понимают, поэтому при использовании явно указывайте имя робота
User-agent: yandex Disallow: /folder/ Allow: /
Crawl-delay [edit]
Указывает задержку (в секундах) между загрузкой страниц, не все роботы поддерживают эту директиву
User-agent: yandex Disallow: /folder/ Allow: / Crawl-delay: 200
Рекомендуется использовать если роботы оказывают сильную нагрузку на сервер.
Host [edit]
Указывает главное зеркало сайта:
User-agent: googlebot Disallow: /folder/ Allow: / Host: www.example.com
Нельзя указывать протокол http://
Sitemap [edit]
Указывает путь к xml-файлу sitemap
User-agent: googlebot Disallow: /folder/ Allow: / Sitemap: http://example.com/sitemap.xml
* [edit]
Используется, если значение директивы невозможно указать явно. Используется только для директив Disallow и Allow. Пример:
User-agent: * Disallow: *oldid=* Allow: / Sitemap: http://example.com/sitemap.xml
Данный пример указывает роботам, что нельзя индексировать страницы в адресе, которых содержится параметр oldid.
Частые ошибки [edit]
- Название файла должно быть в нижнем регистре с обязательной буквой "s", т.е. не допускаются названия вида:
robot.txt Robots.txt robots.TXT ROBOTS.TXT
- Нельзя оставлять директивы без значения, за исключением Disallow.
- Между директивами нельзя оставлять пустые строки. Пустую строку можно использовать для отделения инструкций предназначенных для разных роботов.
- Нельзя указывать несколько значений в одной директиве. Пример неправильно оформленного robots.txt:
User-agent: * Disallow: /folder1/ /folder2/
Следует писать:
User-agent: * Disallow: /folder1/ Disallow: /folder2/
Злобные роботы [edit]
Вредоносные роботы, например копирующие сайт, игнорируют robots.txt, поэтому их следует блокировать по IP-адресам и User-agent. Некоторые поисковые роботы, такие как Яндекс, иногда начинают сканировать сайт с маленькой задержкой, поэтому рекомендуется использовать директиву Crawl-delay для роботов которые поддерживают эту директиву.
См. Также [edit]
| Язык: | English • polski |
|---|