Robots.txt/ru

From MediaWiki.org
Jump to: navigation, search

This page is in progress of translating to Russian. You can help translating it or go to another language version that follows:

Эта страница в процессе перевода на русский язык. Вы можете помочь в переводе или перейти на другие языковые версии, указанные ниже:

Язык: English  • русский


robots.txt позволяет управлять индексацией сайта поисковыми роботами. Файл должен находится в корне сайта, то есть путь к файлу должен быть вида http://example.com/robots.txt .

Contents

Структура файла [edit]

<директива>:<необязательный пробел><значение><необязательный пробел>

Где директивой может быть User-agent, Disallow, Allow, Sitemap

Значения директив [edit]

User-agent [edit]

User-agent - указывает имя поискового робота:

User-agent: googlebot
Disallow: 

Если нужно указать, что инструкция применима ко всем роботам, то пишется

User-agent: *
Disallow: 

Директива обязательна. Если вы не желаете ограничивать индексацию, оставляйте пустой.

Disallow [edit]

Запрещает индексацию, если не пустой:

User-agent: *
Disallow: /

А данный пример разрешает индексацию:

User-agent: *
Disallow: 

Allow [edit]

Противоположное директиве Disallow, но не все роботы его понимают, поэтому при использовании явно указывайте имя робота

User-agent: yandex
Disallow: /folder/
Allow: /

Crawl-delay [edit]

Указывает задержку (в секундах) между загрузкой страниц, не все роботы поддерживают эту директиву

User-agent: yandex
Disallow: /folder/
Allow: /
Crawl-delay: 200

Рекомендуется использовать если роботы оказывают сильную нагрузку на сервер.

Host [edit]

Указывает главное зеркало сайта:

User-agent: googlebot
Disallow: /folder/
Allow: /
Host: www.example.com

Нельзя указывать протокол http://

Sitemap [edit]

Указывает путь к xml-файлу sitemap

User-agent: googlebot
Disallow: /folder/
Allow: /
Sitemap: http://example.com/sitemap.xml

* [edit]

Используется, если значение директивы невозможно указать явно. Используется только для директив Disallow и Allow. Пример:

User-agent: *
Disallow: *oldid=*
Allow: /
Sitemap: http://example.com/sitemap.xml

Данный пример указывает роботам, что нельзя индексировать страницы в адресе, которых содержится параметр oldid.


Частые ошибки [edit]

  • Название файла должно быть в нижнем регистре с обязательной буквой "s", т.е. не допускаются названия вида:
robot.txt
Robots.txt
robots.TXT
ROBOTS.TXT
  • Нельзя оставлять директивы без значения, за исключением Disallow.
  • Между директивами нельзя оставлять пустые строки. Пустую строку можно использовать для отделения инструкций предназначенных для разных роботов.
  • Нельзя указывать несколько значений в одной директиве. Пример неправильно оформленного robots.txt:
User-agent: *
Disallow: /folder1/ /folder2/

Следует писать:

User-agent: *
Disallow: /folder1/
Disallow: /folder2/

Злобные роботы [edit]

Вредоносные роботы, например копирующие сайт, игнорируют robots.txt, поэтому их следует блокировать по IP-адресам и User-agent. Некоторые поисковые роботы, такие как Яндекс, иногда начинают сканировать сайт с маленькой задержкой, поэтому рекомендуется использовать директиву Crawl-delay для роботов которые поддерживают эту директиву.

См. Также [edit]

Язык: English  • polski