Robots.txt/ru

From MediaWiki.org
Jump to: navigation, search

This page is in progress of translating to Russian. You can help translating it or go to another language version that follows:

Эта страница в процессе перевода на русский язык. Вы можете помочь в переводе или перейти на другие языковые версии, указанные ниже:

Язык: English  • Русский


robots.txt позволяет управлять индексацией сайта поисковыми роботами. Файл должен находится в корне сайта, то есть путь к файлу должен быть вида http://example.com/robots.txt .

Contents

[edit] Структура файла

<директива>:<необязательный пробел><значение><необязательный пробел>

Где директивой может быть User-agent, Disallow, Allow, Sitemap

[edit] Значения директив

[edit] User-agent

User-agent - указывает имя поискового робота:

User-agent: googlebot
Disallow: 

Если нужно указать, что инструкция применима ко всем роботам, то пишется

User-agent: *
Disallow: 

Директива обязательна. Если вы не желаете ограничивать индексацию, оставляйте пустой.

[edit] Disallow

Запрещает индексацию, если не пустой:

User-agent: *
Disallow: /

А данный пример разрешает индексацию:

User-agent: *
Disallow: 

[edit] Allow

Противоположное директиве Disallow, но не все роботы его понимают, поэтому при использовании явно указывайте имя робота

User-agent: yandex
Disallow: /folder/
Allow: /

[edit] Crawl-delay

Указывает задержку (в секундах) между загрузкой страниц, не все роботы поддерживают эту директиву

User-agent: yandex
Disallow: /folder/
Allow: /
Crawl-delay: 200

Рекомендуется использовать если роботы оказывают сильную нагрузку на сервер.

[edit] Host

Указывает главное зеркало сайта:

User-agent: googlebot
Disallow: /folder/
Allow: /
Host: www.example.com

Нельзя указывать протокол http://

[edit] Sitemap

Указывает путь к xml-файлу sitemap

User-agent: googlebot
Disallow: /folder/
Allow: /
Sitemap: http://example.com/sitemap.xml

[edit] *

Используется, если значение директивы невозможно указать явно. Используется только для директив Disallow и Allow. Пример:

User-agent: *
Disallow: *oldid=*
Allow: /
Sitemap: http://example.com/sitemap.xml

Данный пример указывает роботам, что нельзя индексировать страницы в адресе, которых содержится параметр oldid.


[edit] Частые ошибки

  • Название файла должно быть в нижнем регистре с обязательной буквой "s", т.е. не допускаются названия вида:
robot.txt
Robots.txt
robots.TXT
ROBOTS.TXT
  • Нельзя оставлять директивы без значения, за исключением Disallow.
  • Между директивами нельзя оставлять пустые строки. Пустую строку можно использовать для отделения инструкций предназначенных для разных роботов.
  • Нельзя указывать несколько значений в одной директиве. Пример неправильно оформленного robots.txt:
User-agent: *
Disallow: /folder1/ /folder2/

Следует писать:

User-agent: *
Disallow: /folder1/
Disallow: /folder2/

[edit] Злобные роботы

Вредоносные роботы, например копирующие сайт, игнорируют robots.txt, поэтому их следует блокировать по IP-адресам и User-agent. Некоторые поисковые роботы, такие как Яндекс, иногда начинают сканировать сайт с маленькой задержкой, поэтому рекомендуется использовать директиву Crawl-delay для роботов которые поддерживают эту директиву.

[edit] См. Также

Язык: English  • Polski
Personal tools
Namespaces

Variants
Actions
Site
Support
Download
Development
Communication
Print/export
Toolbox