Правильный Robots.txt с минимальными усилиями

Настройка файла robots.txt состоит в том, чтобы прописать всего лишь две директивы Host и Sitemap:

Host — указывает Яндексу на основное зеркало сайта
Host: seoskills.ru
Sitemap — указывает роботу путь к XML-карте сайта
Sitemap: http://seoskills.ru/sitemap.xml

Disallow

Файл robots.txt изначально был создан для того, чтобы запрещать к индексированию:

Сайт, находящийся в стадии разработки
Disallow: /
Служебные разделы сайта
Disallow: /feed/

Пример robots.txt

User-agent: Yandex Host: seoskills.ru User-agent: * Crawl-delay: 10 Sitemap: http://seoskills.ru/sitemap.xml

Все, что прописано в robots.txt носит исключительно рекомендательный характер и поэтому не стоит удивляться, если в индексе поисковых систем вдруг обнаружатся закрытые разделы.

Вывод

В идеале, все задачи по закрытию страниц от индексации надо решать средствами сайта, а не с помощью robots.txt.

Поисковые роботы Яндекса перестали учитывать пустую директиву Allow как запрещающий сигнал в robots.txt.

Часто встречающаяся ситуация – когда индексирующий робот не может получить доступ к сайтам из-за установленного по ошибке в robots.txt запрета на посещение всех страниц. Эти ошибки могут быть связаны с использованием пустой директивы Allow:

Раньше робот интерпретировал это правило как полностью запрещающее, и это делало сайт недоступным для визита роботов. Когда же владельцы сайтов намеренно хотели запретить посещение сайтов, они обычно четко прописывали команду запрета.

Поэтому команда Яндекса решила изменить обработку роботом такой директивы — сейчас она игнорируется при обнаружении в robots.txt. Если на сайте намеренно используются пустое правило Allow в robots.txt, то для того, чтобы робот корректно учитывал запрет, правило нужно изменить на директиву Disallow:

Проверить, что разрешено, а что – нет, можно в Яндекс.Вебмастере. Особое внимание следует обратить на то, чтобы отсутствовали пустые значения, целью которых является запрет на индексирование.