Одна из самых распространённых проблем при работе с сайтом с точки зрения поисковой оптимизации — это выявление и удаление дублей страниц и других ненужных документов. Этому и посвящён данный мануал.

Рекомендую почаще заглядывать в Яндекс.Вебмастер и мониторить список проиндексированных страниц. Сделать это можно через Индексирование → Страницы в поиске. Данная процедура поможет поддерживать документы в актуальном состоянии.

Итак, переходим к поиску дублей страниц сайта. Нижеизложенное руководство предназначено для владельцев сайтов и интернет-маркетологов. Однако интересно будет всем, кто хочет научиться быстро выявлять и исправлять поисковые проблемы сайта.

Понятие дублей

Дубли – две или более страниц одного сайта, которые содержат идентичный или в достаточной мере похожий текстовый контент. Довольно часто дубли – одна и та же страница сайта, доступная по разным URL-адресам.

Причины появления дублей

Ошибки в содержимом:
› Некорректные относительные ссылки
› Отсутствие текста

Некорректные настройки:
› HTTP-200 вместо HTTP-404
› Доступность служебных страниц

Ошибки в CMS:
› Особенности структуры

Проблемы, к которым приводят дубли

› Смена релевантной страницы
› Обход дублирующих страниц
› Затруднение сбора статистики

Смена релевантной страницы

Пример:

site.ru/uslugi/buhgalterskie-uslugi/
site.ru/buhgalterskie-uslugi/

› Робот не хранит несколько идентичныхдокументов, поэтому в поиске остаётся только один на усмотрение робота
› Показатели страниц отличаются, поэтому при смене страницы в выдаче позиции могут измениться

Затруднение сбора статистики

› «Страницы в поиске»
› «Статистикаобхода»
› Яндекс.Метрика

Проблемы, к которым приводят дубли

› Смена релевантной страницы
› Обход дублирующих страниц
› Затруднение сбора статистики

Источник для поиска дублей

1. «Страницы в поиске»
2. «Статистикаобхода»
3. Фантазия (проверка произвольных страниц)
4. «Проверить статус URL»

Виды дублей

Явные дубли (полностью идентичный контент)

Со слэшом и без
› Один товар в двух категориях
› Версии для печати
› Незначащие параметры
› …

Неявные дубли (страницы с похожим содержимым)
› Похожие товары
› Фото без описаний
› Сортировки и фильтры
› Пагинация
› …

Дубли: со слэшом в конце и без

Пример:
site.ru/page
site.ru/page/

Что делаем:
— HTTP-301 перенаправление с одного вида страниц на другие с помощью .htaccess/CMS

Дубли: один товар в двух категориях

Пример:
site.ru/игрушки/мяч
site.ru/мяч

Что делаем:
— Атрибут rel=»canonical» тега link

Дубли: версии для печати

Пример:
site.ru/russian/audio/729
site.ru/node_print.php?nid=729

Что делаем:
— Запрет в robots.txt

Disallow: /node_print.php*

Дубли: незначащие параметры

Пример:
site.ru/page
site.ru/page?utm_source=adv
site.ru/page?sid=e0t421e63

Что делаем:
— Clean-param в robots.txt

Clean-param: sid&utm_source

или
— Запрет в robots.txt

Disallow: *utm_*
Disallow: *sid=*

Дубли: страницы действий

Пример:
site.ru/page?add_basket=yes
site.ru/page?add_compare=list
site.ru/page?comment_page=1

Что делаем:
— Запрет в robots.txt

Disallow: *add_basket=*
Disallow: *add_compare=*
Disallow: *comment_*

или

Disallow: *?*

Дубли: некорректные относительные адреса

Пример:
site.ru/игрушки/мяч
site.ru/игрушки/игрушки/игрушки/игрушки/мяч

Что делаем:
— Ищем источник появления
— Настраиваем HTTP-404 на запросы робота

Дубли: похожие товары

Пример:
— отличаются характеристиками (размером, цветом)
— похожие товары одной категории

Что делаем:
— Оставляем товар на одном URL и используем селектор
— Добавляем дополнительноеописание, отзывы
— Закрываем ненужное в noindex

Дубли: фото без описания

Пример:
— страницы фотогалерей, фотобанков

Что делаем:
— Добавляем дополнительное описание, теги
— Открытие комментариев на странице

Дубли: фильтры и сортировки

Пример:
site.ru/shop/catalog/podarki/?sort=minimum_price&size=40
site.ru/shop/catalog/filter/price-from-369-to-804/pr_material-f22-or-c5/

Что делаем:
— Определить востребованность
— Запрет в robots.txt

Disallow: *sort=*
Disallow: *size=*
Disallow: */filter/*

Дубли: страницы пагинации

Пример:
site.ru/shop/catalog/podarki/
site.ru/shop/catalog/podarki/?page_1
site.ru/shop/catalog/podarki/?page_2

Что делаем:
— Атрибут rel=»canonical» тега link

Как работать с дублями

Причины возникновения и виды дублей разнообразны,
— поэтому разными должны быть и подходы к ним с точки зрения
— поисковой оптимизации

Вид дублирующих страниц — Действия по устранению
Со слэшом и без в конце адреса — HTTP-301 редирект
Один товар в 2 категориях — Атрибут rel=»canonical» тега link
Версии для печати — Disallow в robots.txt
Незначащие параметры — Clean-param в robots.txt
Страницы действий, сортировки, фильтров — Disallow в robots.txt
Похожие товары и страницы — Дополнительный контент, общее – в noindex
Пагинация — Атрибут rel=»canonical» тега link

Работаем с дублями

Не недооцениваем
Ищем дубли в Вебмастере
Вносим соответствующиеизмененияна сайт
Следим за дублями в будущем:
— Просматриваем «Страницы в поиске»
— Используем «Важные страницы»