Некоторые ошибки в SEO – критичны. Они сводят на нет все усилия по поисковому продвижению. Одна из таких ошибок – дублированные страницы. Пропущенные оптимизатором клоны крайне негативно воспринимаются поисковиками и скатывают сайт на задворки выдачи. Поэтому так важно обнаружить дубли уже на первых этапах SEO проверки сайта и быстро их устранить. Как это сделать — расскажем в сегодняшней статье.
Что такое дубли страниц?
Дубли — это разные страницы сайта с уникальными URL, контент которых полностью или частично совпадает.
В пределах одного ресурса могут находиться такие типы дублей:
- клоны с идентичным HTML-кодом;
- с дублированным содержимым <body>;
- копии Title;
- дубликаты Description;
- одинаковые H1.
Большинство оптимизаторов рассматривают два основных типа SEO дублей страниц - полные и частичные дубли.
Полные дубли
Это абсолютные клоны, страницы с полностью идентичным содержимым, доступные по уникальным веб-адресам.
Это могут быть:
- идентичные страницы со схожими URL, но один прописан с “www”, а другой – без:
http//www.site.ua; http//site.ua. - идентичные страницы со схожими URL, но один прописан с html, а другой – с https:
https//site.ua; http//site.ua. - клоны, сгенерированные из-за реферальных ссылок. Реферальная ссылка – это ссылка с персональным идентификатором, по которому веб-сайты определяют, откуда пришел новый посетитель.
- изменения в иерархической структуре адресов, из-за которых создаются клоны. Например, так товар может быть доступен по нескольким адресам:
http://site.ua/catalog/dir/product;
http://site.ua/catalog/product;
http://site.ua/product. - адреса веб-страниц в нижнем и верхнем регистрах:
http://site.ua/news/;
http://site.ua/NEWS/;
http://site.ua/News/. - некорректно настроенная страница 404, генерирующая дубликаты;
- первая страница пагинации каталога, которой быть не должно:
http://site.ua/catalog/page1. - копии страниц со слешем / без слеша в конце URL:
http://site.ua/catalog///tovar;
http://site.ua/catalog//////tovar.
И так далее.
Частичные дубли
Частичное дублирование контента на сайте – это страницы, которые повторяют часть содержимого других, но не являются абсолютными клонами. Причиной их возникновения чаще всего становятся особенности системы управления сайтом.
Чаще всего частичными клонами выступают:
- Дубли, сгенерированные страницами фильтров, пагинации и сортировок. Например, когда пользователь использует фильтр товарных позиций, URL немного изменяется и боты поисковиков индексируют эту страницу как отдельную. Но контент на страницах не меняется.
- Блоки описаний и комментариев. Ситуация практически аналогична предыдущей: переход к блоку комментариев или отзывов генерирует дополнительный параметр в URL, но страница остается той же.
- Печать для загрузки. Такие страницы полностью повторяют содержимое сайта. Например: http://site.ua/news/new1 и http://site.ua/news/new1/print.
В данном случае поиск дублей страниц несколько усложняется. При этом последствия их наличия носят системный характер и плохо отражаются на позициях в выдаче. Как именно? Рассмотрим далее.
К чему приводят дубли
Следствием большого количества клонов становится:
- Проблемы с попаданием важных страниц в индекс. “Путешествуя” по бесполезным страницам, боты Google и Яндекс впустую тратят краулинговый бюджет (кол-во страниц, которое бот может обойти в пределах одного визита). Бесполезные и даже вредные для ранжирования страницы попадают в индекс, в то время как важные остаются вне индекса и не попадают в выдачу.
- Поисковый алгоритм может посчитать клон более релевантным запросу, чем приоритетную страницу, выкатив дубль в выдачу. Ну или в выдачу не попадет ни одна из страниц.
- Снижение ссылочного веса приоритетных страниц. Вес страниц ресурса — это своеобразный рейтинг, критерием которого становится количество и качество ссылок на эти страницы. Наличие клонов приводит к тому, что ссылочный вес распределяется между ними, ослабляя позиции приоритетной страницы. Таким образом, все затраты на закупку и размещение внешних ссылок оказываются напрасными.
- Ухудшение ранжирования всего сайта в Google и Яндекс из-за наличия неуникального контента.
Одно из основных требований поисковиков к сайтам: одна страница = один URL-адрес = уникальный контент на странице. Дубли разрушают эту формулу. Потому, дабы уберечь сайт от потери трафика и существования на задворках выдачи, важно проверить сайт на повторяющиеся ссылки и дублирующийся контент уже на первом этапе оптимизации и по ходу продвижения. Как это сделать – расскажем далее.
Как обнаружить дубли страниц
Вот несколько эффективных методов поиска дублей:
- ручной мониторинг;
- поиск через вебмастер-панели;
- проверка ресурса при помощи онлайн-сервисов;
- использование десктопных программ.
Мониторинг выдачи вручную
Итак, как проверить сайт на дубли страниц при помощи ручного мониторинга? Вводим в строке поиска запрос в следующей форме:
site:название ресурса пробел фрагмент текста
Объем вводимого текста не должен превышать одно предложение и не заканчиваться точкой.
В ответ на запрос появятся все страницы с этим текстом на вашем ресурсе. Обнаружить полные дубли поможет текст сниппета: если фраза из запроса выделена жирным шрифтом в двух и более сниппетах из выдачи - значит дубли имеют место.
Поиск через Google Search Console
Google Search Console поможет обнаружить дубли страниц с идентичными мета-описаниями и заголовками TITLE. Для этого необходимо перейти на вкладку «Оптимизация» – «Оптимизация HTML». Так мы получаем список потенциальных клонов.
Онлайн-сервисы
Чаще всего проверка дублей страниц поисковыми оптимизаторами осуществляется при помощи следующих онлайн сервисов:
- serpstat.com
- seoto.me;
- jetoctopus.com.
Рассмотрим специфику работы с каждым из сервисов.
Serpstat
При помощи сервиса можно провести технический SEO-аудит ресурса и обнаружить более 20-ти типов ошибок. В их числе - поиск дублированного контента на двух и более страницах. Платформа обнаружит:
- повторяющиеся заголовки Title;
- копии Description;
- дублированные H1;
- полное повторение заголовков H1и Title;
- наличие клонированных текстов и страниц.
Платформа предоставляет бесплатный функционал и расширенные возможности по подписке.
Seoto.me
Платформа также позволяет обнаружить ошибки на сайте, в том числе и дубли. Для этого необходимо зарегистрироваться на сайте, добавить проект (бесплатно для трех проектов, больше – за небольшую плату) и запустить сканирование веб-ресурса.
JetOctopus.com
Сервис работает по схожему принципу, однако помогает обнаружить, также, и смысловые дубликаты. Это страницы с похожим, но уникально прописанным контентом.
Платформа предлагает бесплатную пробную версию, и последующее пользование по выбранному тарифному плану.
Десктопные программы парсинга
Программы парсинга – это одна из наиболее частых рекомендаций относительного того, как найти дубликаты страниц на сайте поисковому оптимизатору.
Netpeak Spider поможет провести полный аудит ресурса и обнаружить 62 ошибки в 54 параметрах, среди которых – дубли. Путем сканирования можно найти страницы с клонированным содержанием: полные дубли, копии страниц по контенту блока <body>, дублирующиеся теги «Title» и метатеги «Description».
Подходит даже для крупных проектов.
Screaming Frog Seo Spider используется для небольших и средних веб-ресурсов. Десктопная программа сканирует сайт на наличие полных и частичных дублей, повторяющихся названий, заголовков, мета-данных.
Бесплатная программа Xenu Link Sleuth также проводит техаудит и находит полные копии, в т.ч. и заголовков. Однако, фрагментные дубли она не обнаруживает.
Перед тем, как узнать количество страниц на сайте, необходимо установить программу, прописать адрес сайта в строку ввода, провести сканирование, в полуавтоматическом режиме отсортировать результаты и сравнить совпадения.
Помните, что проверка на наличие дублей - это лишь половина дела. После обнаружения ошибок их необходимо устранить.
Как устранить дубли
Итак, подходим к завершающему этапу: как убрать дубликаты приоритетных страниц? Методов несколько.
Наиболее очевидный – удалить клоны страниц со слешем и другими фрагментами URL, которые генерируют дубли. Также можно запретить ботам добавлять в индекс копии, вписав соответствующее условие в файл “robots.txt”. Этот метод актуален для служебных страниц, которые повторяют контент основных.
Еще одно решение – настроить 301 редирект со страницы-дубля на приоритетную страницу сайта. Это поможет с ошибками в иерархии разделов и reff-метками.
По настроенному 301 редиректу роботы видят, что по конкретному адресу страница больше не доступна и перенесена на другой URL. Так вес с дублированной страницы перенаправится на приоритетную.
Также удаление дублей можно осуществить, проставив тэг “rel=canonical”. Это решит проблему с пагинацией, сортировками и фильтрами.
А если проблема связана с версиями для печати и блоками с комментариями и отзывами, воспользуйтесь тегом:
Это позволит скрыть подобные блоки от роботов поисковых систем.