Главная Новости

Поиск и устранение дублей страниц на сайте WordPress


Опубликовано: 01.09.2018

видео Поиск и устранение дублей страниц на сайте WordPress

Как проверить дубли страниц на wordpress сайте?

Пока писал эту статью, на почту поступило приглашение поучаствовать в проводимом на сайте 9seo.ru марафоне по увеличению посещаемости сайта. Некоторое время я размышлял, что мне это может дать и как правильно поступить. В итоге решил, что со своим режимом дня и загруженностью на основной работе вряд ли смогу участвовать в интенсивной борьбе за призовые места. К тому же, основная моя цель – не обеспечение дохода стороннему ресурсу (участие в марафоне на 9seo стоит 999 рублей), а развитие собственных блогов на WordPress.



Поэтому буду набивать шишки и получать опыт продвижения в том ритме и с той скоростью, которую способен осилить. Возвращаюсь к собственному марафону, замечу, что для многих блогеров какая-то (возможно, подавляющая) часть шагов, которые я буду предпринимать и подробно описывать – этап давно пройденный. Так что, буду ориентироваться на то, что информация может оказаться полезной для новичков и профессиональных «чайников», пытающихся разобраться в теме «Развитие блога на WordPress». Итак, шаг первый:


Чистим дубли страниц на Wordpress

Устранение дублей страниц

Оптимизация индексации – важная часть работ по внутренней оптимизации ресурса. Для роботов поисковых систем страницы с частично или полностью одинаковым содержанием и различающимися адресами представляют дублированный контент. По какой бы причине – недосмотру или халатности вебмастера – ни появились дубли страниц, их необходимо выявлять и устранять.


Поисковая оптимизация сайта: ищем дубли страниц

Неуникальный дублированный контент, кроме того, что не приносит блогу на WordPress особой пользы, еще и способствует занижению основных страниц сайта в поисковой выдаче и опасен наложением фильтров от ПС. Другой негативный момент заключается в том, что при дублировании страниц дублируются и ссылки, расположенные на них, следовательно, поисковики видят уже не одну ссылку с вашего блога, а столько, сколько найдено было дублей страницы.

Главный инструмент для борьбы с дубликатами – файл robots.txt, позволяющий исключать из поиска все ненужные страницы. В репозитории WordPress при желании можно найти различные плагины для выполнения этой задачи. Но мы легких путей не ищем, будем избавляться от мусора в поиске классическими методами.

Откуда берутся дубли страниц

Дубли в выдаче – результат архитектуры движка WordPress, особенностей формирования и представления информации в этой CMS. В оправдание WordPress можно лишь сказать, что эта болезнь преследует и другие системы управления контентом с динамическим представлением. Дубли могут быть как полными – когда страницы отличаются лишь адресом, так и неполными – когда контент на страницах дублируется частично. Источниками дублированного контента в WordPress служат теги, категории, RSS-лента, трэкбэки, комментарии, печатные версии страниц, неудачные реализации шаблонов.

Как найти дубли страниц на сайте

Проверить свой сайт на дубли страниц можно по-разному. Самый простой способ увидеть свой блог глазами поисковой системы – воспользоваться инструментами вебмастера от Гугл или Яндекс. Вот что показывал Яндекс Вебмастер до проведения работ по удалению дублей страниц.

Как видим, среди проиндексированного материала достаточно много мусора — при том, что основную часть дублей Яндекс отсеял самостоятельно.

Проверить дубли страниц онлайн в Google-поиске можно, вбив в строку поиска этой ПС запрос «site:mysite.ru – site:mysite.ru/&», подставив в него вместо mysite.ru адрес своего блога. Здесь, как на ладони, видно все неполные дубли и бесполезные страницы, которые мешают основным страницам блога ранжироваться выше.

Еще один способ проверки на дубли страниц – небольшая десктопная программа Xenu. Вбив адрес своего блога в специальном поле, достаточно быстро можно его проанализировать. Отфильтровав полученные результаты по заголовкам, можно будет визуально выделить дубли страниц. Но этим способом не удастся обнаружить частичные дубликаты.

Как избавиться от дублей страниц

Увидеть и осознать ситуацию – недостаточно, ее необходимо исправлять. Как убрать дубли страниц «легким движением руки»? Для этого существует простое и элегантное решение, о котором было сказано выше – файл robots.txt, позволяющий поставить запрет на индексацию всего того мусора, который вылезает в поиск.

Следует упомянуть, что robots.txt должен существовать в единственном экземпляре и размещаться в корне сайта – в папке на хостинге, в которой физически расположен ваш блог. Отсутствие файла robots.txt в корне блога на WordPress предполагает полное отсутствие ограничений на его индексацию. Создать этот файл можно в текстовом редакторе типа Notepad++, при этом необходимо соблюдать определенную структуру и синтаксис.

Настройка файла robots.txt для WordPress

В справке Яндекс Вебмастера собрана подробная информация о файле robots.txt . Дабы не повторять уже сказанное, отмечу кратко основные моменты.

Файл robots.txt предназначен исключительно для поисковых роботов, имеет текстовый формат и заполняется вебмастером на свой страх и риск директивами для этих роботов.

Основные директивы robots.txt :

User-agent – может содержать имя конкретного бота, для которого предназначены инструкции или * («звездочку»), если инструкции предназначены для всех. Поисковых роботов великое множество, у одного Яндекса их больше десятка, но в качестве значений директивы User-agent обычно указывают *, Yandex и Googlebot.

Allow разрешающая и Disallow запрещающая директивы, служащие для ограничения доступа поисковых роботов к контенту сайта. С их помощью можно ограничить доступ ко всему сайту, к отдельным его категориям или страницам. При конфликте между разрешающей и запрещающей директивой в пределах директивы User-agent приоритет имеет Allow.

Host – значением для этой директивы является имя главного зеркала сайта, например, доменное имя с www или без www. Эта директива добавляется непосредственно после директив Allow и Disallow. Некорректные директивы Host игнорируются роботами, причиной этого может стать элементарная ошибка – например, лишняя точка или пробел в имени сайта.

Sitemap – служит для указания пути к файлу, содержащему описание структуры сайта – к карте сайта. Поисковые роботы запоминают результаты обработки этой директивы и используют их при следующем сканировании.

Подробнее использование этих директив можно рассмотреть в приведенном ниже готовом файле robots.txt для сайта на WordPress.

Символ #, используемый в синтаксисе файла robots.txt, предназначен для написания комментариев для людей, информация после этого символа роботами не учитывается.

Мы запрещаем индексацию папок с темами и плагинами, запрещаем индексацию фида и кэша, запрещаем категории, теги, пагинацию. Но разрешаем индексацию папок с картинками. Во избежание недопонимания со стороны основных роботов Яндекса и Гугла, прописываем конкретные инструкции для каждого. Правильный файл robots.txt для WordPress в моем случае выглядит так:

User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /download Disallow: /category/ Disallow: /author/ Disallow: /page/ Disallow: /tag/ User-agent: Googlebot Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /download Disallow: /category/ Disallow: /author/ Disallow: /page/ Disallow: /tag Sitemap: http://vervekin.ru/sitemap.xml User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /download Disallow: /category/ Disallow: /author/ Disallow: /page/ Disallow: /tag/ Host: vervekin.ru User-agent: YandexImages Allow: /wp-content/uploads/

Можно использовать его, заменив в нем все адреса адресами собственного блога. Другой простой вариант – позаимствовать готовый robots.txt у ресурса на WordPress, который высоко ранжируется поисковыми системами и которому вы доверяете – тоже с заменой данных на собственные. Увидеть robots.txt, если он имеется на сайте, легко. Для этого достаточно вбить в адресной строке браузера: mysite.ru/robots.txt (подставив вместо mysite.ru нужный адрес).

Файл .htaccess и дубли страниц

Убрать дубли можно и через файл .htaccess в корне сайта, прописав 301-й редирект с неуникальных «хвостов» на «чистые» адреса страниц. Об этом есть топик практически на каждом seo-форуме. Поэтому, чтобы не изобретать велосипед, возьмем готовый файл .htaccess для устранения дублей в WordPress. Выглядит он так:

# BEGIN WordPress <IfModule mod_rewrite.c> RewriteEngine On RewriteBase / RewriteRule (.+)/feed /$1 [R=301,L] RewriteRule (.+)/comment-page /$1 [R=301,L] RewriteRule (.+)/trackback /$1 [R=301,L] RewriteRule (.+)/comments /$1 [R=301,L] RewriteRule (.+)/attachment /$1 [R=301,L] RewriteCond %{QUERY_STRING} ^attachment_id= [NC] RewriteRule (.*) $1? [R=301,L] RewriteBase / RewriteRule ^index\.php$ - [L] RewriteCond %{REQUEST_FILENAME} !-f RewriteCond %{REQUEST_FILENAME} !-d RewriteRule . /index.php [L] </IfModule> # END WordPress

Дополнительные шаги для избавления от дублей страниц

В Инструментах Вебмастера Google выбираем раздел «Сканирование — Параметры URL«. Значение параметра replytocom следует в соответствии с показанными на рисунке ниже. Это даст указание Гуглу не индексировать частичные дубли страниц.

Осталось применить изменения, сделанные в Google Webmaster Tools, закачать оба созданных файла (robots.txt  и .htaccess) в корень сайта и дожидаться поисковых роботов.

Расскажите об этой статье в соцсетях :

rss