Эксперимент: насколько sitemap.xml важен для индексации нового сайта в Яндексе и Google

Опубликовано: 27.01.2018

Уже писал о правильном использовании sitemap.xml . В статье по ссылке — систематизация хорошо известных фактов плюс достаточно очевидные приемы использования в SEO-аналитике. Чисто из практического опыта и общих соображений я давно пришел к выводу, что роль sitemap часто преувеличивают. Впрочем, «вывод» это громко сказано. Что-то утверждать без контролируемых экспериментов и исследований — не есть путь настоящего джедая.


Calling All Cars: True Confessions / The Criminal Returns / One Pound Note

Методика

Мне было интересно, насколько интенсивно поисковые роботы используют sitemap, как много заходов робота на страницы сайта дает именно карта. Обычно разделить эффект от нее и от других мер по максимизации индекса  невозможно, ведь все это обычно выполняется в комплексе.

Схема эксперимента:

Создаем новый сайт с большим количеством страниц (мало url брать нельзя — нужна адекватная выборка и статистическая достоверность). Делаем полноценный sitemap.xml, содержащий все реальные страницы. Добавляем в него группу url, которые отдают 404 ошибку. Добраться до этих адресов по внутренним или внешним ссылкам робот не может (их не существует). Заход возможен только через карту. Подсчитываем количество визитов YandexBot и Googlebot на эти страницы. На всякий случай проверяем себя, сравнивая данные из логов со статистикой в панелях вебмастеров (именно поэтому и нужна 404 ошибка, а не просто url, на которые не стоят ссылки: Гугл не показывает, какие страницы обошел ).

Идея проверки очень проста, однако требует детального мониторинга активности поисковых роботов с помощью access.log. Да и вообще, получалось как-то слишком жирно для не столь принципиального вопроса.

Однако пару месяцев назад я как раз взялся за проект, где слежка за роботами требовалась непосредственно для продвижения и для реализации другого эксперимента, который описал в докладе на SEMPRO .