Как проверить, какие URL были проиндексированы, не расстраивая Google: продолжение

  1. Аналитическое решение
  2. Интерлюдия: как это сделать без R
  3. Решение для файла журнала
  4. Объединение ваших данных
  5. Заключение

Еще в октябре 2016 года я писал о том, как можно использовать скрипт Python, чтобы определить, была ли страница проиндексирована Google в поисковой выдаче. Оказывается, аналитик по тенденциям Google для веб-мастеров Гэри Иллис не очень доволен техникой, используемой сценарием, поэтому я не могу одобрить этот метод:

Вскоре после, Шон Малсеид и его команда в Greenlane SEO построили аналогичный инструмент, основанный на Google Sheets (среди других потрясающих инструментов, таких как InfiniteSuggest ) и Гуглер Джон Мюллер высказал оговорки:

@greenlaneseo Это инструмент Blackhat или он соблюдает правила для веб-мастеров и robots.txt? (просто любопытно)

- Джон ☆ .o (≧ ▽ ≦) o. ☆ (@JohnMu) 14 декабря 2016 г.

Как я могу узнать, какие страницы не были проиндексированы Google, и сделать это так, чтобы не нарушать правила Google? Google не указывает, была ли страница проиндексирована в консоли поиска Google, не позволяет нам просматривать результаты поиска, чтобы получить ответ, и не заинтересована в косвенном получении ответа от недокументированного API. (Это было умное решение Шона Малсида и обходной путь.) Давайте рассмотрим некоторые решения.

Аналитическое решение

Марк Эдмондсон при условии R скрипт решение это работает следующим образом:

  • Он аутентифицируется в ваших аккаунтах Google Analytics.
  • Он проверяет, есть ли страницы, найденные в карте сайта XML вашего сайта, но не найденные в Google Analytics для обычных результатов Google за последние 30 (или более) дней.

Методология предполагает, что если URL не найден в аналитике для результатов обычного поиска Google, он, вероятно, не был проиндексирован Google.

Интерлюдия: как это сделать без R

Хотя мне лично нравятся скриптовые решения, я знаю, что многим это не нравится. Вам не нужно выяснять R, чтобы сделать этот анализ. Вы можете легко перейти в Google Analytics и выполнить аналогичный анализ - или, что еще проще, перейти в Google Analytics Query Explorer и запустить его с эти настройки , Загрузите таблицу как TSV:

Затем вы можете загрузить свой XML-файл сайта локально и открыть его в Excel. Затем перетащите его в окно Excel, и вы получите диалоговое окно «Импорт XML». Если появится запрос «Открыть файл без применения таблицы стилей», нажмите « ОК» :

Затем выберите открыть файл «В виде таблицы XML»:

Вы можете удалить посторонние столбцы, оставив только столбец «ns1: loc» (или «loc»):

Затем вам просто нужно выполнить сопоставление VLOOKUP или другую форму Excel и найти URL-адреса в карте сайта, которых нет в данных аналитики.

Я подумал, что это простое, но умное решение, и хотя это хорошая отправная точка, я боялся, что оно не будет точно показывать, какие страницы были проиндексированы Google. Нередко страницы получают мало трафика или вообще не получают его, даже если они проиндексированы. Это может быть признаком того, что страница не проиндексирована, но она также может просто показать, что страница имеет проблему с тегами, стала неактуальной, нуждается в некоторой оптимизации для улучшения ее видимости или просто отсутствует в карте сайта XML , (В качестве альтернативы вы можете использовать обход, а не XML-карту сайта, чтобы сделать эти сравнения.)

Решение для файла журнала

Файлы журнала сервера являются отличным источником данных о вашем веб-сайте, которые часто недоступны другими способами. Одна из многих частей информации, которая может быть получена из этих файлов журналов, - это доступ к вашему веб-сайту определенного бота. В нашем случае, бот, который нас интересует, это Googlebot.

Анализ файлов журнала нашего сервера позволяет нам определить, посещал ли робот Googlebot определенную страницу на нашем веб-сайте. Если робот Googlebot никогда не посещал определенную страницу, он не может быть проиндексирован Google. Лично я склонен использовать KNIME для этой цели со встроенным узлом Web Log Reader, но не стесняйтесь использовать ваше любимое решение.

Пример использования KNIME для обработки файлов журнала сервера

Убедись в проверить Googlebot и не просто полагаться на сообщаемый пользовательский агент. Многие боты будут подделывать пользовательский агент Googlebot, что может сделать ваши выводы недействительными. Чтобы избежать этого, я использую простой фрагмент Python в KNIME:

гнездо для импорта
пытаться:
output_table ['dnshost'] = socket.gethostbyaddr (str (ipaddressvariable)) [0]
кроме исключения:
output_table ['dnshost'] = "ошибка"

Для достойного руководства по анализу файла журнала, пожалуйста, проверьте это руководство от Builtvisible ,

Если это все немного, я рекомендую проверить Анализатор лог-файла Screaming Frog SEO - или, для корпоративного решения, Botify ,

Screaming Frog Log File Analyzer предоставляет более простое решение для анализа файла журнала.

Как и решение Google Analytics, анализ файла журнала не является надежным. Возможно, робот Googlebot может посетить страницу, но не включить ее в индекс (<meta name = ”robots” content = ”noindex, follow”>), но это поможет нам сузить наш список, возможно, не проиндексированных интернет страницы.

Объединение ваших данных

Чтобы сузить наш список страниц, которые не могут быть проиндексированы Google в максимально возможной степени, я рекомендую объединить данные, полученные с помощью метода Google Analytics, с методами анализа файла журнала, описанными выше.

Получив наш список, мы можем провести некоторую выборочную проверку, вручную выполнив поиск в Google по запросу «info:», что не расстроит Google. Ручную проверку гораздо проще, потому что мы смогли значительно сузить наш список.

Заключение

Поскольку Google не предоставляет инструмент или данные о том, была ли проиндексирована веб-страница, или нет, нам не разрешается использовать автоматизированное решение, подобное тому, которое я ранее писал о мы должны полагаться на сужение нашего списка URL-адресов, которые не могут быть проиндексированы.

Мы можем сделать это, изучив данные Google Analytics для страниц, которые находятся на нашем веб-сайте, но не получают органический трафик Google, и просмотрев файлы журналов сервера. Оттуда мы можем вручную проверить наш сокращенный список URL-адресов.

Это не идеальное решение, но оно выполняет свою работу. Я надеюсь, что в будущем Google предоставит лучший способ оценить, какие страницы были проиндексированы, а какие нет.

Мнения, выраженные в этой статье, принадлежат автору гостя и не обязательно относятся к Search Engine Land. Штатные авторы перечислены Вот ,


Об авторе

Похожие

Google не может сканировать динамические URL: MYTH BUSTED
... как www.example.com/stuff , Проблема с этим не в формате URL. Дело в том, что в навигацию сайта встроен редирект. Чтобы решить эту проблему, убедитесь, что любая программа перезаписи URL не включает перенаправления на сайт. Ссылка в главной навигации должна вести прямо к www.example.com/stuff - нет перенаправлений. 2. Ссылки в основной навигации ведут непосредственно к SEO-дружественным
Google проигрывает Amazon
Было время, когда Google был конечной точкой всего Интернета. Если вы занимались поиском, покупкой и т. Д., Вы переходили в Google. По некоторым оценкам, у Google было почти 80% от общей доли рынка поиска. С тех пор доля Google, похоже, упала, и есть несколько важных причин, почему. Google никогда не был самым легким местом для покупок. Это было
Инструменты Google для SEO
... ref="https://www.experts-referencement.com/referencement-naturel"> естественные ссылки и лучше понять оптимизацию вашего сайта. Функции Google Поиск " site: yoursite.com ": позволяет просматривать страницы вашего сайта, проиндексированные поисковой системой. Поиск " site: ключевое слово yoursite.com ": позволяет увидеть страницу вашего наиболее релевантного сайта (согласно Google) для
Как автоматически сделать ваши изображения SEO дружественными
... для слепых, тем лучше поисковые системы будут понимать ваш контент» Это правда. Назад В январе я написал пост о некоторых лучшие альтернативы SEO-дружественным изображениям плагин, в котором я нашел два плагина, которые были: SEO Image toolbox SEO Image Optimizer чтобы быть очень эффективными в создании изображений, которые вы загружаете
Дублированный контент: это не автоматический убийца SEO
По большей части дублированный контент - не самая лучшая идея, если вы хотите получить более высокий рейтинг в результатах поиска. Дублированный контент определяется Google как: «Существенные блоки контента внутри или между доменами, которые либо полностью совпадают с другим контентом, либо заметно схожи». Но не весь дублированный контент выглядит одинаково в глазах Google. В некоторых случаях это не имеет большого значения и не помечает ваш сайт красным. В других, дублированный
Google Sitemaps не гарантирует индексацию и рейтинг
... как способ помочь роботу Google найти ваш контент: если URL-адреса не были включены в файл Sitemap, сканерам может быть труднее найти эти URL-адреса и, следовательно, они могут быть проиндексированы медленнее. Еще одна вещь, на которую вы хотите обратить внимание, это то, что наши алгоритмы могут вообще не индексировать определенные URL. Например, если содержимое мелкое, может случиться так, что оно вообще не будет проиндексировано. Google заставляет взглянуть и решить,
Не упускайте из виду URL в ваших усилиях SEO
Недавние исследования показывают, что 9 из 10 пользователей Интернета выполняют поиск (если вы хотите прочитать одно из этих исследований, я бы порекомендовал это Pew Research Center ). Из-за широкого использования поиска, компании и маркетологи разработали практику SEO (поисковая оптимизация) в попытке занять достойное место в поиске, а SEM (маркетинг в поисковой системе) как общая маркетинговая стратегия
SEO копирайтинг? Не существует Но если вы пишете хорошо, вы уже знаете, как это сделать
... ref="http://www.albertopuliafito.it/wp-content/uploads/2017/06/Copywriting-SEO.jpg"> Один из мифов, который нужно развенчать: он не написан для поисковых систем. Написано для людей Как вы пишете текст для SEO ? Вопрос похож на «
Как сделать гарантированные статьи SEO для многих посетителей
... для вашего блога: интерактивный Было бы хорошо, если ваш блог может спровоцировать других людей поделиться своим мнением. Таким образом, помимо провоцирования повторных посещений, кто знает, мнения читателей, написанные в комментариях, будут даже представлять интерес для других читателей для участия. авторское право Если вы хотите скопировать чужую письменность, помните, что он потратил
Как работает Google? Советы по хорошей поисковой кампании
... решение для пользователя, но не оптимизировано должным образом, и нет активных платных объявлений, он не существует в глазах Google Spiders. И соответственно, он не отображается как результат поиска. С точки зрения бизнеса, вы (очень!) Хотите, чтобы этот пользователь заметил ваш бизнес, потому что в этот момент человек активно ищет продукт или услугу. Он не просто смотрит или получает информацию, он готов и хочет купить. SEO и SEM - какая разница?
Как оптимизировать SEO бесплатно?
... как и как мы поступаем. Учитывая сложную экономическую ситуацию, в которой мы, вероятно, считаем вас странным, не так ли? Возможно, вы правы, я не хочу противоречить вам этой статьей, а просто изложить свою точку зрения! Интернет, на мой взгляд, одна из возможностей, о которых я говорил. В начале 90-х он использовался только для связи с современным миром, а затем мы открыли для себя социальные сети, и теперь это один из лучших маркетинговых инструментов.

Комментарии

Тем не менее, как вы можете узнать, является ли ваш сайт оптимизированным для SEO или как вы можете сделать это, чтобы получить одобрение Google и не только?'>Тем не менее, как вы можете узнать, является ли ваш сайт оптимизированным для SEO или как вы можете сделать это, чтобы получить одобрение Google и не только?
Тем не менее, как вы можете узнать, является ли ваш сайт оптимизированным для SEO или как вы можете сделать это, чтобы получить одобрение Google и не только? Вот некоторые ключевые элементы: Индексирование сайта в поисковых системах - если сайт не проиндексирован в поисковых системах, то вы не можете захватывать трафик. Однако, если сайт проиндексирован в Google, это означает, что он оптимизирован для SEO. По мере того как сайт индексируется, роботы Google будут посещать
Вы когда-нибудь слышали об этом, но не уверены, что именно это означает, как это сделать?'>Вы когда-нибудь слышали об этом, но не уверены, что именно это означает, как это сделать?
Вы когда-нибудь слышали об этом, но не уверены, что именно это означает, как это сделать? Пришло время узнать, понять и использовать это! Без слов я могу легко объяснить, что такое SEO. Кроме того, я также покажу вам, насколько хороша поисковая оптимизация, как заработать на ней больше. И, в конце концов, вы можете решить, нужно ли вам это, можете ли вы применять его любым способом. Что такое SEO? Если вы уже прочитали его, у вас может быть представление о том,
Какие ключевые слова генерируют трафик, какие потенциальные ключевые слова, как их расставить по приоритетам, какие ключевые слова ориентировать на Google?
Вы когда-нибудь слышали об этом, но не уверены, что именно это означает, как это сделать? Пришло время узнать, понять и использовать это! Без слов я могу легко объяснить, что такое SEO. Кроме того, я также покажу вам, насколько хороша поисковая оптимизация, как заработать на ней больше. И, в конце концов, вы можете решить, нужно ли вам это, можете ли вы применять его любым способом. Что такое SEO? Если вы уже прочитали его, у вас может быть представление о том,
Как ведут себя люди, выглядящие как Х, как ведут себя люди, выглядящие как Х?
Как ведут себя люди, выглядящие как Х, как ведут себя люди, выглядящие как Х? Как поступают пользователи, которые ищут эту категорию товаров или этот конкретный продукт (т.е. как ведут себя пользователи, пришедшие на сайт через этот отчет)? Какая их самая подходящая целевая страница? SEO не заканчивается с привлечением посетителя в сеть , цель состоит в том, чтобы получить максимальную отдачу от посетителя. А без этих важных данных процесс поисковой оптимизации
Как получить входящие ссылки, не продавая свою душу дьяволу и не будучи забаненным Google?
Как получить входящие ссылки, не продавая свою душу дьяволу и не будучи забаненным Google? Как определить отличные возможности построения ссылок за 60 секунд?
И как это сделать, когда ты еще ни разу не отдыхал?
И как это сделать, когда ты еще ни разу не отдыхал? Вы можете научиться отдыхать с психологами, изучать книги или загружать учебные записи и слушать их. И теперь вы можете получить расслабляющие записи, которые просты в использовании и удобны в использовании. на
Кто не будет чувствовать, что пошевеление уйдет и больше не вернется ко мне 🙁 И это не главное, верно?
Кто не будет чувствовать, что пошевеление уйдет и больше не вернется ко мне 🙁 И это не главное, верно? Этот мини-гид на самом деле представляет собой введение в секретные знания. Но я хотел показать вам (Ола, Марта, вы тоже), что это не такой дьявол. И что, когда вы приручите «монстра из гардероба», это поможет вам улучшить и развить блог. Желаю вам успехов! 🙂 Ты знаешь SEO? Вы хотите оптимизировать свой блог? Сколько времени вы уделяете этому? Как вы
Однако, как сделать так, чтобы ваши https-сайты были проиндексированы движком?
Однако, как сделать так, чтобы ваши https-сайты были проиндексированы движком? Два «простых» совета по Baidu: 1) Передайте страницы, абсолютно проиндексированные Baidu, http https (это тоже не волшебная палочка ... этот трюк кажется немного сложным в настройке ...) 2) Используйте robots.txt и user-agent для определения посетителей. Поместите Allow: на Baiduspider в версию http, затем выполните перенаправление 301, чтобы перенаправить пользователя в версию https.
Если вы еще не можете ничего сделать с термином Google AdWords, я рекомендую вам мою статью " Что такое Google AdWords?
Однако, как сделать так, чтобы ваши https-сайты были проиндексированы движком? Два «простых» совета по Baidu: 1) Передайте страницы, абсолютно проиндексированные Baidu, http https (это тоже не волшебная палочка ... этот трюк кажется немного сложным в настройке ...) 2) Используйте robots.txt и user-agent для определения посетителей. Поместите Allow: на Baiduspider в версию http, затем выполните перенаправление 301, чтобы перенаправить пользователя в версию https.
Это не «на стероидах», как в «эспрессо - это кофе на стероидах», а скорее «Лэнс Армстронг, кто?
Это не «на стероидах», как в «эспрессо - это кофе на стероидах», а скорее «Лэнс Армстронг, кто?». По сути, это противоречит правилам, вызывающим неодобрение со стороны сообщества, и хотя оно может принести вам краткосрочные выгоды, быть пойманным может привести к штрафу , Черные шляпы понимают, что нравится Google. Что делает их действия сомнительными, так это то, как они добиваются этого. Ссылки не заработаны, а куплены.
В 2002 году Google приехал в Германию, и я задал себе (и Google) вопрос: как работает Google?
В 2002 году Google приехал в Германию, и я задал себе (и Google) вопрос: как работает Google? С inteSEO я начал здесь (в 2014 году) страницу, которая в основном служила тестовым доменом. Моя первая работа в InHouse SEO менеджер Я начал в марте 2012 года в Берлине. После успешного года перешел в агентство веб-дизайна с 5000 клиентов. Эй, много вариантов для тестирования и Учиться SEO , Там

Txt?
Как я могу узнать, какие страницы не были проиндексированы Google, и сделать это так, чтобы не нарушать правила Google?
Написано для людей Как вы пишете текст для SEO ?
SEO и SEM - какая разница?
Как оптимизировать SEO бесплатно?
Учитывая сложную экономическую ситуацию, в которой мы, вероятно, считаем вас странным, не так ли?
Тем не менее, как вы можете узнать, является ли ваш сайт оптимизированным для SEO или как вы можете сделать это, чтобы получить одобрение Google и не только?
Вы когда-нибудь слышали об этом, но не уверены, что именно это означает, как это сделать?
Что такое SEO?
Вы когда-нибудь слышали об этом, но не уверены, что именно это означает, как это сделать?