Краулінговий бюджет - керівництво по оптимізації

  1. Чим важливий краулінговий бюджет?
  2. визначення бюджету
  3. Як пошуковики формують краулінговий бюджет?
  4. 1. Важливі сторінки повинні бути доступні, менш важливі - заблоковані
  5. 2. Уникайте довгих ланцюжків переадресації
  6. 3. Управління параметрами URL
  7. 4. Пошук і усунення помилок HTTP
  8. 5. Використання RSS
  9. 6. Обновляйте sitemap
  10. 7. Структура сайту і внутрішні посилання

Краулінговий бюджет - один з SEO-концептів, який часто залишається поза увагою. Веб-майстрам здебільшого не доводиться турбуватися про даний предмет, але якщо сайт великий, тоді оптимізація краулінгового бюджету обов'язкова. Оскільки це допомагає збільшити рейтинг сайту і органічний трафік.
Як Google визначає краулінговий бюджет для веб-ресурсів? У цій статті описана базова механіка процесу. Краулери, веб-павуки або боти - все це комп'ютерні програми, які протягом тривалого часу відвідують веб-сторінки і збирають певну інформацію. Виділяють три типи програм:

  • краулери пошукових систем;
  • веб-сервісів;
  • хакерські краулери.

У багатьох сервісів - SEO-інструментів, туристичних сайтів, або майданчиків для порівняння цін - є свої веб-індекси і краулери.
Краулінговий бюджет - це число відвідувань сайту, які здійснює бот пошукової системи в одиницю часу. Наприклад, протягом місяця Googlebot може сканувати певний сайт 1,000 раз. Таким чином, 1K - це краулінговий бюджет на місяць. Немає будь-яких універсальних обмежень в тому, що стосується частоти або кількості сканувань сайтів.

Чим важливий краулінговий бюджет?

Чим більше краулінговий бюджет і чим краще менеджмент, тим швидше Google буде знаходити важливі веб-сторінки.

визначення бюджету

В Google Search Console містяться досить загальні, але важливі дані для цього кроку. Зайдіть в свій аккаунт Search Console, потім: Crawl -> Crawl Stats.
Тут ви дізнаєтеся, скільки ваших сторінок щодня скануються.

На цьому скріншоті повідомляється, що Google щодня сканує 32 сторінки сайту. За місяць: 32 * 30 = 960.
Звичайно, ці дані можуть змінюватися. Але так ви зможете скласти загальне уявлення про те, скільки сторінок Google може просканувати за певний період.
Якщо потрібна більш детальна статистика, знадобиться проаналізувати серверні логи. Місцезнаходження файлів журналів залежить від конфігурації.
Apache зазвичай зберігає їх тут:

  • / Var / log / httpd / access_log
  • /var/log/apache2/access.log
  • /var/log/httpd-access.log

Ці файли складно читати і аналізувати (знадобляться знання регулярних виразів рівня джидая), або спеціалізовані інструменти.

Як пошуковики формують краулінговий бюджет?

Про це немає точних відомостей. Не можна з певністю сказати, як пошукові системи формують краулінговий бюджет для сайтів. Вважається, що Google враховує два фактори:

  • Популярність - більш популярні сторінки скануються частіше за інших
  • Запізнення ( «staleness» error, або помилка через старіння даних) - Google не дозволяє даними про сторінки застарівати.

Судячи з усього, терміном «популярність» Google замінює застарілий PageRank.
У 2010 колишній співробітник Google Метт Каттс сказав, що «орієнтовна кількість сторінок, які ми скануємо, пропорційно вашому PageRank».
Зараз PageRank вже не віддається загальної розголосу, тому можна сказати, що краулінговий бюджет пропорційний кількості зворотних посилань і значущості сайту «в очах» Google.
Як щодо внутрішніх посилань? Чи можливо збільшити швидкість сканування конкретної сторінки, якщо направити на неї більше внутрішніх посилань? Щоб відповісти на ці питання, ми вирішили з'ясувати, чи є зв'язок між внутрішніми / зовнішніми посиланнями і статистичними даними. Були створені дані для 11 сайтів і проведено просте порівняння.

За допомогою інструменту Website Auditor ми створили проекти для 11 сайтів. Підрахували кількість внутрішніх посилань, що ведуть на кожну сторінку кожного з цих сайтів. Потім за допомогою SEO Spyglass перевірили проекти для цих же 11 сайтів. У кожному проекті перевірили статистику і скопіювали анкорний посилання і кілька зовнішніх посилань, що ведуть на кожну сторінку. Потім аналізувалася статистика сканування в журналах веб-сервера, щоб подивитися, як часто Googlebot відвідує сторінки. Всі дані в таблиці.

Всі дані в таблиці

Ці дані свідчать про наявність кореляції (0,978) між числом відвідувань краулер і числом зовнішніх посилань. У той же час, кореляція між відвідинами і внутрішніми посиланнями дуже слабка (0,154).
Це говорить про те, що зворотні посилання куди вагомішим для сайту, ніж внутрішні посилання.

Чи означає це, що єдиний спосіб поліпшити краулінговий бюджет - залучати посилання і публікувати свіжий контент? Якщо говорити в загальному про посилальному профілі сайту, то так. Збирайте посилання, часто оновлюйте контент, і краулінговий бюджет буде рости пропорційно.
Але що стосується окремих сторінок ... Приклади, які будуть описуватися далі, показують, що можна просто витрачати краулінговий бюджет, навіть не віддаючи собі в цьому звіт.
Але при хорошому менеджменті можна подвоїти кількість сканувань окремих сторінок - однак краулінговий бюджет все ще буде пропорційний кількості зворотних посилань кожної сторінки.

1. Важливі сторінки повинні бути доступні, менш важливі - заблоковані

файли .htaccess і robots.txt не повинні блокувати важливі сторінки сайту. У ботів повинен бути доступ до файлів CSS і Javascript. Разом з тим, варто блокувати контент, який в пошуковій видачі не потрібен. В першу чергу, це дублюючий контент, сторінки, які піддаються редизайну, динамічно генеруються URL та інше.

  1. Запустіть Website Auditor (інструмент для створення і управління robots.txt.), Скачати його можна на сайті розробника .
  2. Перейдіть до вкладки Pages. Клікнувши по іконці Robots.txt, ви побачите вміст файлу robots.txt .
  3. Щоб додати нове правило в robots.txt, клікніть Add rule. Ви можете вибрати інструкцію (Disallow або Allow), краулер (впишіть його назву або виберіть зі списку поширених пошукових роботів), URL або директорію, яку ви також хотіли б заблокувати.
  4. Існуючі правила можна видаляти або редагувати.
  5. Завершивши редагування, клікніть Next. Збережіть файл на жорсткому диску або завантажте його на сайт через FTP.

У модулі Pages можна дізнатися статистику, що стосується краулер. Кеш Google, Bing і Yahoo, інструкції robots.txt і код стану HTTP.

Варто враховувати, що пошукові павуки не завжди дотримуються інструкцій у файлі robots.txt.

І хоча сторінка блокується в robots.txt, Google про це знає. Вона не кешируєтся, для неї не створюється стандартний сниппет.
Ось, що про цей предмет говорить Google:
Директива Disallow файлу robots.txt не гарантує відсутності сторінки в результатах пошуку. Пошукова система все одно може просканувати її з урахуванням релевантної сторонньої інформації, такої як вхідні посилання. Якщо ви хочете строго заборонити індексування сторінки, використовуйте метатег robots зі значенням noindex або HTTP-заголовок X-Robots-Tag. У цьому випадку не слід блокувати доступ до сторінки в файлі robots.txt, оскільки робот Google повинен просканувати її, щоб виявити тег і виконати директиву.

Якщо ви встановлюєте директиву disallow для великих файлів, блокуючи папки, Googlebot може порахувати, що це зроблено помилково і продовжити сканування обмежених зон.

2. Уникайте довгих ланцюжків переадресації

Якщо має місце невиправдано велика кількість редиректів 301 і 302, краулери на якомусь етапі можуть зупинитися і потрібна сторінка не буде скануватися. Більш того, кожен перенаправлений URL - це втрата елемента з краулінгового бюджету. Перевірте, чи немає послідовних двох, трьох редиректів, а також переконайтеся, що вони по-справжньому потрібні.
Повний список редиректів можна знайти в WebSite Auditor.

  • Відкрийте свій проект і перейдіть до модуля Site Audit.
  • Клацніть по Pages with 302 redirect і Pages with 301.
  • Натисніть Pages with long redirect chains, щоб отримати список URL з більш ніж двома послідовними редирект.

Натисніть Pages with long redirect chains, щоб отримати список URL з більш ніж двома послідовними редирект

3. Управління параметрами URL

Популярні системи управління контентом генерують безліч динамічних URL, деякі з яких можуть вести на одну і ту ж сторінку. За замовчуванням пошукові боти обробляють ці URL як окремі сторінки; в результаті весь краулінговий бюджет може бути вичерпано, також може з'явитися дублюючийся контент. Якщо движок веб-сайту або CMS додає параметри URL, які не впливають на контент сторінок, упевніться, що Googlebot про це знає. Додайте ці параметри в своєму акаунті Google Search Console (Сканірованіе-> Параметри URL).

4. Пошук і усунення помилок HTTP

Будь URL, який Google сканує, в т.ч. CSS і JavaScript , Доводиться на один з елементів краулінгового бюджету. Нема чого витрачати бюджет на сторінки 404 або 503, чи не так? Перевірте наявність недоступних посилань або серверних помилок, виправте їх якомога швидше.

  • У проекті Website Auditor перейдіть: Site Structure> Site Audit.
  • Натисніть Broken links. На панелі праворуч є список недоступних посилань на сайті, які потрібно виправити.
  • Потім клікніть Resources with 4xx status code і Resources with 5xx status code, щоб дізнатися список ресурсів, які повертають помилки HTTP.

Потім клікніть Resources with 4xx status code і Resources with 5xx status code, щоб дізнатися список ресурсів, які повертають помилки HTTP

5. Використання RSS

Павук Google досить регулярно відвідує RSS-канали. Якщо певні розділи на вашому сайті оновлюються часто (блог, сторінки з рекомендованими товарами, розділ нової продукції) - не забудьте створити для всього цього RSS-канал і додати в Google Feed Burner.

6. Обновляйте sitemap

XML-файли sitemap грають важливу роль в скануванні сайту. Ці файли повідомляють пошуковим системам, як організований контент, і дозволяють роботам знаходити новий контент швидше.
XML sitemap слід регулярно оновлювати і звільняти від сміття (неканонічні сторінки, URL, які перенаправляють на інші сторінки, і блокуються сторінки).

Список таких URL видасть інструмент Website Auditor.

  • У проекті WebSite Auditor перейдіть до модуля Site Audit
  • Натисніть Pages with 4xx status code, щоб отримати список сторінок 4xx, якщо вони є. Скопіюйте URL в окремий файл (підійде будь-яка таблиця або текстовий редактор).

Скопіюйте URL в окремий файл (підійде будь-яка таблиця або текстовий редактор)

  • Натисніть Pages with 301 redirect, після чого з'явиться список сторінок 301. Скопіюйте їх також.
  • Повторіть те саме з Pages with 302 redirect.
  • Натисніть Pages with rel = 'canonical' , Щоб отримати список канонічних і неканонічних сторінок. Додайте ці URL в список.

В Website Auditor також присутній зручний генератор XML sitemap. Натисніть Sitemap, щоб створити XML.

Якщо у вас великий сайт з безліччю розділів, не буде зайвим створити окремий sitemap для кожного з них, що дозволить швидко знаходити розділи сайту з помилками сканування. Наприклад, у вас може бути sitemap для дошки обговорень, ще один sitemap для блогу і ще для основних сторінок сайту. Для e-commerce-майданчиків доречно створювати окремі sitemap для великих товарних категорій.
Перевірте, що всі файли sitemap доступні краулер. Ви можете додати посилання на файли sitemap в robots.txt і зареєструвати їх в Search Console.

7. Структура сайту і внутрішні посилання

І хоча немає прямого зв'язку між внутрішніми посиланнями і вашим бюджетом, структура сайту все ще залишається важливим фактором, який дозволяє зробити контент доступним пошуковим роботам.
У деревовидної структури сайту безліч переваг, зокрема, UX.
Є хороший орієнтир: тримати важливі розділи сайту на відстані не більше 3 кліків від будь-якої сторінки. Додайте важливі сторінки і категорії в меню сайту або футер.
Як можна бачити, SEO - це не тільки «цінний контент» і «посилання з авторитетних джерел». Ви зробили яскравий фасад сайту, тепер не буде зайвим спуститися в підвал, пополювати на павуків, і так поліпшити позиції у видачі.

Похожие

Привіт дорогі читачі. Хочу в даній статті торкнутися теми зовнішніх і внутрішніх посилань. Тому що бага...
Привіт дорогі читачі. Хочу в даній статті торкнутися теми зовнішніх і внутрішніх посилань. Тому що багато новачків, тільки недавно прийшли в блогінг, дуже часто плутаються в цих здавалося б, простих, але в той же час важливі терміни. Як доповнення до основної теми статті, я вам покажу кілька сервісів, які дозволяють зробити аналіз зовнішніх посилань будь-якого
"Реклама буде окупною або неокупні в залежності від реальних цифр продажів. Реклама - це не річ в собі. Вона не...
"Реклама буде окупною або неокупні в залежності від реальних цифр продажів. Реклама - це не річ в собі. Вона не призначена для того, щоб хизуватися перед публікою. Дивіться на рекламу як на нового продавця". Клод Хопкінс Вимірювання ефективності контекстних рекламних кампаній і оптимізація рекламного бюджету. Контекстна реклама сьогодні є одним з найбільш затребуваним і необхідним інструментом для ефективного залучення нових
SEO-оптимізація сайту - це набір маніпуляцій щодо вдосконалення ресурсу під конкретні пошукові запити. Для того щ...
SEO-оптимізація сайту - це набір маніпуляцій щодо вдосконалення ресурсу під конкретні пошукові запити. Для того щоб зрозуміти, яку роль відіграють пошукові системи в рекламі Вашого бізнесу, не потрібно перечитувати тонни вузькоспеціальною літератури і заглиблюватися в принципи роботи пошукових машин.
У вас вже був сумний досвід невдалого просування? Купа грошей пішла, а результату - нуль. Не поспі...
У вас вже був сумний досвід невдалого просування? Купа грошей пішла, а результату - нуль. Не поспішайте розчаровуватися в просуванні. Цього можна було легко уникнути. Сайт просто потрібно було підготувати до просування. Що це означає? підготовка сайту до просування - це проведення внутрішньої оптимізації сайту. Запам'ятайте: при неправильній структурі сайту, невірно заповнених тегах h1, title, description
... бюджету, складання рекламної компанії та відбору якісних донорів результат не змусив себе довго чекати. ...
... бюджету, складання рекламної компанії та відбору якісних донорів результат не змусив себе довго чекати. Я помітив хороший зростання позицій вже через кілька тижнів. Мій просувний запит почав стрімко лізти вгору видачі Яндекса і на даний момент досяг 11 місця. Я вважаю, що це непоганий результат і якщо роботи не припиняти, то найближчим часом запит виявиться
Перед розкручуванням сайту його обов'язково необхідно оптимізувати для кращої індексації. Крім того...
Перед розкручуванням сайту його обов'язково необхідно оптимізувати для кращої індексації. Крім того, правильна оптимізація і унікальні тексти дозволяють самостійно поступово займати певні позиції в ТОП видачі всіх пошукових систем! Оптимізація структури сайту Багато що залежить від дизайну, але слід розуміти, що занадто неординарний дизайн може викликати подив у відвідувачів і вони не зможуть орієнтуватися в меню навігації. Тому для комерційних або соціальних проектів, розрахованих
Ретро-ігри · Моди для ігор · Софт для ігор · оптимізації ігор · Смішні скріншоти Assassin's Cre...
Ретро-ігри · Моди для ігор · Софт для ігор · оптимізації ігор · Смішні скріншоти Assassin's Creed · BioShock
На сьогоднішній день, майже всі ми маємо на увазі перше місце, де можна проконсультуватися або шукат...
На сьогоднішній день, майже всі ми маємо на увазі перше місце, де можна проконсультуватися або шукати, наприклад, google або yandex. Якщо у вас є веб-сайт, і ви
Залучення нових клієнтів і покупців завжди знаходиться на порядку денному будь-якої фірми. Існують рі...
Залучення нових клієнтів і покупців завжди знаходиться на порядку денному будь-якої фірми. Існують різні способи досягнення потрібних результатів (SEO, контекстна і медійна реклама). Пошукова оптимізація і просування сайту на даний момент є найбільш затребуваною
У вас є привабливий веб-сайт, і ви відчуваєте, що він підкреслює вашу організацію найкращим чином. Тож уявіть, що ...
У вас є привабливий веб-сайт, і ви відчуваєте, що він підкреслює вашу організацію найкращим чином. Тож уявіть, що потенційний клієнт, який шукає в Інтернеті саме те, що ви маєте запропонувати, тільки для того, щоб знайти свій конкурс, оскільки вони з'явилися на першій сторінці результатів пошуку, а ви з'явилися на третьому.
24 грудня 2015 Очманілі Roo`чкі: технічний аудит для сайту nickermann.ru Влітку 2015 року редак...
24 грудня 2015 Очманілі Roo`чкі: технічний аудит для сайту nickermann.ru Влітку 2015 року редакція SEOnews і сервіс Rookee запустили новий проект під назвою «Очманілі Roo`чкі». В рамках проекту фахівці Rookee раз в місяць вибирають один сайт і роблять для нього безкоштовний технічний аудит. У цьому
Чим важливий краулінговий бюджет?
Як Google визначає краулінговий бюджет для веб-ресурсів?
Чим важливий краулінговий бюджет?
Як пошуковики формують краулінговий бюджет?
Як щодо внутрішніх посилань?
Чи можливо збільшити швидкість сканування конкретної сторінки, якщо направити на неї більше внутрішніх посилань?
Чи означає це, що єдиний спосіб поліпшити краулінговий бюджет - залучати посилання і публікувати свіжий контент?
У вас вже був сумний досвід невдалого просування?
У вас вже був сумний досвід невдалого просування?
Що це означає?