Эволюция вебспама в Рунете (опыт Яндекса)

Опубликовано: 22.08.2018

По мотивам документа Russian Web Spam Evolution: Yandex Experience (2013 г).

Аннотация

Вебспам отрицательно влияет на качество поиска и удовлетворение пользователя, а также заставляет поисковые системы расходовать ресурсы для краулинга, индексации и ранжирования. Таким образом, поисковые системы вынуждены принимать меры для борьбы с вебспамом. Трафик из поиска играет большую роль в онлайн-экономике, это приводит к жестоким соревнованиям за место в ТОП е и увеличивает мотивацию спаммеров разрабатывать новые спамные техники.

В то же время, алгоритмы ранжирования усложнились, также как и методы определения вебспама. Вебспам постоянно эволюционирует, что поддерживает в актуальности задачу его определения. Яндекс имеет в этом некоторый опыт и данная статья описывает этот накопленный опыт в определении различных видов вебспама, основанный на контенте, ссылках, кликах и поведении пользователей. Также здесь рассмотрены агрессивная реклама и мошенничество, так как они влияют на пользовательский опыт. Помимо этого, будет продемонстрирована связь между классическим вебспамом и современными подходами к мошенничеству.

Введение

Так как поисковые системы изначально используют контент, как главный источник сигналов для ранжирования, текстовый спам стал одним из самых распространенных видов спама. Спаммеры пытаются влиять на такие факторы как TF/IDF или BM25, создавая тексты (часто бессмысленные) с оптимальной плотностью ключевых слов. Для определение этого типа спама используются методы, основанные на языковых моделях.

Как только поисковые системы начали использовать ссылочные сигналы, типа PageRank , спаммеры пытались влиять на них с помощью линк-фарм, обмена ссылками, покупкой ссылок и другими искусственными ссылочными образованиями. Большинство методов определения ссылочного спама основаны на многообразных свойствах ссылочного графа .

Использование поведенческих характеристик для ранжирования спровоцировало появление соответствующих спамных методик типа клик-фрауда. Есть ряд алгоритмов, определяющих этот тип спама.

Из нашего опыта, каждый фактор, использующийся в ранжировании, может злоупотребляться для получения лучших позиций в результатах поиска. Спаммеры сильно мотивированы найти и использовать подобные фичи. Таким образом, инженеры поисковых систем должны осознавать эти мотивы при разработке и внедрении нового инструментария и алгоритмов. При этом, спаммеры не останавливаются лишь на манипулировании поиском в целях монетизации трафика. Они также обманывают пользователей, поэтому, поисковые алгоритмы должны учитывать и это. Социальная сторона борьбы с вебспамом не менее важна, чем техническая.

Устройство антиспама

В сети Интернет существует огромное число страниц, поэтому поисковые системы должны обрабатывать документы очень быстро. Яндекс хранит более 20 млрд. документов с своей базе и индексирует более 3 млрд. документов каждый день. Некоторые документы подвергаются обработке Яваскрипт-интерпретатором. Мы разработали и внедрили специальный язык, основанный на регулярных выражениях, для построения различных классификаторов. Этот язык используется в системах быстрой классификации и может обрабатывать 200 тыс. документов в секунду. Некоторые классификаторы с большой точностью и полнотой разработаны благодаря этой технологии.

Для обучения алгоритмов используются как данные профессиональных асессоров, так и обратная связь, полученная в техническую поддержку. Это позволяет постоянно быть в курсе новых трендов в спамных техниках и других типах обмана.

Формы вебспама

Главная цель вебспама – привлечь трафик из поисковых систем. Существуют разные стратегии увеличения посещаемости. Спаммеры учитывают разные факторы, такие как популярность запроса, уровень конкуренции, ранжирующая функция для этого типа запросов и другие. Стоит указать, что вебспам тесно связан с оптимизацией для поисковых систем ( SEO ). При этом, существуют законные SEO -практики (белое SEO ), где сайт анализируется для устранения некорректной индексации или других технических проблем. И к сожалению, другие SEO -техники используются для агрессивного продвижения сайтов в результатах поиска по выбранному пулу запросов (серое или черное SEO ). Существует 4 основных элементов, используемых для продвижения: тексты, домены, ссылки и поведение пользователей. Каждый из этих элементов соответствует группе ранжирующих факторов. Черное и серое SEO пытаются получить оптимальные значения этих сигналов, приводящих к высоким позициям.

Далее в статье мы пройдемся от наиболее часто встречающихся спамным техник до более сложных. Мы опишем эволюцию вебспама и SEO с технической стороны и обсудим его социальное влияние.

Тексты

Обычная “оптимизация” текста основана на манипулировании TF/IDF и состоит в накрутке ключевых фраз, их частоты и местоположения на странице методом проб и ошибок. Подобная искусственная расстановка ключевых фраз часто приводит к ухудшению контента страницы и существенно портит пользовательский опыт. Поэтому, агрессивная текстовая оптимизация должна контролироваться поисковой системой и текстовые факторы требуют осторожной настройки.

Доменные имена

Для продвижения используется простой трюк с доменом, в имени которого содержатся слова из запроса. Если считать, что такие имена появляются случайно, тогда пользователю сложно различить сайты в выдаче, когда в поиске каждый домен содержит фразу из запроса. Яндекс внедрил антиспам-алгоритм, направленный на доменные имена ещё в апреле 2011 г.

Ссылки

Покупка ссылок на биржах является одним из самых популярных методов спама ссылок в России. К сожалению, эта практика распространена из-за задержки в реакции со стороны поисковых систем. Относительно большой период времени, когда платные ссылки были эффективным способом раскрутки сайта, позволили этой технологии сильно распространиться. Это показывает большую необходимость для поисковых систем реагировать на новые формы спама очень быстро. Мы уверены, что быстрая реакция на новые виды спама наиболее важна, чем алгоритмическая точность.

Мы разработали эффективный алгоритм, который совмещает категоризацию анкорных текстов и анализ ссылочного графа для определения платных ссылок. Классификатор платных ссылок помогает рассчитывать ссылочную релевантность для коммерческих и некомерческих запросов по-разному. Это позволяет улучшить алгоритм ранжирования, уменьшая влияние SEO -специалистов на некоммерческие запросы и увеличить разнообразие выдачи. Важно заметить, что платные ссылки легко классифицируются, что позволяет поисковой системе контроллировать качество поиска и бороться со спамом, направленным на коммерческие запросы. Но также важно отметить, что феномен покупных ссылок крепко закоренился в российском сегменте интернета из-за медленной реакции.

Следовательно, в середине 2007 все популярные поисковые системы в России были под большим воздействием SEO (судя анализатору Ашманова). Было относительно несложно продвигать сайты в ТОП10 ссылочным спамом. Например, по запросу “вода” 8 из 10 результатов предлагали доставку воды, а 9 из 10 результатов по запросу “насекомые” были об уничтожении насекомых. В результате, большинство популярных запросов, не имеющих большого коммерческого интента, были заспамлены с помощью SEO . В течение следующих лет поисковые системы улучшили их алгоритмы, делая продвижение сайтов более сложной задачей и существенно улучшив разнообразие выдачи.

Поведение пользователей

С тех пор, когда поведенческие характеристики стали хорошим источником ранжирующих сигналов, спаммеры начали изучать, как ими манипулировать. Они не знают, как подсчитываются и работают клики, но объективно полагают, что кликабельность играет важную роль. Самая распространенная накрутка это найти сайт в результатах поиска и начать на него кликать. Следующий шаг: создать сообщество, используя модель оплаты за действие, где рабочие за низкую стоимость выполнят задачи ввода запросов и кликая на результаты, соответственно инструкциям. Ситуация ухудшилась, когда спаммеры стали использовать автоматизацию с помощью ботнетов. Накрутка кликов сейчас один из худших методов продвижения, что приводит к мощному негативному влиянию на всю экосистему Интернета. Поэтому, поисковые системы должны решать любые попытки накрутки кликов как можно быстрей. Чтобы уменьшить влияние оптимизаторов на качество поиска, Яндекс накладывает санкции на сайты, которые пытаются манипулировать поведенческими факторами, а также ограничивает влияние этих факторов для коммерческого ранжирования.

Как мы видим, существует много векторов атаки, которые должны быть под контролем поисковой системы. Соответствующие классификаторы и ограничения разработанны в Яндексе для минимизации эффектов от этих атак. Из-за активного противодействия со стороны поисковиков, спаммеры постоянно ищут новые методы обмана. Например, черные оптимизаторы начали использовать зоны, которые раньше плохо анализировались поисковыми роботами – заспамливая динамический контент. Яваскрипт и Actionscript позволяют добавлять все что угодно на страницу. Индексация чистого HTML обычно не обеспечивает поисковик всей информацией о том, как страница выглядит после интерпретации JS-кода. Это дает возможность разрабатывать новые методы спама, которые сложней определить.

Агрессивная реклама

Качество поиска – наиболее важная характеристика поисковой машины и оно напрямую влияет на её популярность. Существует множество методов оценить качество поисковых систем. Методы, основанные на автоматическом анализе взаимодействия пользователя с поиском, важны для транзакционных запросов. Ручная оценка транзакционных запросов более сложна и требует время и опыт.

Один и тот же медиа-контент, файлы, софт и др. можно найти на разных сайтах. Несмотря на то, что существует много релевантных страниц, это не значит что все они одинаковы для пользователя. Например, развлекательный сайт с интересным контентом может размещать рекламу при монетизации. Однако, жадность ведет к дорогой рекламе, которая делает сайт очень недружелюбным для пользователя или совсем неудобным, когда нужный контент остается недоступным. В наших исследованиях влияния рекламы на пользовательский опыт мы используем “время dwell” – известную характеристику, позволяющую определить удовлетворение пользователя на странице.

По результатам нашего анализа видно, что сайты с неразумным количеством рекламы могут отчуждать пользователей и вызывать жалобы. Среднее время dwell для захламленных сайтов в 1.7 раз меньше, чем для чистых. Важно отметить, что эта разница будет зависеть от популярности сайта. Разница между средним показателем dwell для нормального и захламленного сайтов уменьшается с ростом популярности. Это приводит к более аккуратным действиям по отношению к известным сайтам, если мы не хотим уменьшить удовлетворение пользователя.

Наши алгоритмы делают неработоспособным подход “давайте сделаем много дешевых, но оптимизированных сайтов с пиратским контентом и агрессивной рекламой”. Таким образом, большое число сайтов, агрессивно монетизирующихся рекламой, понижены в поиске, несмотря на попытки вебмастеров прятать рекламу от поисковых системы в HTML с обфускацией или другими трюками. Также поисковые системы могут обнаруживать агрессивную рекламу в динамическом контенте. Поэтому, спаммеры столкнулись с проблемой оптимизации: как увеличить эффективность баннера? Вредоносный код, по всей видимости, будет следующим шагом в эволюции веб-спама.

Вебспам, обманки, фарминг

Сервисы микро-платежей (смс-платежи) – главное открытие теневой экономики российского интернета. Например, целевые страницы с платной мобильной подпиской один из прибыльных способов заработать деньги на черном SEO . Злоумышленники создают сбивающие с толку схемы, когда неясно, кто будет оплачивать счет: мобильные операторы имеют множество партнеров (контент и сервис-провайдеров), те с свою очередь имеют своих партнеров и так далее. В большинстве случаев трафик идет на подписные формы с неясным или нечитаемым соглашением, направленным на то, чтобы запутать пользователя. При этом используются различные техники для увеличения коэффициента подписок. Неопытные пользователи доверяют больше известным сайтам и брендам, и злоумышленники используют это в своих интересах. Например, некоторые обманные сайты используют яваскрипт-код, отображающий фейковые сообщения, как будто они пришли из популярных социальных сетей, порталов или других популярных сайтов.

Клики на фейковые нотификации ведут на специальные лендинги с подписными формами, часто это отображается как попап-баннер и могут содержать информацию о лоттерее Яндекса, обещая призы, после чего пользователь видит мобильную подписку на фоне главной страницы яндекса. Трюки фишинга также используются. Весь контент загружается динамически через яваскрипт, который обычно зашифрован. Другие типы лендингов могут использовать вредоносный контент. Один из других способов обмана – иметь возможность изменить настройки пользователя, модифицировать файлы и др. Это вторая волна фарминга, когда файлы на сервере модифицируются для перенаправления известных сайтов на другие IP.

Заключение и задачи на будущее

Современное SEO и техники вебспама стали более изощренными и технологически продвинутыми. Это требует немедленных действий со стороны поисковой системы. Системы определения спама должны изменяться с учетом широко-используемого JavaScript. Необходимы дополнительные ресурсы для интерпретации js-кода и поиска необходимых сигналов. Техники вебспама приближаются к обману пользователя с помощью взлома сайтов, заражения вирусами, ботнетов, фишинга и фарминга. Подобные техники стимулируют поисковые системы уделить внимание образовательным проектам и сервисам. Мы продолжаем противостоять вебспаму, уменьшая количество негативных феноменов.

Сергей Певцов (руководитель антислужбы),

Сергей Волков (аналитик отдела веб-поиска Яндекса), 2013.