Утечка данных по ранжированию в Google. На что обращают внимание алгоритмы.

Утечка данных по ранжированию в Google. На что обращают внимание алгоритмы. Google
Содержание
  1. Слив документов о работе поисковика Google
  2. Основные выводы по SEO исходя из утечки
  3. Утечка внутренней документации Google: Мифы, ПФ, Twiddlers
  4. Понятие «Twiddler«, которое приводится в документации
  5. Утечка внутренней документации Google: Ссылки и Пессимизации
  6. Влияние уровня индексации на ценность ссылок
  7. Сигналы скорости появления спам-ссылок
  8. Анализ последних 20 изменений URL
  9. Влияние PageRank главной страницы
  10. Траст главной страницы
  11. Размер шрифта терминов и ссылок
  12. Влияние Penguin на внутренние ссылки
  13. Отсутствие упоминаний о Disavow
  14. Алгоритм Panda
  15. Пессимизации в поиске
  16. Утечка внутренней документации Google: Контент
  17. Ограничение объема документов
  18. Оценка оригинальности короткого контента
  19. Значимость заголовков страниц
  20. Отсутствие ограничений на количество символов в Title/Desc
  21. Авторы
  22. Значимость дат
  23. Регистрация домена
  24. Видео контент
  25. Оценка контента «Ваше здоровье — ваша жизнь» (YMYL)
  26. Векторизация сайтов и страниц
  27. Мелкие сайты могут быть намеренно понижены

Слив документов о работе поисковика Google

Алгоритм поиска Google – это, пожалуй, самая важная система в Интернете, от которой зависит, какие сайты будут процветать, а какие — уйдут в небытие, и какой контент мы увидим в сети. Долгое время механизм ранжирования веб-сайтов Google оставался загадкой. Журналисты, исследователи и специалисты по поисковой оптимизации (SEO) пытались разгадать его, собирая крупицы информации и анализируя их.

27 мая интернет взорвался новостями об утечке огромного массива внутренней информации Google, касающейся их главного продукта – Поиска.

Но с чего все началось? В воскресенье, 5 мая, Ренд Фишкин, в прошлом весьма известный SEO-специалист и основатель популярного сервиса Moz.com, получил электронное письмо от неизвестного отправителя. В этом письме утверждалось, что у него есть доступ к массивной утечке документации API из подразделения поиска Google. В письме говорилось, что подлинность этих документов подтверждена бывшими сотрудниками Google, которые также предоставили дополнительную, закрытую информацию о функционировании поисковой системы.

Но кто же стоял за этим? Оказалось, что утечку обнаружил Эрфан Азими, владелец SEO-фирмы просто начал демонстрировать слитые ему документы, раскрывающие детали работы ранжирования в поиске Google. В действительности, речь шла не столько о самом поиске, сколько о различных API, окружающих его. Но, как вы понимаете, даже по этим API можно почерпнуть массу полезной информации. Утечка произошла из-за ошибки одного из разработчиков Google. Этот разработчик написал программу для преобразования API в вызовы на своем любимом языке программирования. Однако вместо публичных вызовов он случайно выложил всю внутреннюю документацию.

Что же было в этих данных? Утечка включала более 2500 страниц документации API, содержащей 14,014 атрибутов (функций API) из внутреннего Content API Архива Google.

Утечка данных по ранжированию в Google. На что обращают внимание алгоритмы.

Ссылка на документацию.

Эти документы были загружены на GitHub 27 марта 2024 года, вероятно, по внутренней ошибке, и оставались там до 7 мая 2024 года. Вопреки публичным заявлениям Google, документы выявили значительные расхождения между тем, что Google заявлял ранее, и тем, что они действительно делали. Эта информация бросает серьезную тень на методы работы Google и может привести к пересмотру их политики прозрачности и безопасности.

Многочисленные проверки через различных бывших и действующих сотрудников Google указывают на то, что это не подделка и не шутка, а самая настоящая утечка. Теперь исследованием этого инцидента чрезвычайно обеспокоены все SEO-аналитики.

Основные выводы по SEO исходя из утечки

  • В поисковом алгоритме Google существуют «белые списки» сайтов, которые получают принудительную оптимизацию. Особенно это касается таких тем, как выборы в США в 2020 году или COVID-19.
  • Название домена и субдоменов имеет значение (хотя Google всегда утверждал обратное).
  • Для новых сайтов существует отдельная песочница, хотя Google это отрицает.
  • Данные из EWOK (системы, где живые люди оценивают качество результатов поиска за деньги) используются напрямую. Таким образом, люди определяют, какой сайт лучше для конкретного запроса.
  • Google активно использует данные о поведении пользователей на сайте для ранжирования.
  • Данные о кликах пользователей на странице собираются не только из Google Analytics, но и напрямую из браузера Chrome.
  • В зависимости от количества кликов на странице, сайты делятся на три категории, для каждой из которых строится свой «ранг качества». Более популярные сайты получают больший вклад в PageRank и считаются более ценными.
  • Внутри Google учитывается размер бренда сайта, не только по самому сайту, но и по упоминанию этого сайта в интернете (даже без ссылок).
  • Контент и ссылки становятся вторичными, гораздо важнее клики и навигация по сайту (поведенческий фактор).
  • Для большинства мелких компаний и сайтов SEO почти не имеет значения, пока не будет создан бренд, пользователи на сайте и репутация в аудитории.

Эта утечка является самой значимой за последние 10-15 лет. Она показывает, что Google часто лжет, когда публично рассказывает о поиске. Важно перестать верить в мантру «контент — король». Кликбейт и бот-фермы — вот текущий путь к успеху в SEO. Google отказался комментировать ситуацию. Если хотите узнать больше, прочитайте статью на iPullRank.

Читайте подробнее о продвижении в Google на 2024 год тут.

Утечка внутренней документации Google: Мифы, ПФ, Twiddlers

Все компоненты связаны между собой через YouTube, Google Assistant, Google Books, видео-поиск, ссылки, веб-документы, инфраструктуру для сбора данных, внутреннюю календарную систему и People API.

Часто документация ссылается на страницы, которые представляют собой URL-адреса внутренней сети Google и требуют учетных данных Google для доступа. Если нет доступа к этим страницам, то приходится пытаться толковать доступную информацию самостоятельно.

Представители Google намеренно создают путаницу среди пользователей и специалистов относительно работы своих систем. Некоторые функции, которые объявлялись как неработающие, на самом деле функционируют.

Примером этого является «Авторитет домена» («siteAuthority«), который используется в системе ранжирования, хотя изначально утверждалось обратное.

Подробнее о факторах, которые влияют на Траст сайта.

Также было опровергнуто заявление о «не использовании кликовых (поведенческих) факторов» для ранжирования. С 2005 года используется система Navboost, которая учитывает кликовые данные за последние 18 месяцев. В настоящее время этот период составляет 13 месяцев.

Инженер Google Пол Хаар заявлял, что использование кликов в ранжировании прямо на странице поисковой выдачи было бы ошибкой. Однако система Navboost имеет модуль, полностью ориентированный на «показы и клики«, включая различные типы кликов, что противоречит этому утверждению.

Другой модуль, связанный с индексацией сигналов, имеет метрику «Последний хороший клик«, которая может указывать на актуальность контента на странице. Google также учитывает и хранит информацию о плохих кликах, сегментируя их по странам и устройствам.

Есть некоторое разногласие с автором текста. Он утверждает, что все эти факторы поведения внутри сайта, а не на страницах с результатами поиска. Таким образом, заявление Пола Хаара по-прежнему имеет смысл.

Все указывает на то, что NavBoost уже является одним из сильнейших сигналов рейтинга Google. Утечка данных указывает на 84 упоминания Navboost и 5 модулей с названием Navboost. Также сообщается, что для поддоменов, главных страниц и внутренних URL-адресов применяются разные формулы ранжирования.

Миф о «песочнице» развеян. В модуле «PerDocData» имеется атрибут «hostAge«, который используется для изоляции новых спам-сайтов с целью защиты результатов поиска.

Также опровергается миф о «не использовании ничего из Google Chrome для ранжирования«. Один из модулей действительно использует статистику посещений из Chrome, и атрибут Google Chrome присутствует в модуле, связанном со ссылками.

Понятие «Twiddler«, которое приводится в документации

Twiddlers — это функции, которые изменяют ранжирование результатов поиска после применения основного алгоритма Google. Они подобны фильтрам на странице, изменяя отображаемый контент перед его показом пользователю.

Основные функции Twiddlers:

  • Изменение ранжирования: корректируют баллы и позиции документов в результатах поиска.
  • Категориальные ограничения: ограничивают количество результатов определенного типа, например, до трех блогов на одной странице выдачи.
  • Эксперименты и Boost-системы: многие системы, такие как Panda, начинали как Twiddlers и затем были интегрированы в основной алгоритм.

Примеры Boost-систем:

  • NavBoost: улучшает навигационные результаты.
  • QualityBoost: повышает качество результатов.
  • RealTimeBoost: обрабатывает результаты в реальном времени.
  • WebImageBoost: оптимизирует результаты для веб-изображений.

Утечка внутренней документации Google: Ссылки и Пессимизации

Обратные (внешние) ссылки на сайт всё еще важны. На текущий момент недостаточно данных, чтобы утверждать, что важность ссылок уменьшилась.

Влияние уровня индексации на ценность ссылок

Показатель sourceType указывает на взаимосвязь между местоположением страницы в индексе Google и её ценностью.

Индекс Google подразделен на уровни:

  • Флэш-память: контент, наиболее значимый и регулярно обновляемый.
  • Твердотельные накопители: менее значимый контент.
  • Жёсткие диски: контент, обновляемый нечасто.

Чем выше уровень, тем ценнее ссылка. «Свежие» страницы также считаются высококачественными. Поэтому ссылки с высокорейтинговых страниц и новостных ресурсов имеют больший вес.

Сигналы скорости появления спам-ссылок

Google отслеживает всплески спам-анкоров с помощью метрики phraseAnchorSpamDays, что позволяет измерить скорость появления спам-ссылок. Это помогает выявлять спам-атаки и игнорировать негативные SEO-тактики.

Анализ последних 20 изменений URL

Google сохраняет все версии страниц, но для анализа учитывает только последние 20 изменений. Это означает, что для «сброса» страницы необходимо изменить её и проиндексировать не менее 20 раз.

Влияние PageRank главной страницы

Каждый документ имеет связанный PageRank главной страницы (Nearest Seed version). Это используется как прокси для новых страниц до тех пор, пока не будет рассчитан их собственный PageRank.

Траст главной страницы

Google оценивает ссылку на основе общего траста главной страницы. Поэтому важно сосредоточиться на качестве и релевантности ссылок, а не на их количестве.

Размер шрифта терминов и ссылок

Google отслеживает средний размер шрифта терминов и анкорных текстов. Размер шрифта может влиять на важность терминов и ссылок.

Влияние Penguin на внутренние ссылки

Многие внутренние ссылки могут быть проигнорированы, что следует из метрики droppedLocalAnchorCount.

Подробнее о Google Penguin

Отсутствие упоминаний о Disavow

Данные о Disavow могут храниться в другом месте, но в данной API они не упоминаются. Это может свидетельствовать о том, что Disavow используется для обучения классификаторов спама.

Алгоритм Panda

По моему пониманию, очень качественный контент способствует увеличению кликов и видимости по релевантным запросам, что в свою очередь может стимулировать более активное использование анкоров и ссылок.

Подробнее о фильтре Google Panda

Пессимизации в поиске

  • Несоответствие ссылки целевому сайту (Google стремится к релевантности как на доноре, так и на акцепторе).
  • Понижение в SERP. Этот сигнал указывает на понижение страницы на основе факторов, отслеживаемых в SERP, вероятно, оцениваемых по кликам и удовлетворению пользователей результатом.
  • Понижение навигации. Предположительно, это понижение, применяемое к страницам, имеющим проблемы с пользовательским опытом.
  • Понижение EMD. В 2012 году Мэтт Каттс объявил, что точные соответствия доменов (Exact Match Domains) больше не будут иметь такого же влияния, как раньше.
  • Понижение обзоров продукта. Нет конкретной информации, но, вероятно, связано с обновлением обзоров продуктов в 2023 году.
  • Понижение местоположения (ГЕО). Указывается, что «глобальные» и «супер-глобальные» страницы могут быть понижены. Google пытается связать страницы с определенным местоположением и ранжировать их соответственно.
  • Понижение из-за контента для взрослых.

Утечка внутренней документации Google: Контент

Ограничение объема документов

В системе Mustang существует предельное количество символов, которые могут быть учтены при создании документа. Это подчеркивает важность размещения наиболее значимого контента в начале документа.

Оценка оригинальности короткого контента

Метрика OriginalContentScore указывает на то, что короткий контент оценивается с учетом его оригинальности. Таким образом, качество контента не всегда зависит от его объема. Тем не менее, существует метрика для выявления избыточного использования ключевых слов (keyword stuffing).

Значимость заголовков страниц

Метрика titlematchScore демонстрирует, что Google по-прежнему оценивает, насколько хорошо заголовок страницы соответствует запросу пользователя.

Рекомендуется размещать целевые ключевые слова в начале заголовка.

Отсутствие ограничений на количество символов в Title/Desc

В документации не указано, что длина мета-тегов учитывается в метриках. Единственный способ измерения символов — snippetPrefixCharCount, который определяет, какая часть текста может быть использована в сниппете. Это подтверждает, что длинные заголовки страниц не всегда оптимальны для кликов, но могут повлиять на ранжирование.

Авторы

Google связывает авторов с документами и пытается определить, является ли сайт (компания), опубликовавший статью, её автором. Это указывает на существование метрики, оценивающей авторство документа.

Значимость дат

Google уделяет большое внимание свежести результатов, и документы демонстрируют многочисленные попытки связать даты с страницами:

  • bylineDate: Явно указанная дата на странице.
  • syntacticDate: Дата, извлеченная из URL или заголовка.
  • semanticDate: Дата, извлеченная из содержания страницы.

Рекомендуется указывать дату и быть последовательным в её использовании в структурированных данных, заголовках страниц и XML-картах сайта. Несоответствие дат в URL и других частях страницы может отрицательно сказаться на производительности контента.

Регистрация домена

Google хранит информацию о последней регистрации домена на уровне составного документа. Это подтверждает теорию о том, что статус Google как регистратора влияет на алгоритм.

Применение: Используется для «песочницы» нового контента и доменов, сменивших владельца.
Недавнее обновление: Вес этой информации мог быть увеличен с введением политики против злоупотребления истекшими доменами.

Видео контент

Сайты, где более 50% страниц содержат видео, считаются ориентированными на видео и обрабатываются особым образом.

Оценка контента «Ваше здоровье — ваша жизнь» (YMYL)

Google использует классификаторы для оценки контента YMYL Health и YMYL News. Они также предсказывают «пограничные запросы«, чтобы определить, относятся ли они к YMYL.

Векторизация сайтов и страниц

Google векторизует страницы и сайты, сравнивая векторные представления страниц с векторными представлениями сайтов, чтобы определить, насколько страница соответствует основной теме.
Метрики: siteFocusScore оценивает, насколько сайт придерживается одной темы, а site radius — насколько страница выходит за пределы основной темы.

Мелкие сайты могут быть намеренно понижены

Google имеет флаг, указывающий, является ли сайт «маленьким личным сайтом«. Хотя нет четкого определения таких сайтов, они могут быть понижены или повышены с помощью Twiddlers.

Вступайте в наш телеграм канал
Аватар
Админ Вячеслав

Web-мастер и SEO-специалист с 2016 года.
Занимаюсь борьбой за выживание с алгоритмами поисковых систем.
Нельзя просто так взять и продвинуть сайт в ТОП.😆

Делаем-сайт.ru
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии