Утечка 2500 документов Google Search API, секреты "ранжирования" обнажили ложь Google о своих алгоритмах индексации - SEO, Видео Контентное продвижение в медицине и косметологии

Внутренняя документация по Content Warehouse API Google Search утекла.

Внутренние микросервисы Google, кажется, отражают то, что предлагает Google Cloud Platform, и внутренняя версия документации для устаревшего Document AI Warehouse была случайно опубликована в общественном доступе в репозитории клиентской библиотеки. Документация для этого кода также была захвачена внешней автоматизированной службой документации. На основании истории изменений, ошибка репозитория кода была исправлена 7 мая, но автоматизированная документация все еще доступна.

Хотя в документации нет подробностей о функциях оценки Google, есть масса информации о данных, хранящихся для контента, ссылок и взаимодействия пользователей. Есть также различные степени описания (от разочаровывающе скудных до удивительно откровенных) функций, которые манипулируются и хранятся.

Краткие вывода по результатам изучение оказавшихся в свободном доступе «Святая святых» внутренней кухни Google по ранжированию и индексации сайтов — внутренних документов компании

Сами документы тут https://hexdocs.pm/google_api_content_warehouse/api-reference.html.

системы Google работают в монолитном репозитории («монорепо»), а машины работают в общей среде — это означает, что весь код хранится в одном месте и любая машина в сети может быть частью любой системы Google
публичные заявления Google, вероятно, не являются намеренной попыткой лгать, а скорее обманывают потенциальных спамеров (а также многих «белых» SEO-специалистов), чтобы сбить с толку о том, как оказать влияние на результаты поиска
существует функция под названием siteAuthority — авторитетность домена, она используется в системе ранжирования Q*
в Navboost есть специальный модуль, полностью ориентированный на сигналы о кликах:
badClicks — плохие клики
goodClicks — хорошие клики
lastLongestClicks — последние длинные клики
unsquashedClicks — несжатые клики
unsquashedImpressions — несжатые показы
unsquashedlastLongestClicks — несжатые последние длинные клики
«Сжатие — это функция, которая предотвращает доминирование одного большого сигнала над другими». Другими словами, это нормализация данных.
песочница: в документации модуля PerDocData указан атрибут hostAge, который используется специально «для изолирования свежего спама»
Navboost упоминается 84 раза, в т.ч. в названии 5 модулей
Google не упоминает CTR или время пребывания (dwell time) именно в такой формулировке, но явно используются клики по результатам поиска и показатели успешного визита из поиска
один из модулей, связанных с показателями качества страниц, получает просмотры из браузера Chrome
Google явно сохраняет авторов, связанных с документом, в виде текста; они также пытаются определить, является ли объект на странице ее автором
cуществует целый ряд показателей выявления всплесков спама в анкор-листе (AnchorSpamDays)
Google использует 20 последних изменений документа при анализе ссылок
оценка ссылки производится исходя из степени доверия к главной странице (homePageInfo)
усечение документов: Google подсчитывает количество токенов и отношение общего количества слов в тексте к количеству уникальных токенов (numTokens)
происходит оценка оригинальности короткого контента (OriginalContentScore)
происходит оценка соответствия title запросу (titleMatchScore)
даты важны: Google несколько раз пытается получить даты со страницы (bylineDate, SyntacticDate, semanticDate)
используется информация из whois домена (RegistrationInfo)
если более 50% страниц сайта содержит видео, к нему относятся по-другому (isVideoFocusedSite)
у Google есть классификаторы, которые генерируют оценки для YMYL Health и YMYL News (ymylNewsScore)
существуют документы золотого стандарта: в описании упоминаются «документы, размеченные человеком» (golden)
есть фактор, определяющий, насколько сайт придерживается одной темы (SiteFocusScore)
есть специальный флаг, который указывает, что сайт является «небольшим персональным сайтом» (smallPersonalSite).

Источники:
https:// ipullrank.com/google-algo-leak
https://searchengines.guru/ru/forum/1099033

Google алгоритмы ранжирование Google

Утечка 2500 документов Google Search API, секреты «ранжирования» обнажили ложь Google о своих алгоритмах индексации

ABOUT

УСЛУГИ

БЛОГ

Утечка 2500 документов Google Search API, секреты «ранжирования» обнажили ложь Google о своих алгоритмах индексации

Внутренняя документация по Content Warehouse API Google Search утекла.

geo

Эффективный видеомаркетинг: Стратегия для медицинских учреждений

Как подключить нейросеть к VS Code бесплатно OpenRouter + Continue + NVIDIA Nemotron

You may also like

GPT-4o, новейшая ИИ-модель от компании OpenAI: в реальном...

Всё о новом факторе ранжирования Google Interaction to...

Leave a Comment Cancel Reply

ABOUT

УСЛУГИ

БЛОГ