Внутренняя документация по Content Warehouse API Google Search утекла.
Внутренние микросервисы Google, кажется, отражают то, что предлагает Google Cloud Platform, и внутренняя версия документации для устаревшего Document AI Warehouse была случайно опубликована в общественном доступе в репозитории клиентской библиотеки. Документация для этого кода также была захвачена внешней автоматизированной службой документации. На основании истории изменений, ошибка репозитория кода была исправлена 7 мая, но автоматизированная документация все еще доступна.
Хотя в документации нет подробностей о функциях оценки Google, есть масса информации о данных, хранящихся для контента, ссылок и взаимодействия пользователей. Есть также различные степени описания (от разочаровывающе скудных до удивительно откровенных) функций, которые манипулируются и хранятся.
Краткие вывода по результатам изучение оказавшихся в свободном доступе «Святая святых» внутренней кухни Google по ранжированию и индексации сайтов — внутренних документов компании
Сами документы тут https://hexdocs.pm/google_api_content_warehouse/api-reference.html.
- системы Google работают в монолитном репозитории («монорепо»), а машины работают в общей среде — это означает, что весь код хранится в одном месте и любая машина в сети может быть частью любой системы Google
- публичные заявления Google, вероятно, не являются намеренной попыткой лгать, а скорее обманывают потенциальных спамеров (а также многих «белых» SEO-специалистов), чтобы сбить с толку о том, как оказать влияние на результаты поиска
- существует функция под названием siteAuthority — авторитетность домена, она используется в системе ранжирования Q*
- в Navboost есть специальный модуль, полностью ориентированный на сигналы о кликах:
badClicks — плохие клики
goodClicks — хорошие клики
lastLongestClicks — последние длинные клики
unsquashedClicks — несжатые клики
unsquashedImpressions — несжатые показы
unsquashedlastLongestClicks — несжатые последние длинные клики
«Сжатие — это функция, которая предотвращает доминирование одного большого сигнала над другими». Другими словами, это нормализация данных. - песочница: в документации модуля PerDocData указан атрибут hostAge, который используется специально «для изолирования свежего спама»
- Navboost упоминается 84 раза, в т.ч. в названии 5 модулей
- Google не упоминает CTR или время пребывания (dwell time) именно в такой формулировке, но явно используются клики по результатам поиска и показатели успешного визита из поиска
- один из модулей, связанных с показателями качества страниц, получает просмотры из браузера Chrome
- Google явно сохраняет авторов, связанных с документом, в виде текста; они также пытаются определить, является ли объект на странице ее автором
- cуществует целый ряд показателей выявления всплесков спама в анкор-листе (AnchorSpamDays)
- Google использует 20 последних изменений документа при анализе ссылок
- оценка ссылки производится исходя из степени доверия к главной странице (homePageInfo)
- усечение документов: Google подсчитывает количество токенов и отношение общего количества слов в тексте к количеству уникальных токенов (numTokens)
- происходит оценка оригинальности короткого контента (OriginalContentScore)
- происходит оценка соответствия title запросу (titleMatchScore)
- даты важны: Google несколько раз пытается получить даты со страницы (bylineDate, SyntacticDate, semanticDate)
- используется информация из whois домена (RegistrationInfo)
- если более 50% страниц сайта содержит видео, к нему относятся по-другому (isVideoFocusedSite)
- у Google есть классификаторы, которые генерируют оценки для YMYL Health и YMYL News (ymylNewsScore)
- существуют документы золотого стандарта: в описании упоминаются «документы, размеченные человеком» (golden)
- есть фактор, определяющий, насколько сайт придерживается одной темы (SiteFocusScore)
- есть специальный флаг, который указывает, что сайт является «небольшим персональным сайтом» (smallPersonalSite).
Источники:
https:// ipullrank.com/google-algo-leak
https://searchengines.guru/ru/forum/1099033