Новости Вы зря платили SEO-специалистам: ChatGPT и Gemini выбирают сайты по собственным, довольно странным правилам

NewsMaker

I'm just a script
Премиум
27,496
46
8 Ноя 2022
Почему лидерство в Google больше не гарантирует трафик в эпоху ИИ.


tryngms3qiwcraan4itnpkc09ktopgh2.jpg

Когда ChatGPT, Gemini или DeepSeek показывают ссылки под ответом, список выглядит как привычные источники из поисковой выдачи. Новое исследование показывает, что внешнее сходство обманчиво: каждая система собирает и прикрепляет ссылки по собственным правилам, а попадание сайта в топ Google почти не помогает попасть в ответы нейросетей.

Авторы разобрали сетевой обмен веб-клиентов ChatGPT, Gemini и DeepSeek, а затем проверили, какие страницы системы цитируют при одинаковых запросах. Для проверки использовали четыре англоязычных B2B-запроса про инструменты мониторинга упоминаний в нейросетях. Каждый запрос запускали по десять раз в каждой системе, веб-поиск был включен, а замеры проходили без входа в аккаунт в течение одного дня.

Исследование подготовила команда RankCaster AI, платформы для управления видимостью брендов в ответах нейросетей. Автор отдельно указал возможный конфликт интересов: компания работает в той же категории, которую изучала. Чтобы снизить риск перекоса, собственный домен RankCaster AI исключили из таблиц до подсчетов, а ограничения методики описали отдельно.

Главный числовой результат оказался жестким для классического SEO. Среди 120 позиций из топа Google и Bing исследователи нашли всего четыре совпадения с источниками в ответах нейросетей. Доля совпадений составила 3,3%. Все совпавшие ссылки пришли из Bing, а Google не дал ни одного совпадения. У ChatGPT пересечений с выдачей обоих поисковиков не было.

Для корректного сравнения авторам сначала пришлось понять, что именно каждая система считает источником. У ChatGPT ссылки приходят в массиве annotations внутри объектов url_citation. В каждом объекте есть адрес, заголовок и границы фрагмента ответа, к которому привязана ссылка. Практический вывод простой: ChatGPT не прикрепляет источник ко всему тексту целиком, а связывает ссылку с конкретным отрывком. Для попадания в цитирование материал должен пригодиться модели именно при генерации нужной части ответа.

Разбор сетевого обмена показал и технические детали работы ChatGPT. Веб-клиент отправляет запросы на chatgpt.com, а ответ получает потоком через Server-Sent Events. Перед основным обменом клиент делает подготовительный запрос и получает рабочий токен. В части сессий тот же шаг дополнительно требовал проверку Cloudflare Turnstile. Авторы считают, что платформа совмещает несколько механизмов защиты клиента и сессии перед генерацией ответа.

Важная деталь касается границ цитирования. Поля start_ix и end_ix указывают на участок текста, к которому относится ссылка. По наблюдениям исследователей, смещения почти наверняка считаются в кодовых единицах UTF-16, как в JavaScript. При неправильном подсчете символов цитаты могут съехать, особенно если в тексте есть эмодзи или часть китайских, японских и корейских знаков.

На запрос What is GEO? ChatGPT во всех десяти прогонах ссылался на научную статью arXiv 2311.09735, где описан термин GEO. Система также цитировала Wikipedia и узкоспециализированные блоги. Маркетинговые страницы из поискового топа в проверке не совпали с источниками ChatGPT.

Gemini устроен иначе. Веб-клиент использует внутренний JavaScript-каркас Google Wiz и механизм batchexecute, а данные передаются через формат JSPB/PBLite, где поля определяются не понятными именами, а позициями в массиве. Исследователи нашли рядом с источниками набор коротких маскированных полей. Часть значений похожа на внутренние сигналы: оценку доверия к домену, дату последнего обращения, фрагмент цитирования, валидность ссылки и диапазон символов в ответе. Авторы подчеркивают, что расшифровка полей остается гипотезой, потому что Google не публикует внутреннюю схему ответа.

По набору цитируемых сайтов Gemini заметно отличался от ChatGPT. Система чаще поднимала крупные SaaS- и маркетинговые домены, включая Semrush, HubSpot и Zapier. В одном из запросов в верхнюю часть источников попали четыре разных URL одного домена-конкурента. При этом среди главных источников Gemini за все прогоны не оказалось ресурсов самого Google.

DeepSeek оказался самым прозрачным из трех сервисов с технической точки зрения. Веб-клиент возвращает массив search_results, привязанный к подзапросам, на которые система разбивает исходный вопрос. Сложной разметки диапазонов и маскированных полей исследователи там не нашли.

Выбор источников у DeepSeek оказался самым специфичным. Система часто ссылалась на новостные сайты, пресс-релизы, отраслевые B2B-ресурсы и страницы документации. В выборке встречались TMCnet, MarketScreener, GlobeNewswire и другие площадки, связанные с распространением корпоративных сообщений. DeepSeek также единственным из трех сервисов регулярно цитировал китайские источники, включая BusinessNext и Alibaba Cloud.

Отдельно авторы отметили три самые стабильные точки во всей выборке DeepSeek: один поддомен документации и два инструментальных сайта попадали в ответы во всех десяти прогонах. Эти источники не совпали ни с SEO-топами, ни с наборами ссылок у других систем.

Для оценки стабильности исследователи использовали показатель APR, Answer Presence Rate. Метрика показывает, в скольких прогонах из десяти источник попал в ответ. В итоговые таблицы включали источники с APR не ниже 20%. При десяти прогонах доверительный интервал для каждой точки составляет примерно ±15-20 процентных пунктов, поэтому авторы предлагают смотреть не на точные проценты, а на общую картину.

Общая картина получилась неудобной для привычного подхода к продвижению. Оптимизация под Google в изученной категории почти не переносится на цитирование в ответах нейросетей. ChatGPT, Gemini и DeepSeek выбирают источники по разным схемам, а поисковая позиция сама по себе не гарантирует попадание в ответ. Для ChatGPT важнее пригодность конкретного фрагмента, для Gemini может играть роль доверие к домену, а DeepSeek чаще использует новостные и пресс-релизные каналы.

Исследование не стоит воспринимать как универсальное правило для всего интернета. Проверка охватила только одну продуктовую категорию, формулировки запросов составляли сами авторы, а десять прогонов дают заметную статистическую погрешность. Веб-клиенты нейросетей постоянно меняются, поэтому найденные поля, адреса и технические детали показывают состояние конкретных сервисов на момент замера.

Полная версия работы опубликована под названием Source Overlap Between Search Engines and AI Recommendations. Там собраны таблицы по четырем запросам, методика и типология источников.
 
Источник новости
www.securitylab.ru

Похожие темы