Рост охвата и подключение веб-поиска обернулись заметным ухудшением точности.
Доля ложной информации, которую распространяют чат-боты, за год почти удвоилась. Об этом говорится в новом отчёте NewsGuard, который издание Axios первым получило для англоязычной аудитории. По данным исследователей, после августовского отчёта 2024 года разработчики расширили возможности систем: боты стали реже отказываться от ответов, получили доступ к интернету и научились чаще ссылаться на источники. Эти изменения сделали их полезнее в ряде сценариев, но одновременно усилили риск тиражирования дезинформации, особенно во время развивающихся новостей.
NewsGuard опирался на свой ежемесячный бенчмарк AI False Claims Monitor — серию тестов, оценивающих, распознают ли модели заведомо ложные утверждения и умеют ли их опровергать. Исследователи проверили десять популярных ИИ-инструментов с помощью базы False Claim Fingerprints — каталога провержённых тезисов, активно циркулирующих в сети. Темы охватывали политику, здравоохранение, международные события, а также факты о компаниях и брендах. Для каждого вопроса использовались три формулировки: нейтральная, наводящая (как будто ложь — правда) и заведомо злонамеренная, призванная обойти защитные механизмы моделей.
По итогам тестов доля ответов с недостоверной информацией на новостные темы выросла с 18% до 35%. Чаще других ошибались Inflection (57% ответов содержали ложные утверждения) и Perplexity (47%). Меньше всего ложных суждений фиксировалось у Claude от Anthropic и Google Gemini; при этом у Gemini показатель вырос с 7% до 17% год к году, тогда как у Claude остался на уровне 10%. В отчёте отмечается рост неточностей и у других моделей: у <span class="extremist-highlight" title="Соцсеть признана экстремистской и запрещена на территории РФ">Meta</span> — с 10% до 40%, у ChatGPT — с 33% до 40%, у Copilot — с 13% до 37%. Показатель Mistral не изменился (37%), You.com стал отвечать точнее (снижение с 40% до 33%), а Grok, напротив, ухудшился — с 13% до 33%.
Если в 2024 году многие боты были настроены осторожнее и чаще отказывались обсуждать новости и политику или замолкали при отсутствии уверенности, то в нынешнем цикле тестов, по данным NewsGuard, все модели отвечали на запросы без исключений. Подключение веб-поиска и появление ссылок действительно улучшили часть результатов, но «отказ от осторожности обернулся реальными издержками», отмечают авторы. По их словам, во время «живых» событий чаты стали чаще усиливать ложные нарративы, именно в тот момент, когда за ответами к ним обращаются любопытные пользователи, растерянные читатели и злоумышленники. При этом наличие ссылок само по себе не гарантирует качества: модели нередко тянули материалы из сомнительных источников и путали авторитетные издания с их пропагандистскими двойниками.
NewsGuard направил запросы о комментариях в OpenAI, You.com, xAI, Inflection, Mistral, Microsoft, Meta, Anthropic, Google и Perplexity. По словам исследователей, ни одна из десяти компаний не ответила. Axios добавляет, что в США расхождение во взглядах на базовые факты между левыми и правыми усиливается, а потому создать для всех «политически нейтральный» чат-бот, который устроит каждую сторону, практически невозможно. На этом фоне рынок, вероятно, будет подталкивать ИИ-сервисы к более выраженной партийной ориентации в попытке удовлетворить ожидания своей аудитории.
Доля ложной информации, которую распространяют чат-боты, за год почти удвоилась. Об этом говорится в новом отчёте NewsGuard, который издание Axios первым получило для англоязычной аудитории. По данным исследователей, после августовского отчёта 2024 года разработчики расширили возможности систем: боты стали реже отказываться от ответов, получили доступ к интернету и научились чаще ссылаться на источники. Эти изменения сделали их полезнее в ряде сценариев, но одновременно усилили риск тиражирования дезинформации, особенно во время развивающихся новостей.
NewsGuard опирался на свой ежемесячный бенчмарк AI False Claims Monitor — серию тестов, оценивающих, распознают ли модели заведомо ложные утверждения и умеют ли их опровергать. Исследователи проверили десять популярных ИИ-инструментов с помощью базы False Claim Fingerprints — каталога провержённых тезисов, активно циркулирующих в сети. Темы охватывали политику, здравоохранение, международные события, а также факты о компаниях и брендах. Для каждого вопроса использовались три формулировки: нейтральная, наводящая (как будто ложь — правда) и заведомо злонамеренная, призванная обойти защитные механизмы моделей.
По итогам тестов доля ответов с недостоверной информацией на новостные темы выросла с 18% до 35%. Чаще других ошибались Inflection (57% ответов содержали ложные утверждения) и Perplexity (47%). Меньше всего ложных суждений фиксировалось у Claude от Anthropic и Google Gemini; при этом у Gemini показатель вырос с 7% до 17% год к году, тогда как у Claude остался на уровне 10%. В отчёте отмечается рост неточностей и у других моделей: у <span class="extremist-highlight" title="Соцсеть признана экстремистской и запрещена на территории РФ">Meta</span> — с 10% до 40%, у ChatGPT — с 33% до 40%, у Copilot — с 13% до 37%. Показатель Mistral не изменился (37%), You.com стал отвечать точнее (снижение с 40% до 33%), а Grok, напротив, ухудшился — с 13% до 33%.
Если в 2024 году многие боты были настроены осторожнее и чаще отказывались обсуждать новости и политику или замолкали при отсутствии уверенности, то в нынешнем цикле тестов, по данным NewsGuard, все модели отвечали на запросы без исключений. Подключение веб-поиска и появление ссылок действительно улучшили часть результатов, но «отказ от осторожности обернулся реальными издержками», отмечают авторы. По их словам, во время «живых» событий чаты стали чаще усиливать ложные нарративы, именно в тот момент, когда за ответами к ним обращаются любопытные пользователи, растерянные читатели и злоумышленники. При этом наличие ссылок само по себе не гарантирует качества: модели нередко тянули материалы из сомнительных источников и путали авторитетные издания с их пропагандистскими двойниками.
NewsGuard направил запросы о комментариях в OpenAI, You.com, xAI, Inflection, Mistral, Microsoft, Meta, Anthropic, Google и Perplexity. По словам исследователей, ни одна из десяти компаний не ответила. Axios добавляет, что в США расхождение во взглядах на базовые факты между левыми и правыми усиливается, а потому создать для всех «политически нейтральный» чат-бот, который устроит каждую сторону, практически невозможно. На этом фоне рынок, вероятно, будет подталкивать ИИ-сервисы к более выраженной партийной ориентации в попытке удовлетворить ожидания своей аудитории.
- Источник новости
- www.securitylab.ru