Новости «Нулевой клик» в ChatGPT. Ваши данные из диалога могут украсть, пока вы просто задаете вопрос

NewsMaker

I'm just a script
Премиум
21,899
46
8 Ноя 2022
Хакеры могут «отравить» память ChatGPT и похищать данные между сессиями.


eum1nxfp9zka44w6ua1d3rgfqg142l7c.jpg

Tenable Research обнаружила в ChatGPT 7 новых уязвимостей и приёмы эксплуатации, которые позволяют извлекать приватные данные пользователей, обходить защиту и закреплять доступ между сессиями — речь о наборах проблем, связанных с косвенными внедрениями инструкций, обходом механизма проверки ссылок и способами принуждения модели к долгосрочной утечке информации. Tenable отмечает , что большинство демонстраций реализовано на актуальных реализациях модели GPT-5 и на более ранних версиях, а сценарии атаки охватывают простейшие пользовательские действия — например, запрос «расскажи об этой статье» или обычный поисковый вопрос.

В основе эксплуатируемых механизмов лежит слабость обработки входного контента языковыми моделями — так называемая инъекция подсказки . Злоумышленник помещает инструкции в данные, которые модель обрабатывает при работе с веб-страницами или индексируемым контентом, после чего LLM может отклониться от исходной задачи и выполнить чужую команду. Tenable подробно описывает семь техник и уязвимостей: косвенная инъекция в контексте просмотра (Browsing Context), «нулевой клик» через индексируемый контент в результатах поиска (Search Context), уязвимость при формировании запроса через параметр q в URL, обход механизма url_safe, приём Conversation Injection, способ скрытия вредоносного содержимого в рендеринге и механизм внедрения в долговременную память — все эти приёмы демонстрируют как отдельные опасности, так и комбинации, которые дают полный сценарий компрометации.

Первая обнаруженная проблема позволяет внедрять инструкции через комментарии на доверенных сайтах: при запросе на суммирование материала модель инициирует просмотр страницы и обрабатывает содержимое чужих комментариев, поэтому специально оформленная запись может превратить безопасный обзор в команду на разглашение.

Второй приём — «нулевой клик» — демонстрирует, что достаточно того, чтобы вредоносный ресурс оказался в индексах поисковых систем, и при обычном вопросе пользователя LLM может обратиться к нему и получить инъекцию без дополнительного действия со стороны жертвы. Исследователи создали сайты с таргетированными именами тем и научились показывать вредоносные инструкции только для подсистемы поиска, что привело к успешным PoC в реальных условиях.

Третий путь — простая подстановка запроса через специальный параметр в адресной строке, который OpenAI позволил принимать как готовую подсказку; клик по такой ссылке превращает пользователя в жертву инъекции, поскольку q-параметр автоматически подставляется в запрос модели.

Четвёртый вектор использует обход проверки ссылок url_safe. Так как домен bing.com находится в белом списке, результаты поиска, обёрнутые в отслеживающие ссылки Bing, проходили проверку и рендерились полностью. Исследователи показали, как с помощью набора индексированных страниц можно по буквам выносить любую строку через последовательный вывод «безопасных» ссылок и тем самым эксфильтрировать данные.

Пятый приём обозначен как Conversation Injection — цепочка, в которой ответ вспомогательной системы поиска (SearchGPT) включает в себя подсказку для основной модели, и ChatGPT , просматривая историю беседы, воспринимает её как часть контекста и следует вредоносным инструкциям. Такой сценарий превращает ограничения легковесного браузера в имплицитный путь к управлению основным агентом.

Шестой трюк использует баг рендера markdown: часть текста, идущая на той же строке, что и открывающий маркер блока кода, не отображается пользователю в интерфейсе, но остаётся доступной для внутренней обработки моделью. Исследователи демонстрируют, как вредоносный фрагмент может быть «спрятан» в видимом невинном ответе и незаметно подтолкнуть модель к нежелательным действиям.

Седьмая и наиболее опасная техника — внедрение в долговременную память (memory injection). Tenable показала, что посредством аккуратно сформированного ответа SearchGPT может побудить основную систему к обновлению «биографической» памяти, и затем вредоносные инструкции становятся постоянной частью контекста, сказываясь на ответах в будущих сессиях и создавая стойкий канал утечки.

Комбинирование этих приёмов дало несколько полноценных PoC: фишинговые кампании, когда вредоносная ссылка появлялась в суммарном ответе и побуждала пользователя перейти на наружный ресурс; скрытые комментарии на популярных блогах, через которые происходила постоянная компрометация; индексируемые сайты, дающие «нулевой клик» для массовой атаки; и сценарии с долговременным внедрением, где информация жертвы оказывается регулярным источником утечек при каждом новом запросе.

Tenable передала результаты разработчикам OpenAI и работала с ними над устранением части проблем. В публичных материалах исследователи указывают на три связанных уведомления безопасности, где описаны критические векторы и предложены меры по смягчению рисков. При этом Tenable подчёркивает, что инъекции подсказок — фундаментальная слабость архитектуры LLM, и её устранение потребует комплексных инженерных решений, улучшения контроля над источниками контента и пересмотра логики доверия к индексируемым ресурсам.

Практические рекомендации для поставщиков и пользователей включают строгую проверку и фильтрацию содержимого, получаемого из веба, расширение логики url_safe с учётом промежуточных перенаправлений, дополнительную валидацию любых обновлений долговременной памяти, а также повышение прозрачности при выводе внешних фрагментов в пользовательский интерфейс. Tenable также советует организациям ограничивать использование автоматических браузинговых возможностей и обучать сотрудников правилам проверки подозрительных ссылок и суммарных ответов от LLM. Пользователи массовых сервисов должны воспринимать ответы моделей как вспомогательный результат, а не как безусловный источник доверия, и стараться не кликать по непроверенным ссылкам в автоматически сгенерированных ответах.

Описанные приёмы открывают новые представления о том, как распределённые компоненты современных ИИ-систем взаимодействуют и как злоумышленники могут использовать границы доверия между ними. Tenable подчёркивает важность системного подхода к безопасности LLM и совместной работы вендоров, исследователей и сообщества для минимизации рисков по мере распространения языковых моделей среди сотен миллионов пользователей.
 
Источник новости
www.securitylab.ru

Похожие темы