Исторический рассказ превратил чат-бота Snapchat в боевого инструктора.
Специалисты Cybernews продемонстрировали , как легко обмануть встроенный в Snapchat чат-бот My AI и заставить его рассказывать о запрещённых вещах, несмотря на заявленные меры безопасности. Эксперимент выявил серьёзные уязвимости в системе защиты, на которую полагаются более 900 миллионов пользователей приложения ежемесячно.
Команда специалистов попыталась выяснить, насколько устойчив чат-бот в Snapchat к манипуляциям. Вместо прямых запросов о создании оружия исследователи попросили чат-бота сочинить рассказ о Зимней войне между Финляндией и СССР. В ходе повествования My AI без колебаний описал, как в то время изготавливались зажигательные смеси, фактически передав рецепт «коктейля Молотова». Таким образом, система, предназначенная для безопасного общения и творчества, оказалась подвержена обходу фильтров, если вопрос замаскирован под художественное задание.
Snapchat позиционирует My AI как «улучшенную и безопасную» модель, обученную на разнообразных текстах и снабжённую специальными ограничениями. Согласно информации на сайте компании, при обучении использовались фильтры, предотвращающие распространение вредных данных . Однако проведённый эксперимент показал, что эти барьеры можно легко обойти, если формулировать запросы косвенно.
Более того, несмотря на уведомление о проблеме, Snapchat не стал устранять уязвимость. По данным Cybernews, компания не признала ситуацию достаточно опасной, чтобы выпустить обновление. Это вызывает обеспокоенность, учитывая, что большинство пользователей сервиса — подростки.
Эксперимент Cybernews стал частью масштабного исследования феномена jailbreaking — приёмов, с помощью которых пользователи обходят встроенные ограничения нейросетей. Та же техника ранее позволила обмануть другие крупные модели: ассистент Meta* в Messenger* и Instagram* также выдавал инструкции по созданию зажигательных устройств, а чатбот Lenovo Lena — запускал несанкционированные скрипты на корпоративных машинах.
Исследователи напоминают, что даже если ИИ не отвечает напрямую, скрытые подсказки и творческие формулировки нередко открывают доступ к опасной информации. В случае Snapchat это особенно тревожно, поскольку My AI интегрирован в личные и групповые чаты, а подписчики Snapchat+ могут обмениваться с ботом изображениями и получать сгенерированные картинки.
Ранее пользователи уже сообщали о странных сбоях My AI — в частности, бот однажды самостоятельно отправил короткое видео с изображением потолка и перестал реагировать на сообщения. Новые результаты лишь усилили сомнения в надёжности фильтров и уровне контроля за поведением модели. Исследование поднимает более широкий вопрос — насколько уязвимы современные генеративные системы перед обходными приёмами и как их можно сделать по-настоящему безопасными для аудитории, где значительная часть пользователей — несовершеннолетние .
<span style="font-size: 7pt;">* Компания Meta и её продукты (включая Instagram, <span class="extremist-highlight" title="Соцсеть признана экстремистской и запрещена на территории РФ">Facebook</span>, Threads) признаны экстремистскими, их деятельность запрещена на территории РФ. </span>
Специалисты Cybernews продемонстрировали , как легко обмануть встроенный в Snapchat чат-бот My AI и заставить его рассказывать о запрещённых вещах, несмотря на заявленные меры безопасности. Эксперимент выявил серьёзные уязвимости в системе защиты, на которую полагаются более 900 миллионов пользователей приложения ежемесячно.
Команда специалистов попыталась выяснить, насколько устойчив чат-бот в Snapchat к манипуляциям. Вместо прямых запросов о создании оружия исследователи попросили чат-бота сочинить рассказ о Зимней войне между Финляндией и СССР. В ходе повествования My AI без колебаний описал, как в то время изготавливались зажигательные смеси, фактически передав рецепт «коктейля Молотова». Таким образом, система, предназначенная для безопасного общения и творчества, оказалась подвержена обходу фильтров, если вопрос замаскирован под художественное задание.
Snapchat позиционирует My AI как «улучшенную и безопасную» модель, обученную на разнообразных текстах и снабжённую специальными ограничениями. Согласно информации на сайте компании, при обучении использовались фильтры, предотвращающие распространение вредных данных . Однако проведённый эксперимент показал, что эти барьеры можно легко обойти, если формулировать запросы косвенно.
Более того, несмотря на уведомление о проблеме, Snapchat не стал устранять уязвимость. По данным Cybernews, компания не признала ситуацию достаточно опасной, чтобы выпустить обновление. Это вызывает обеспокоенность, учитывая, что большинство пользователей сервиса — подростки.
Эксперимент Cybernews стал частью масштабного исследования феномена jailbreaking — приёмов, с помощью которых пользователи обходят встроенные ограничения нейросетей. Та же техника ранее позволила обмануть другие крупные модели: ассистент Meta* в Messenger* и Instagram* также выдавал инструкции по созданию зажигательных устройств, а чатбот Lenovo Lena — запускал несанкционированные скрипты на корпоративных машинах.
Исследователи напоминают, что даже если ИИ не отвечает напрямую, скрытые подсказки и творческие формулировки нередко открывают доступ к опасной информации. В случае Snapchat это особенно тревожно, поскольку My AI интегрирован в личные и групповые чаты, а подписчики Snapchat+ могут обмениваться с ботом изображениями и получать сгенерированные картинки.
Ранее пользователи уже сообщали о странных сбоях My AI — в частности, бот однажды самостоятельно отправил короткое видео с изображением потолка и перестал реагировать на сообщения. Новые результаты лишь усилили сомнения в надёжности фильтров и уровне контроля за поведением модели. Исследование поднимает более широкий вопрос — насколько уязвимы современные генеративные системы перед обходными приёмами и как их можно сделать по-настоящему безопасными для аудитории, где значительная часть пользователей — несовершеннолетние .
<span style="font-size: 7pt;">* Компания Meta и её продукты (включая Instagram, <span class="extremist-highlight" title="Соцсеть признана экстремистской и запрещена на территории РФ">Facebook</span>, Threads) признаны экстремистскими, их деятельность запрещена на территории РФ. </span>
- Источник новости
- www.securitylab.ru