Новости 2 клика, чтобы ИИ рассказал рецепт коктейля Молотова. Snapchat считает, что это нормально

NewsMaker

I'm just a script
Премиум
21,497
46
8 Ноя 2022
Исторический рассказ превратил чат-бота Snapchat в боевого инструктора.


e3udyw7jdq0qp0yfuuigtq0zxqxaqxo2.jpg

Специалисты Cybernews продемонстрировали , как легко обмануть встроенный в Snapchat чат-бот My AI и заставить его рассказывать о запрещённых вещах, несмотря на заявленные меры безопасности. Эксперимент выявил серьёзные уязвимости в системе защиты, на которую полагаются более 900 миллионов пользователей приложения ежемесячно.

Команда специалистов попыталась выяснить, насколько устойчив чат-бот в Snapchat к манипуляциям. Вместо прямых запросов о создании оружия исследователи попросили чат-бота сочинить рассказ о Зимней войне между Финляндией и СССР. В ходе повествования My AI без колебаний описал, как в то время изготавливались зажигательные смеси, фактически передав рецепт «коктейля Молотова». Таким образом, система, предназначенная для безопасного общения и творчества, оказалась подвержена обходу фильтров, если вопрос замаскирован под художественное задание.

Snapchat позиционирует My AI как «улучшенную и безопасную» модель, обученную на разнообразных текстах и снабжённую специальными ограничениями. Согласно информации на сайте компании, при обучении использовались фильтры, предотвращающие распространение вредных данных . Однако проведённый эксперимент показал, что эти барьеры можно легко обойти, если формулировать запросы косвенно.

Более того, несмотря на уведомление о проблеме, Snapchat не стал устранять уязвимость. По данным Cybernews, компания не признала ситуацию достаточно опасной, чтобы выпустить обновление. Это вызывает обеспокоенность, учитывая, что большинство пользователей сервиса — подростки.

Эксперимент Cybernews стал частью масштабного исследования феномена jailbreaking — приёмов, с помощью которых пользователи обходят встроенные ограничения нейросетей. Та же техника ранее позволила обмануть другие крупные модели: ассистент Meta* в Messenger* и Instagram* также выдавал инструкции по созданию зажигательных устройств, а чатбот Lenovo Lena — запускал несанкционированные скрипты на корпоративных машинах.

Исследователи напоминают, что даже если ИИ не отвечает напрямую, скрытые подсказки и творческие формулировки нередко открывают доступ к опасной информации. В случае Snapchat это особенно тревожно, поскольку My AI интегрирован в личные и групповые чаты, а подписчики Snapchat+ могут обмениваться с ботом изображениями и получать сгенерированные картинки.

Ранее пользователи уже сообщали о странных сбоях My AI — в частности, бот однажды самостоятельно отправил короткое видео с изображением потолка и перестал реагировать на сообщения. Новые результаты лишь усилили сомнения в надёжности фильтров и уровне контроля за поведением модели. Исследование поднимает более широкий вопрос — насколько уязвимы современные генеративные системы перед обходными приёмами и как их можно сделать по-настоящему безопасными для аудитории, где значительная часть пользователей — несовершеннолетние .

<span style="font-size: 7pt;">* Компания Meta и её продукты (включая Instagram, <span class="extremist-highlight" title="Соцсеть признана экстремистской и запрещена на территории РФ">Facebook</span>, Threads) признаны экстремистскими, их деятельность запрещена на территории РФ. </span>
 
Источник новости
www.securitylab.ru

Похожие темы