Новости «Упс, я проговорилась». Sora 2 научилась держать секреты в тексте, но «слила» свой системный промпт через аудио

NewsMaker

I'm just a script
Премиум
22,251
46
8 Ноя 2022
Внутренняя конфигурация, которую считали закрытой, перестала быть тайной.


pi9kwblhh3u2kwzjrlkd08ndkgj0u81u.jpg

Обновлённая версия Sora 2 снова оказалась в центре обсуждений после того, как стало ясно, что модель не всегда удерживает внутренние настройки под надёжной защитой. Изначально её позиционировали как инструмент для создания реалистичных видео, но недавние случаи показали, что система способна непреднамеренно раскрывать служебные инструкции, определяющие её поведение.

Команда Mindgard изучила поведение Sora 2 и показала , что скрытый набор инструкций, определяющий реакцию модели на запросы, просматривается в мультимодальных ответах. Попытки получить эти сведения напрямую через текст приводили только к отказам, однако обходными способами Sora начинала выдавать разрозненные фрагменты своего внутреннего описания.

Текстовые элементы в видеороликах и изображения с символами давали искажённые обрывки, но аудиоответы стали ключом к восстановлению полной структуры. Когда модель озвучивала небольшие фрагменты текста и создавалась расшифровка речи, отдельные части складывались в цельную инструкцию.

Этот результат показывает, что ограничения для обычных текстовых ответов не всегда распространяются на другие каналы. Если у модели есть возможность создавать речь, изображения или видео, то каждый из этих форматов может непредсказуемо раскрыть конфигурацию, которая формально считается закрытой.

Mindgard подчёркивает, что внутренние правила не содержали ничего опасного, однако доступ к ним даёт понимание, как можно обходить защитные механизмы . Для компаний, создающих мультимодальные системы , это создаёт дополнительную нагрузку: нужно учитывать возможные утечки из всех типов ответов, а не только из текста.

Авторы исследования указывают, что разработчики часто продолжают полагаться на внутренние инструкции, несмотря на отраслевые рекомендации не считать их конфиденциальными. В теории правила должны быть вынесены в код и защитные инструменты, но в реальности многие компании всё ещё используют именно системные установки как основу поведения моделей.

В таких условиях попытки скрыть эти сведения за счёт «неочевидности» перестают работать, если мультимодальный генератор может воспроизвести их в обход прямых ограничений. Mindgard советует относиться к системным инструкциям как к чувствительной конфигурации, проверять все форматы вывода, ограничивать длину ответов и отслеживать аномальные запросы, нацеленные на получение внутренних сведений.

Покупателям мультимодальных решений также предлагают уточнять, как именно поставщики защищают эти настройки и какие меры применяются для предотвращения косвенных утечек . История с Sora 2 подтверждает, что появление новых форм генерации означает и новые способы обхода защитных барьеров.
 
Источник новости
www.securitylab.ru

Похожие темы