Новости Ваш ИИ-агент сам отформатирует вам жёсткий диск. Главное — лишь правильно его об этом попросить

NewsMaker

I'm just a script
Премиум
26,623
46
8 Ноя 2022
Алгоритмы оказались слишком доверчивыми к чужим уловкам.


f3mcv8vf6v36fjhb4mj9ckrcepwm3ege.jpg

ИИ-агенты всё чаще читают сайты, документы и письма вместо человека, поэтому злоумышленникам уже не всегда нужно взламывать саму систему. Достаточно спрятать команду там, где модель её увидит. Google проверила, насколько такие атаки уже вышли за рамки теории, и обнаружила, что подобные эксперименты идут всё активнее.

Команда Google Threat Intelligence изучила публичные страницы из архива Common Crawl, который каждый месяц собирает миллиарды сайтов из разных сегментов сети. Специалисты искали косвенные признаки атак типа Prompt Injection, при которых вредоносная инструкция попадает к ИИ не от пользователя напрямую, а через внешний контент. Например, через страницу сайта, письмо или документ.

По словам авторов отчёта Томаса Бруннера, Юй-Хань Лю и Мони Панде, простого поиска подозрительных фраз оказалось недостаточно. В выдачу попадало много безопасных материалов, включая научные статьи, обучающие публикации и заметки о самих атаках. Поэтому Google сначала искала характерные шаблоны вроде просьб игнорировать предыдущие инструкции, затем передавала найденные страницы Gemini для оценки контекста, а после проверяла результаты вручную.

Большая часть найденных инструкций не выглядела как серьёзная атака. На сайтах встречались шутки, попытки изменить тон ответа ИИ-ассистента, подсказки для более выгодного пересказа страницы, а также инструкции, связанные с SEO. Некоторые владельцы сайтов пытались заставить ИИ рекомендовать их бизнес чаще конкурентов или добавлять в пересказ нужные формулировки.

Отдельная группа находок касалась защиты от ИИ-сканеров. Часть сайтов просила агентов не просматривать страницу, но встречались и более агрессивные варианты. В одном случае инструкция перенаправляла ИИ на страницу с бесконечным потоком текста, чтобы потратить ресурсы системы или вызвать сбой при обработке.

Google также нашла небольшое число вредоносных примеров. Среди них были попытки выманить данные, а также команды, которые при выполнении могли бы удалить файлы на компьютере пользователя. При этом специалисты считают такие атаки примитивными и маловероятными для успешного применения. Массового использования сложных техник, описанных в работах 2025 года, команда не увидела.

Несмотря на низкий уровень подготовки большинства найденных попыток, динамика вызывает тревогу. Между ноябрём 2025 года и февралём 2026 года число вредоносных находок в выборке выросло на 32%. Google считает, что с развитием более самостоятельных ИИ-агентов интерес к таким атакам будет расти, поскольку успешная инструкция сможет не просто исказить ответ, а повлиять на реальные действия системы.
 
Источник новости
www.securitylab.ru

Похожие темы