Новости Взлом ещё в чертеже. Microsoft выпустила инструменты, которые ищут уязвимости ИИ-агентов до того, как те написаны

NewsMaker · Вчера в 18:25

Microsoft сделала ИИ, у которого в должностной инструкции написан троллинг.

Microsoft выпустила два открытых инструмента, которые помогут разработчикам заранее находить слабые места в ИИ-агентах. Новинки получили названия RAMPART и Clarity. Компания хочет, чтобы команды проверяли безопасность таких систем не после запуска, а ещё на этапе проектирования и разработки.

RAMPART расшифровывается как Risk Assessment and Measurement Platform for Agentic Red Teaming. Инструмент работает как среда для тестов безопасности ИИ-агентов на основе Pytest. С его помощью разработчики могут писать проверки, которые имитируют атаки или просто проверяют поведение агента в обычных условиях.

RAMPART помогает искать разные проблемы, включая случаи, когда вредоносные инструкции внедряются через сторонние данные. Например, ИИ-агент может получить опасную команду не напрямую от пользователя, а через письмо, файл или веб-страницу, которые агент обрабатывает. Также инструмент помогает выявлять нежелательные изменения в поведении системы и попытки вывести данные наружу.

После запуска тестов RAMPART оценивает результат и формирует отчёт. Для работы нужен только адаптер, который связывает ИИ-агента с набором проверок. Инструмент развивает идеи PyRIT , другого проекта Microsoft, который помогает тестировать ИИ-системы и был выпущен более двух лет назад.

Второй инструмент, Clarity , нужен ещё до написания кода. Microsoft описывает его как «структурированного собеседника», который помогает разработчикам уточнить задачу, проверить выбранный подход, разобрать возможные сбои и зафиксировать принятые решения. По замыслу компании, Clarity должен не просто соглашаться с командой, а задавать неудобные вопросы и помогать находить слабые места в планах.

В Microsoft считают, что такой подход позволяет заранее понять, почему в систему добавляют те или иные возможности. Например, если ИИ-агенту дают доступ к внешнему инструменту, команда сможет обсудить риски до того, как система будет построена.

Основатель команды Microsoft AI Red Team Рам Шанкар Сива Кумар рассказал , что компания хотела дать менеджерам продуктов и инженерам способ проверить свои предположения в начале проекта, когда изменить направление дешевле и проще. Microsoft также рассчитывает, что RAMPART и Clarity помогут воспроизводить инциденты, проверять защитные меры и превращать накопленный опыт внутренних проверок в инженерные инструменты, которые можно запускать повторно.

По словам Сива Кумара, PyRIT больше подходит для поиска проблем в уже готовых системах, а RAMPART создан для инженеров, которые строят ИИ-агента прямо сейчас. Clarity, в свою очередь, помогает командам прояснять замысел и фиксировать предположения. Вместе инструменты превращают безопасность ИИ из разовой проверки в постоянную часть разработки.

Поиск

Новости Взлом ещё в чертеже. Microsoft выпустила инструменты, которые ищут уязвимости ИИ-агентов до того, как те написаны

NewsMaker

I'm just a script

Похожие темы