Новости Украсть ИИ-модель за 4 часа? Это было реально, пока в дело не вмешалась математика. Новый способ "обучения" сделал хакинг ИИ невозможным

NewsMaker

I'm just a script
Премиум
22,251
46
8 Ноя 2022
Новая методика делает внутренности ИИ «неузнаваемыми» для похитителей.


ue55pc4kr5lq0pplfhiva0bzr0pppuwf.jpg

Специалисты из Университета Северной Каролины представили первую рабочую защиту от криптоаналитических атак , направленных на вычисление внутренних параметров моделей искусственного интеллекта. Такие параметры определяют логику работы нейросетевых систем, поэтому их точное восстановление позволяет воссоздать модель без участия правообладателя. Разработанная методика нацелена на то, чтобы заблокировать математические способы извлечения параметров, которые становятся всё более частой угрозой для коммерческих систем машинного обучения.

Основной объект атак представляет собой набор чисел, описывающих модель. Они формируют поведение алгоритма, определяют его ответы и фактически отражают вложенные в систему интеллектуальные наработки. Криптоаналитические методы позволяют получить эти параметры, просто сравнивая подаваемые внешнему интерфейсу входные данные с выдаваемыми результатами. Такая техника успешно применяется против нейросетей, на которых держатся современные коммерческие системы , включая LLM-модели.

Чтобы создать средство защиты от подобных математических процедур, исследователи проанализировали общую структуру атак и нашли общую закономерность, используемую во всех известных подходах извлечения. Ключ лежит в устройстве самой нейросети. Её работа строится на последовательно расположенных слоях, наполненных отдельными вычислительными элементами. Каждый такой элемент обрабатывает входные данные, передаёт результат дальше и формирует итоговый ответ после прохождения через все уровни.

При изучении механизма атак команда заметила, что методы криптоанализа уделяют особое внимание различиям между вычислительными элементами внутри одного уровня. Чем сильнее эти различия, тем более точным получается математическое вычисление параметров. Исходя из этой особенности, исследователи предложили обучать модели так, чтобы элементы внутри слоёв становились ближе по своим характеристикам. Такая настройка может применяться как ко всем уровням, так и только к части сети, и может затрагивать либо весь набор внутренних элементов, либо лишь их часть.

Такой приём создаёт барьер сходства, который разрушает структуру, необходимую для вычисления параметров. Атака перестаёт иметь опорную точку и теряет возможность двигаться дальше. При этом сама модель продолжает работать штатно и сохраняет способность выполнять поставленные задачи.

В ходе проверки концепции команда оценила влияние техники защиты на качество работы алгоритмов. Изменения оказались ниже одного процента. Модели после повторного обучения демонстрировали либо небольшое улучшение, либо такую же незначительную просадку, что в исследовании обозначено как несущественная разница.

Затем была проверена устойчивость. Для тестов выбрали модели, для которых параметры ранее удавалось вычислить менее чем за четыре часа. После повторного обучения с применением новой методики параметры не удалось восстановить даже после многодневных попыток.

Помимо практической части, исследователи создали теоретическую базу, позволяющую оценивать вероятность успеха криптоаналитических методов. Эта схема помогает заранее оценить устойчивость конкретного алгоритма и избежать длительных практических атак, требующих значительных вычислительных ресурсов. Авторы рассчитывают, что разработанная техника станет основой для внедрения средств защиты в коммерческие ИИ-системы . Работа будет представлена на конференции Neural Information Processing Systems (NeurIPS), которая пройдёт в Сан-Диего в декабре.
 
Источник новости
www.securitylab.ru

Похожие темы