Модели "зубрят" книги целиком, а не учатся на них. И это может стоит разработчикам миллионы.
Машинное обучение устроено так, что разработчики почти никогда не раскрывают, на каких именно данных обучали модель. Но вопрос о том, что внутри модели «осело» и можно ли это вытащить правильным запросом, давно перестал быть чисто академическим: тут и деньги, и суды, и этика, и приватность.
На этом фоне у крупных игроков, включая Anthropic, Google, OpenAI и Nvidia, накопилось уже больше 60 исков, связанных с подозрениями в использовании защищённого авторским правом контента при обучении без разрешения правообладателей. Компании вложили в эту гонку сотни миллиардов долларов, исходя из того, что их подход к данным законен.
Пока суды в США пытаются понять, где проходит граница «добросовестного использования» (fair use), один из ключевых вопросов звучит так: не «запомнила» ли модель фрагменты обучающих материалов буквально. То есть не закодировала ли она исходный текст в своих весах (параметрах, которые формируются во время обучения и определяют ответы) и не способна ли потом воспроизвести его по запросу. Для защиты fair use важна, среди прочего, «преобразующая» природа использования: добавляет ли система что-то новое, меняет ли характер оригинального произведения. И этот аргумент заметно слабее, если модель просто возвращает защищённый текст почти дословно и в большом объёме.
При этом сам факт того, что модель может что-то воспроизвести целиком или частично, ещё не делает правовую оценку автоматически однозначной. Об этом, в частности, писал исследователь Николас Карлини: ситуация сложнее, чем «выдал текст значит виноват», и юристы смотрят на набор факторов.
Чтобы снизить риск претензий, коммерческие разработчики обычно ставят «ограничители» (guardrails) — фильтры и механизмы , которые должны не давать модели выдавать большие куски защищённого контента, будь то текст, изображения или аудио.
С моделями с открытыми весами давно показано, что запоминание бывает очень значительным, и при правильной формулировке запросов можно вытянуть из них большие фрагменты исходных данных. Есть утверждения, что <span class="extremist-highlight" title="Соцсеть признана экстремистской и запрещена на территории РФ">Meta</span> Llama 3.1 70B «полностью запоминает» Harry Potter and the Sorcerer's Stone и роман Джорджа Оруэлла 1984. Подобные выводы в научной среде встречаются как минимум с 2020 года.
Теперь группа исследователей из Stanford и Yale (Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo и Percy Liang) заявила, что похожая история есть и у коммерческих «продакшн»-моделей, несмотря на фильтры и закрытость обучающих корпусов. В препринте Extracting books from production language models они пишут, что сумели извлекать крупные фрагменты запомненных книг из четырёх систем: Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro и Grok 3.
Авторы подчеркивают: это не было заранее очевидно. Коммерческие модели стараются не выдавать защищённые тексты, а состав датасетов не раскрывается. Тем не менее, по их словам, «из всех четырёх производственных LLM можно извлечь большие части запомненного контента», хотя успешность сильно зависит от условий эксперимента.
Разница между моделями оказалась заметной. Для некоторых случаев требовался джейлбрейк — специальные запросы, рассчитанные на обход ограничителей. Самый «результативный» пример связан с Claude 3.7 Sonnet: после джейлбрейка исследователи утверждают, что смогли извлечь почти всю Harry Potter and the Sorcerer's Stone — с показателем воспроизведения 95,8%. При этом Gemini 2.5 Pro и Grok 3, по их данным, выдали большие куски той же книги и без джейлбрейка: 76,8% и 70,3% соответственно. GPT-4.1 оказался самым «упрямым» — около 4% текста.
Отдельно оговорено, что эти проценты не обязательно означают максимум возможного: авторы прямо пишут, что их показатели не отражают предельную «выжимку», которую можно получить при других настройках и подходах.
О результатах они сообщили Anthropic, Google DeepMind, OpenAI и xAI. По словам исследователей, единственной компанией, которая не подтвердила получение сообщения, стала xAI. В тексте отмечается, что xAI параллельно критикуют из-за того, что Grok, по сообщениям, способен генерировать несогласованные сексуальные изображения по запросу.
Авторы также пишут, что по истечении 90-дневного окна ответственного раскрытия (9 декабря 2025 года) их метод всё ещё работал как минимум на части протестированных систем. Какой именно провайдер имеется в виду, они не уточняют.
Есть и важная деталь по Claude 3.7 Sonnet: Anthropic убрала эту модель из доступных вариантов для клиентов 29 ноября 2025 года. Исследователи подчеркивают, что это не обязательно реакция на их работу — модель могли просто заменить более новой.
Юридические выводы они делать не берутся и оставляют это специалистам, но аккуратно отмечают: их результаты могут оказаться полезными в текущих спорах о том, как оценивать «память» языковых моделей и насколько она совместима с аргументом про fair use.
Машинное обучение устроено так, что разработчики почти никогда не раскрывают, на каких именно данных обучали модель. Но вопрос о том, что внутри модели «осело» и можно ли это вытащить правильным запросом, давно перестал быть чисто академическим: тут и деньги, и суды, и этика, и приватность.
На этом фоне у крупных игроков, включая Anthropic, Google, OpenAI и Nvidia, накопилось уже больше 60 исков, связанных с подозрениями в использовании защищённого авторским правом контента при обучении без разрешения правообладателей. Компании вложили в эту гонку сотни миллиардов долларов, исходя из того, что их подход к данным законен.
Пока суды в США пытаются понять, где проходит граница «добросовестного использования» (fair use), один из ключевых вопросов звучит так: не «запомнила» ли модель фрагменты обучающих материалов буквально. То есть не закодировала ли она исходный текст в своих весах (параметрах, которые формируются во время обучения и определяют ответы) и не способна ли потом воспроизвести его по запросу. Для защиты fair use важна, среди прочего, «преобразующая» природа использования: добавляет ли система что-то новое, меняет ли характер оригинального произведения. И этот аргумент заметно слабее, если модель просто возвращает защищённый текст почти дословно и в большом объёме.
При этом сам факт того, что модель может что-то воспроизвести целиком или частично, ещё не делает правовую оценку автоматически однозначной. Об этом, в частности, писал исследователь Николас Карлини: ситуация сложнее, чем «выдал текст значит виноват», и юристы смотрят на набор факторов.
Чтобы снизить риск претензий, коммерческие разработчики обычно ставят «ограничители» (guardrails) — фильтры и механизмы , которые должны не давать модели выдавать большие куски защищённого контента, будь то текст, изображения или аудио.
С моделями с открытыми весами давно показано, что запоминание бывает очень значительным, и при правильной формулировке запросов можно вытянуть из них большие фрагменты исходных данных. Есть утверждения, что <span class="extremist-highlight" title="Соцсеть признана экстремистской и запрещена на территории РФ">Meta</span> Llama 3.1 70B «полностью запоминает» Harry Potter and the Sorcerer's Stone и роман Джорджа Оруэлла 1984. Подобные выводы в научной среде встречаются как минимум с 2020 года.
Теперь группа исследователей из Stanford и Yale (Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo и Percy Liang) заявила, что похожая история есть и у коммерческих «продакшн»-моделей, несмотря на фильтры и закрытость обучающих корпусов. В препринте Extracting books from production language models они пишут, что сумели извлекать крупные фрагменты запомненных книг из четырёх систем: Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro и Grok 3.
Авторы подчеркивают: это не было заранее очевидно. Коммерческие модели стараются не выдавать защищённые тексты, а состав датасетов не раскрывается. Тем не менее, по их словам, «из всех четырёх производственных LLM можно извлечь большие части запомненного контента», хотя успешность сильно зависит от условий эксперимента.
Разница между моделями оказалась заметной. Для некоторых случаев требовался джейлбрейк — специальные запросы, рассчитанные на обход ограничителей. Самый «результативный» пример связан с Claude 3.7 Sonnet: после джейлбрейка исследователи утверждают, что смогли извлечь почти всю Harry Potter and the Sorcerer's Stone — с показателем воспроизведения 95,8%. При этом Gemini 2.5 Pro и Grok 3, по их данным, выдали большие куски той же книги и без джейлбрейка: 76,8% и 70,3% соответственно. GPT-4.1 оказался самым «упрямым» — около 4% текста.
Отдельно оговорено, что эти проценты не обязательно означают максимум возможного: авторы прямо пишут, что их показатели не отражают предельную «выжимку», которую можно получить при других настройках и подходах.
О результатах они сообщили Anthropic, Google DeepMind, OpenAI и xAI. По словам исследователей, единственной компанией, которая не подтвердила получение сообщения, стала xAI. В тексте отмечается, что xAI параллельно критикуют из-за того, что Grok, по сообщениям, способен генерировать несогласованные сексуальные изображения по запросу.
Авторы также пишут, что по истечении 90-дневного окна ответственного раскрытия (9 декабря 2025 года) их метод всё ещё работал как минимум на части протестированных систем. Какой именно провайдер имеется в виду, они не уточняют.
Есть и важная деталь по Claude 3.7 Sonnet: Anthropic убрала эту модель из доступных вариантов для клиентов 29 ноября 2025 года. Исследователи подчеркивают, что это не обязательно реакция на их работу — модель могли просто заменить более новой.
Юридические выводы они делать не берутся и оставляют это специалистам, но аккуратно отмечают: их результаты могут оказаться полезными в текущих спорах о том, как оценивать «память» языковых моделей и насколько она совместима с аргументом про fair use.
- Источник новости
- www.securitylab.ru