Новости Русский язык, Шрек и учебники — всё это теперь "угроза". Anthropic так усилила фильтры, что ИИ отказывается работать

NewsMaker

I'm just a script
Премиум
26,316
46
8 Ноя 2022
Opus 4.7 теперь блокирует учебники, PDF с игрушками и русский язык.


8l78nwa7mfmqiwoq5wqjwrsynab33v66.jpg

Anthropic усилила защитные фильтры в Opus 4.7, но вместе с опасными запросами модель начала блокировать обычную работу. Пользователи Claude Code жалуются, что инструмент отказывается помогать с безопасными задачами: от редактуры учебной лабораторной по кибербезопасности до чтения PDF с рекламой игрушки Shrek.

Opus 4.7 вышла на прошлой неделе после анонса Mythos, модели для поиска и эксплуатации уязвимостей. Anthropic описывает Mythos как систему, слишком мощную для открытого доступа, и решила использовать Opus 4.7 как площадку для проверки более строгих ограничений. Компания объяснила, что новая версия автоматически распознаёт и блокирует запросы, похожие на запрещённые или рискованные задачи в кибербезопасности. Накопленный опыт должен помочь Anthropic подготовиться к более широкому выпуску моделей класса Mythos.

На практике строгая защита ударила по легитимным запросам. В репозитории Claude Code на GitHub резко выросло число жалоб на классификатор правил допустимого использования. Этот механизм проверяет запросы и решает, не нарушают ли они политику Anthropic. Разработчики пишут, что Claude Code выдаёт ошибки политики на нормальных задачах, а иногда срывает работу без понятного объяснения.

Проблема не появилась внезапно, но в апреле масштаб изменился. С июля по сентябрь 2025 года пользователи открывали примерно по две-три жалобы в месяц. Среди ранних случаев был сбой, при котором код авторизации памяти с claude.ai вызывал ошибку политики API. В октябре и ноябре количество похожих обращений выросло примерно до пяти-семи в месяц. В одном из сообщений разработчик жаловался, что Claude 4.5 случайно отказывается отвечать на обычные запросы.

В декабре жалоб стало меньше, вероятно из-за праздничного замедления в США. В январе число обращений вернулось примерно к восьми. Один из разработчиков писал, что технические разговоры о программировании не должны запускать нарушения правил, а фильтр безопасности слишком агрессивно реагирует на безобидный контент. В феврале и марте показатели оставались близкими.

В апреле ситуация резко ухудшилась: разработчики подали больше 30 жалоб на ложные срабатывания. Ошибки затронули запросы по безопасности, обычной разработке и научным задачам. Часть пользователей прямо связывает рост отказов с выпуском Opus 4.7 и новыми фильтрами, которые Anthropic добавила ради борьбы с опасным применением моделей.

Один из самых показательных случаев касался более 40 ложных срабатываний за четыре сессии в несвязанных проектах: книге по психологии, веб-приложении, инфраструктурных задачах и боте. Причем, что интересно, Claude отказывался обрабатывать разные русскоязычные запросы, хотя задачи никак не относились к вредоносной активности.

В другом обращении пользователь пожаловался, что Opus 4.7 начала помечать стандартные задачи по вычислительной структурной биологии как нарушение правил использования. Версия 4.6 с теми же запросами справлялась. Вычислительная структурная биология изучает форму и поведение молекул с помощью математических моделей и программных инструментов.

Ещё один пример связан с обучением кибербезопасности. Руководитель Киберцентра и Лаборатории прикладной кибербезопасности Университета штата Луизиана Голден Джи Ричард III рассказал, что Claude отказался читать учебную лабораторную по кибербезопасности. Материал входил в учебник «Кибербезопасность в контексте» и содержал простые упражнения по криптографии. Автор жалобы отметил, что понимает риски применения ИИ в атаках, но отказ модели вычитать учебную работу для студентов считает абсурдным, особенно при подписке дороже $200 в месяц.

Не все ложные срабатывания связаны с кибербезопасностью. Один разработчик описал, как Claude Code выдавал ошибку политики при попытке прочитать PDF с рекламой игрушки Hasbro Shrek. Позже пользователь нашёл фрагмент внутреннего синтаксиса PDF, после которого модель прекращала работу. При расшифровке получалась бессмысленная фраза «персонаж или для Осла снизу». Судя по описанию, фильтр среагировал не на содержание документа, а на случайную техническую последовательность внутри файла.

Отдельный сбой затронул исследователей безопасности, которым Anthropic уже выдала разрешение на работу с киберзадачами. Один пользователь написал, что исключение работает в Claude Chat, но не действует при доступе к Opus через API в Claude Code. Формально человек получил право обходить часть ограничений для законных задач, но система безопасности всё равно блокировала запросы в другом интерфейсе.

Разработчики описывают один и тот же симптом: фильтр всё чаще принимает нормальную профессиональную работу за угрозу. Для Claude Code проблема особенно болезненна, потому что инструмент используют не для разговоров, а для разработки, анализа файлов, работы с репозиториями и автоматизации задач.

Рост числа жалоб частично можно объяснить расширением аудитории Claude: чем больше пользователей, тем чаще появляются сообщения об ошибках. Но характер обращений указывает не только на статистику. Claude Code видит нарушение правил там, где запрос касается законной разработки, обучения, научных данных или редактуры.

Есть версия, что фильтр безопасности слишком грубо оценивает входные данные. В утёкшем исходном коде Claude Code для анализа настроений использовались регулярные выражения, то есть поиск по шаблонам в тексте. Если классификатор правил работает похожим образом и реагирует на отдельные слова без полноценного контекста, ложные срабатывания почти неизбежны: термин из учебной лабораторной, кусок PDF-синтаксиса или фраза на русском могут выглядеть подозрительно для слишком простого фильтра.

Anthropic на запрос о комментарии не ответила. Пользователи Claude Code продолжают собирать примеры отказов в GitHub и пытаются понять, какие слова, файлы или форматы ломают работу. Opus 4.7 должна была показать, как Anthropic может безопасно приблизить к публичному выпуску модели уровня Mythos. Вместо этого первые недели превратили проверку новых фильтров в спор о том, где заканчивается безопасность и начинается бесполезность инструмента.
 
Источник новости
www.securitylab.ru

Похожие темы