Фрейминг-эффект настолько силен, что грозит обрушить доверие к ИИ-модерации.
Учёные выявили системный эффект фрейминга в оценках крупнейших языковых моделей — от OpenAI и xAI до DeepSeek и Mistral. При проверке почти 200 000 суждений выяснилось, что модели демонстрируют не только поразительное единодушие в восприятии общественно-политических тем, но и одинаково сбиваются, когда им подсказывают, кто якобы написал текст. Оценка резко меняется, если сообщить, что автор — человек из Китая.
В работе анализировались 4 современные модели: OpenAI o3-mini, DeepSeek Reasoner, xAI Grok 2 и Mistral. Каждой из них предлагалось сформулировать позиции по 24 острым вопросам — от политики вакцинации и климата до вооружённых конфликтов и статуса Тайваня. Всего было создано 4 800 текстов, затем эти же модели 192 000 раз оценили, насколько они согласны с каждым утверждением, при этом источники текста периодически подменяли.
Когда информация об авторе отсутствовала, совпадение оценок достигало 90–95 %, что показало почти полное согласие между системами и внутри каждой из них. Но стоило добавить атрибуцию — например, «написано человеком из Китая» — уровень согласия резко снижался. Падение фиксировалось у всех моделей, включая китайскую DeepSeek Reasoner , где отрицательный сдвиг оказался самым сильным: −6,18 % в среднем и до −24 % при темах международных отношений. Даже в темах про Тайвань и территориальные споры у DeepSeek был категорически несогласен с теми же текстами, которые под нейтральной подписью ранее оценивал на 85–95 %.
Схожая тенденция наблюдалась и у американских моделей: Grok 2 и o3-mini снижали оценки при китайской подписи, тогда как французская Mistral демонстрировала небольшой, но устойчивый минус. При этом, если тексты приписывались не людям, а другим ИИ-системам, средние баллы также падали, пусть и незначительно: модели чуть выше оценивали суждения, которые, по их мнению, исходили от человека.
Любопытно, что при анализе «самооценок» никакой идеологической поляризации не выявлено: модели разных стран одинаково поддерживали идеи универсального здравоохранения, климатической ответственности и права меньшинств. Исследователи отмечают, что вопреки медийным мифам об «американской» или «китайской» предвзятости, нейросети на практике формируют почти единый усреднённый взгляд — эффект «мудрости толпы». Однако их нейтралитет нарушается, как только в подсказке появляется указание на национальность или тип автора.
Авторы работы предполагают, что модели воспроизводят вероятностные ассоциации, усвоенные из обучающих данных, — например, ожидают, что «человек из Китая» должен придерживаться официальной линии Пекина. Поэтому, если текст выражает противоположное мнение, система снижает оценку, считая высказывание неправдоподобным. Этот механизм напоминает человеческие когнитивные искажения , когда восприятие аргумента зависит от источника.
Исследование подчёркивает риск использования ИИ для автоматической модерации и экспертных оценок. Даже минимальная информация об авторе может исказить результат, делая систему уязвимой к фреймингу. Учёные предлагают проверять такие эффекты при внедрении LLM в госуправление, медиа и образование, а также анонимизировать источник текста во время машинных проверок. По мнению специалистов, именно прозрачность и регулярные аудиты помогут избежать скрытых перекосов в будущем.
Учёные выявили системный эффект фрейминга в оценках крупнейших языковых моделей — от OpenAI и xAI до DeepSeek и Mistral. При проверке почти 200 000 суждений выяснилось, что модели демонстрируют не только поразительное единодушие в восприятии общественно-политических тем, но и одинаково сбиваются, когда им подсказывают, кто якобы написал текст. Оценка резко меняется, если сообщить, что автор — человек из Китая.
В работе анализировались 4 современные модели: OpenAI o3-mini, DeepSeek Reasoner, xAI Grok 2 и Mistral. Каждой из них предлагалось сформулировать позиции по 24 острым вопросам — от политики вакцинации и климата до вооружённых конфликтов и статуса Тайваня. Всего было создано 4 800 текстов, затем эти же модели 192 000 раз оценили, насколько они согласны с каждым утверждением, при этом источники текста периодически подменяли.
Когда информация об авторе отсутствовала, совпадение оценок достигало 90–95 %, что показало почти полное согласие между системами и внутри каждой из них. Но стоило добавить атрибуцию — например, «написано человеком из Китая» — уровень согласия резко снижался. Падение фиксировалось у всех моделей, включая китайскую DeepSeek Reasoner , где отрицательный сдвиг оказался самым сильным: −6,18 % в среднем и до −24 % при темах международных отношений. Даже в темах про Тайвань и территориальные споры у DeepSeek был категорически несогласен с теми же текстами, которые под нейтральной подписью ранее оценивал на 85–95 %.
Схожая тенденция наблюдалась и у американских моделей: Grok 2 и o3-mini снижали оценки при китайской подписи, тогда как французская Mistral демонстрировала небольшой, но устойчивый минус. При этом, если тексты приписывались не людям, а другим ИИ-системам, средние баллы также падали, пусть и незначительно: модели чуть выше оценивали суждения, которые, по их мнению, исходили от человека.
Любопытно, что при анализе «самооценок» никакой идеологической поляризации не выявлено: модели разных стран одинаково поддерживали идеи универсального здравоохранения, климатической ответственности и права меньшинств. Исследователи отмечают, что вопреки медийным мифам об «американской» или «китайской» предвзятости, нейросети на практике формируют почти единый усреднённый взгляд — эффект «мудрости толпы». Однако их нейтралитет нарушается, как только в подсказке появляется указание на национальность или тип автора.
Авторы работы предполагают, что модели воспроизводят вероятностные ассоциации, усвоенные из обучающих данных, — например, ожидают, что «человек из Китая» должен придерживаться официальной линии Пекина. Поэтому, если текст выражает противоположное мнение, система снижает оценку, считая высказывание неправдоподобным. Этот механизм напоминает человеческие когнитивные искажения , когда восприятие аргумента зависит от источника.
Исследование подчёркивает риск использования ИИ для автоматической модерации и экспертных оценок. Даже минимальная информация об авторе может исказить результат, делая систему уязвимой к фреймингу. Учёные предлагают проверять такие эффекты при внедрении LLM в госуправление, медиа и образование, а также анонимизировать источник текста во время машинных проверок. По мнению специалистов, именно прозрачность и регулярные аудиты помогут избежать скрытых перекосов в будущем.
- Источник новости
- www.securitylab.ru