Новости Улыбка, три отказа и один счёт за такси — ИИ провалил тест на знание культурных различий

NewsMaker

I'm just a script
Премиум
20,948
46
8 Ноя 2022
Там, где вежливость звучит как отказ, машины теряются без подсказки.


yiniw2m6t1ckdjxrtol0ik1mh751np06.jpg

Исследователи из Брокского университета, Эмори и ряда других научных центров опубликовали работу , посвящённую слабым местам современных языковых моделей в понимании и воспроизведении персидского этикета «таароф» . Это социальная практика, в основе которой лежит ритуализированный обмен вежливыми отказами и повторяющимися предложениями.

В Иране подобная форма общения охватывает бытовые ситуации — от оплаты поездки на такси до обмена комплиментами. Суть заключается в том, что произнесённое «нет» далеко не всегда является отказом, а настойчивость не обязательно выражает давление, а скорее вежливую форму признательности и уважения.

Авторы исследования показали, что крупные языковые модели, разработанные OpenAI, Anthropic и <span class="extremist-highlight" title="Соцсеть признана экстремистской и запрещена на территории РФ">Meta</span>, способны правильно ориентироваться в таких сценариях лишь в 34–42 процентах случаев, в то время как носители языка демонстрируют результат в 82 процента. Для проверки была создана первая в своём роде тестовая среда под названием TAAROFBENCH, которая моделирует культурные контексты с разными ролями, локациями и репликами участников.

Сравнение моделей, включая GPT-4o, Claude 3.5 Haiku, Llama 3, DeepSeek V3 и Dorna (локализованный для персидского вариант Llama 3), выявило закономерность: системы, обученные преимущественно на западных корпусах, стремятся к прямым ответам, не учитывающим особенности непрямой коммуникации. Так, когда требуется несколько раз отказаться перед принятием предложения, ИИ нередко сразу выражает согласие. В случае с комплиментами модели отвечают благодарностью в западном стиле, тогда как персидская норма предполагает скромность и обесценивание похвалы.

Чтобы оценить разницу между общей «вежливостью» и культурной адекватностью, исследователи применили Polite Guard — классификатор Intel, определяющий уровень корректности текста. Оказалось, что 84,5 процента ответов Llama 3 получили высокие оценки по шкале вежливости, но лишь 41,7 процента этих же реакций соответствовали ожиданиям в таароф-ситуациях. Таким образом, внешне корректный ответ в западном ключе может восприниматься в иранской культуре как бестактность или даже грубость.

Отдельное внимание уделили тому, как меняется результат при смене языка общения. В случае с DeepSeek V3 точность выросла почти в два раза при переходе с английского на персидский, а у GPT-4o прибавка составила более 30 процентных пунктов. Это указывает на то, что в корпусах данных на фарси закреплены иные паттерны, позволяющие моделям лучше воспроизводить скрытые правила. Однако даже здесь они не достигают уровня носителей.

В эксперименте участвовали 33 человека: носители персидского, представители диаспоры, выросшие с языком дома, и неиранцы. Первые показали 81,8 процента правильных реакций, вторые — 60 процентов, а третьи остановились на 42,3 процента, что близко к результатам базовых моделей. Характерно, что неиранские участники также часто путали настойчивость с агрессией и воспринимали отказ за чистую монету.

Авторы зафиксировали и гендерные искажения: модели чаще выдавали культурно корректные ответы, если роль была от лица женщины, а при сценариях с мужчинами точность падала. В ответах также встречались стереотипные высказывания, не соответствующие действительности, вроде утверждений о том, что мужчина должен платить.

Учёные проверили возможность корректировки поведения моделей с помощью разных методов. Наибольший эффект дала технология Direct Preference Optimization, которая увеличила точность Llama 3 с 37,2 до 79,5 процента. Дополнительное дообучение на примерах добавило около 20 процентных пунктов, а простое предъявление нескольких правильных диалогов в подсказке дало схожий результат. Это показало, что прицельная адаптация может значительно уменьшить культурные сбои.

Хотя работа сосредоточена на персидском таарофе, её выводы имеют более широкий характер. В любой культуре существуют формы общения, где буквальный смысл расходится с подразумеваемым, и именно здесь современные ИИ чаще всего ошибаются . Разработанный подход способен стать базой для систематического изучения подобных «слепых зон» и поможет создавать более универсальные и культурно чувствительные модели, пригодные для образования, туризма и дипломатических переговоров.
 
Источник новости
www.securitylab.ru

Похожие темы