Новости «Мы не такие уникальные, как думали». ИИ понял язык на уровне лингвистов — и поставил под сомнение границы человеческого мышления

NewsMaker

I'm just a script
Премиум
21,782
46
8 Ноя 2022
Речь была последним козырем человечества. Но умные машины научились проникать и туда.


8bd8svngsdvdiyelyms3pasyz0xrw6tf.jpg

Какие способности делают человека особенным? На протяжении веков главным кандидатом считалась речь. Ещё Аристотель называл человека «животным, наделённым языком». И хотя сегодня искусственные нейросети вроде ChatGPT умеют подражать естественной речи, лингвисты по-прежнему пытаются понять, остаются ли у человеческого языка свойства, которых не удаётся воспроизвести ни животным, ни машинам.

Особый интерес вызывает вопрос: способен ли искусственный интеллект рассуждать о самом языке, а не просто использовать его. Многие учёные-лингвисты считают, что нет. Ещё в 2023 году Ноам Хомский с коллегами писал, что настоящие закономерности речи слишком сложны, чтобы их можно было освоить путём простого обучения на огромных массивах данных. По их мнению, нейросети могут говорить , но не способны осмысливать сам процесс коммуникации.

Однако недавнее исследование , проведённое Гашпером Бегушем из Калифорнийского университета в Беркли, его коллегой Максимилианом Домбковским и Райаном Роудсом, поставило это мнение под сомнение. Учёные протестировали несколько больших языковых моделей на ряде заданий, имитирующих лингвистический анализ. Одно из испытаний требовало от модели обобщить правила выдуманного языка. Большинство систем не справилось, но одна — OpenAI o1 — показала результат, сравнимый с уровнем аспиранта-лингвиста: она умело строила синтаксические деревья, справлялась с многозначностью и использова слаложные структуры вроде рекурсии.

Чтобы исключить влияние заранее известных данных, исследователи создали серию из четырёх тестов, основанных на принципах синтаксического анализа Хомского. В трёх случаях модели нужно было разбирать специально придуманные предложения при помощи древовидных схем, где предложение делится на именные и глагольные группы, а затем — на отдельные части речи. Четвёртый тест касался рекурсии — способности вкладывать одно высказывание в другое. Например, простое предложение «Небо голубое» можно усложнить до «Джейн сказала, что небо голубое» или даже до «Мария спросила, знает ли Сэм, что Омар слышал, как Джейн сказала, что небо голубое». Теоретически цепочка может быть бесконечной, и именно это считается ключевым свойством человеческого языка.

Рекурсия встречается и в природе — например, на острове Виктория в Канаде есть участок суши, который лежит в озере на острове, находящемся в другом озере. Подобные «острова в островах» - самая простая визуальная метафора. Хомский считал рекурсию не только центральной особенностью грамматики, но и возможным признаком уникальности человеческого мышления. Ведь именно она позволяет из конечного набора слов и правил строить бесконечное множество новых высказываний.

В эксперименте Бегуша языковые модели получили 30 оригинальных предложений с трудными примерами вложенных конструкций, включая фразы вроде «Астрономия, которую изучали древние, которых мы почитаем, не была отделена от астрологии». Модель o1 сумела правильно выстроить структуру этого высказывания, выделив все уровни вложенности, а затем самостоятельно добавила ещё один слой: «Астрономия, которую изучали древние, которых мы почитаем и которые жили в землях, нам дорогих, не была отделена от астрологии». Исследователи не ожидали увидеть подобную способность к «металингвистическому» рассуждению — то есть к анализу языка на уровне, сопоставимом с человеческим.

Не менее удивительным оказалось умение o1 различать неоднозначность. В оригинале исследователи приводят пример предложения “Rowan fed his pet chicken”. В английском фраза может означать две совершенно разные вещи: либо Роуэн накормил своего питомца — цыплёнка, либо он дал еду своему питомцу, и еда представляла собой мясо курицы. На русском языке эта игра смыслов почти теряется, потому что падежи и контекст обычно снимают подобные неясности.

Чтобы показать, что модель действительно понимает оба варианта, исследователи попросили её построить два синтаксических дерева. В первом случае слово chicken трактуется как живое существо, являющееся питомцем, а во втором — как приготовленная пища, являющаяся объектом кормления. Модель o1 сумела сформировать обе структуры, соответствующие этим значениям, тем самым продемонстрировав способность не просто подбирать слова, а анализировать контекст и удерживать одновременно несколько возможных интерпретаций. Для вычислительных систем это необычайно трудно, потому что требует не только знаний грамматики, но и элементарного здравого смысла, позволяющего отличить цыплёнка-друга от цыплёнка-ужина.

Следующий этап испытаний касался фонологии — раздела лингвистики, изучающего звуковую систему языка и правила образования фонем. Чтобы исключить влияние обучения, Бегуш и его коллеги придумали 30 полностью вымышленных мини-языков по 40 слов каждый. В одном из них встречались такие формы, как θalp, ʃebre, ði̤zṳ и ga̤rbo̤nda̤. Задача модели заключалась в том, чтобы выявить скрытую закономерность. o1 определила, что «гласный становится придыхательным, если перед ним стоит звонкий шумный согласный» — закономерность, не существовавшая нигде ранее и не встречавшаяся в обучающих данных.

Главный вопрос, который остаётся открытым, — где проходит предел лингвистических возможностей LLM. Будут ли языковые модели совершенствоваться бесконечно, просто увеличивая вычислительную мощность и объём данных, или человеческая речь остаётся продуктом эволюции, ограниченной нашим биологическим видом? Новые результаты показывают, что ИИ уже способен выполнять сложный анализ структуры языка, но пока не создаёт ничего принципиально нового и не предлагает открытий, которых не сделали люди.

Если развитие действительно зависит лишь от масштабов вычислений, Бегуш полагает, что рано или поздно искусственные модели превзойдут нас и в этой области. Однако Мортенсен замечает, что современные системы всё ещё ограничены самой природой своего обучения: они предсказывают следующую единицу текста, но им трудно выходить за рамки заложенного алгоритма. Тем не менее он уверен, что со временем появятся модели, умеющие делать обобщения на основе меньшего количества данных и проявлять больше творческой гибкости.

«Мы постепенно стираем черту между тем, что считалось сугубо человеческим, и тем, что теперь доступно машинам, — говорит Бегуш. — Похоже, мы не такие уж уникальные, как привыкли думать».
 
Источник новости
www.securitylab.ru

Похожие темы