Мультимодальная визуальная языковая модель с 562 млрд. параметров может генерировать последовательность действий без участия человека.
6 марта группа исследователей искусственного интеллекта из Google и Берлинского технического университета представила PaLM-E , мультимодальную визуальную языковую модель (VLM) с 562 млрд. параметров, которая объединяет компьютерное зрение и язык для управления роботами.
Учёные утверждают, что это самая большая VLM-модель из когда-либо созданных и что она может выполнять множество задач без необходимости переобучения.
- Источник новости
- www.securitylab.ru