benchmark

  1. NewsMaker

    Новости Смотри, кто тут лидер. Moonshot AI выпустила Kimi K2 Thinking, которая обошла GPT-5 в бенчмарке Humanity’s Last Exam

    Новый «мыслящий» агент побил коммерческие модели в тестах на рассуждение. Компания Moonshot AI представил а новую открытую модель Kimi K2 Thinking — расширенную версию своего интеллектуального агента, способного выполнять рассуждения по цепочке и самостоятельно вызывать инструменты во время...
  2. NewsMaker

    Новости Память как у слона (или как в Obsidian). Искусственный интеллект научили запоминать новые факты без переобучения

    Новый каркас для памяти объединяет мир заметок и больших моделей. Современные языковые модели остаются «без памяти»: без внешних инструментов и специальных надстроек они не умеют запоминать новые факты и навыки без дополнительного обучения. Декларативные знания по-прежнему формируются в...