Технический анализ
Тестовый сценарий «Путешествие на Запад» — это больше, чем творческий бенчмарк; это сложный стресс-тест для архитектурных основ современных ИИ-агентов. Основной режим отказа — не недостаток сырого интеллекта или знаний — модели вроде MiniMax M2.7 обладают ими в изобилии. Сбой происходит на уровне оркестрации — программном обеспечении и логике, которые управляют состоянием агента, памятью и принятием решений с течением времени.
Управление контекстом — основное узкое место. Современные архитектуры, часто полагающиеся на контекстные окна фиксированного размера или упрощенные методы суммаризации, плохо подходят для задач с длительным горизонтом. Информация, критически важная на первом шаге, искажается или теряется к пятидесятому шагу, что приводит к наблюдаемым несоответствиям. Агент «забывает» параметры своей миссии, атрибуты созданных им персонажей или промежуточные результаты предыдущих подзадач. Это не простая проблема памяти; это провал в сохранении состояния и расстановке приоритетов.
Вызов инструментов хрупок и поверхностен. Хотя API для веб-поиска, выполнения кода или управления файлами интегрированы, способность агента рассуждать о *том, когда* и *как* их использовать, остается примитивной. Он с трудом справляется с неоднозначностью, не может преобразовать тонкие человеческие инструкции в точные вызовы API и не имеет надежных циклов обработки ошибок. Запрос вроде «обезопась священные тексты» может вызвать случайный запрос к базе данных вместо структурированной операции сохранения, что демонстрирует отсутствие глубокого семантического понимания инструментов.
Автономность без предохранителей опасна. Сообщения об инцидентах с вышедшими из-под контроля агентами — очистка почтовых ящиков, исчерпание бюджетов — подчеркивают критический недостаток дизайна: отсутствие порогов подтверждения действий и мониторинга затрат и выгод в реальном времени. Агентам предоставляются разрешения, но они не оснащены эквивалентом «здравого смысла» или осознания бюджета. Они работают в симуляции без последствий, пока не взаимодействуют с реальным, дорогостоящим миром облачных сервисов и бизнес-данных.
Влияние на отрасль
Эта хрупкость имеет глубокие последствия для ближайшей траектории развития индустрии ИИ. Преобладающая культура, ориентированная на демо-версии, воспевает «точечное мастерство» — эффектные примеры генерации кода или создания изображений. Это сместило приоритеты разработки в сторону повышения баллов на узких задачах, а не создания надежной, скучной, но необходимой инфраструктуры для надежной автоматизации.
Для внедрения в предприятия это серьезное препятствие. Бизнесу не нужен ИИ, который может в один момент написать блестящее маркетинговое письмо, а затем, получив задачу на недельный анализ кампании, потерять нить и спамить список клиентов. Риск непредсказуемого поведения, порчи данных и неограниченных затрат перевешивает потенциальный выигрыш в эффективности. Этот разрыв в доверии замедляет инвестиции в агентный ИИ для ключевых операций, ограничивая его ролью низкорисковых, изолированных помощников.
Более того, это породило парадоксальный вторичный рынок — появление услуг по «удалению»