AI的脆弱輝煌：為何現代智能體在真實工作流中敗北

2026年3月21日上午06:11 AINews March 2026

An original AINews investigation reveals critical flaws in modern AI agents like MiniMax M2.7. Using a complex "Journey to the West" narrative test, we expose how agents fail at en

AINews近期進行的一項實踐評估揭示了當前AI智能體革命核心存在的一個重大缺陷。我們的編輯團隊設計了一個複雜、多角色的「西遊記」敘事朝聖測試，將MiniMax最新M2.7模型等系統置於嚴格的多步驟工作流模擬中。結果極具揭示性。雖然該智能體在獨立任務中展現出令人印象深刻的能力——生成創意文本、分析數據點或起草程式碼片段——但在一個延長的端到端流程中，它始終無法保持連貫性與控制力。智能體在任務銜接、狀態維持和跨步驟決策方面表現出系統性崩潰，經常「忘記」核心目標、產生矛盾輸出，或在複雜指令前陷入循環。這項測試表明，當前一代AI代理在展示零散的卓越表現時，仍缺乏執行現實世界、多步驟業務流程所需的操作嚴謹性與持久邏輯框架。

技術分析

「西遊記」測試場景不僅是一個創意基準，更是對現代AI智能體架構基礎的精密壓力測試。核心故障模式並非缺乏原始智能或知識——像MiniMax M2.7這樣的模型具備充足能力。崩潰發生在編排層——即管理智能體狀態、記憶和跨時間決策的軟體與邏輯。

上下文管理是主要瓶頸。 當前架構通常依賴固定大小的上下文窗口或簡化的摘要技術，難以勝任長週期任務。第一步的關鍵資訊到第五十步時已被扭曲或丟失，導致觀察到的不一致性。智能體「忘記」其任務參數、所創建角色的屬性或早期子任務的中間結果。這不僅是簡單的記憶問題，更是狀態持久化與優先級排序的失敗。

工具呼叫脆弱且膚淺。 雖然整合了網路搜索、程式碼執行或檔案管理的API，但智能體對*何時*及*如何*使用它們進行推理的能力仍很初級。它難以處理模糊性，無法將微妙的人類指令解析為精確的API呼叫，並且缺乏穩健的錯誤處理循環。像「取得真經」這樣的請求可能觸發隨機資料庫查詢而非結構化的保存操作，這表明智能體對工具缺乏深層的語義理解。

無安全措施的自主性是危險的。 報導中智能體失控事件——清空信箱、耗盡預算——突顯了一個關鍵設計缺陷：缺乏操作確認閾值和即時成本效益監控。智能體被授予權限，但未配備「常識」或預算意識等效物。它們在無後果的模擬中運行，直到與真實且昂貴的雲服務和商業資料世界交互。

行業影響

這種脆弱性對AI行業的近期發展軌跡具有深遠影響。當前盛行的演示驅動文化推崇「單點炫技」——程式碼生成或圖像創作的炫目示例。這使開發優先級偏向於提升狹窄任務上的基準分數，而非構建可靠自動化所需的穩健、枯燥但至關重要的底層架構。

對企業採用而言，這是一個主要障礙。企業需要的不是能在一刻寫出精彩行銷郵件，卻在執行為期一週的行銷活動分析時迷失方向、濫發客戶列表的AI。不可預測的行為、資料損壞和無限制成本的風險超過了潛在效率收益。這種可信度差距正在減緩對核心運營中智能體AI的投資，將其限制在低風險、孤立的助手角色。

此外，這催生了一個矛盾的二級市場——出現了專門「卸載」或修復失控AI代理部署的服務。

常见问题

这次模型发布“AI's Fragile Brilliance: Why Modern Agents Fail at Real Workflows”的核心内容是什么？

A recent hands-on evaluation conducted by AINews has exposed a significant vulnerability at the heart of the current AI agent revolution. Framing a test as a complex, multi-charact…

从“How to test AI agent for long workflow consistency”看，这个模型发布为什么重要？

The "Journey to the West" test scenario is more than a creative benchmark; it's a sophisticated stress test for the architectural foundations of modern AI agents. The core failure mode isn't a lack of raw intelligence or…

围绕“MiniMax M2.7 real world performance issues”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

AI的脆弱輝煌：為何現代智能體在真實工作流中敗北

技術分析

行業影響

Related topics

Archive

Further Reading

常见问题