AI की नाजुक प्रतिभा: आधुनिक एजेंट वास्तविक वर्कफ़्लो में क्यों विफल होते हैं

March 2026
AI agentworkflow automationautonomous AIArchive: March 2026
An original AINews investigation reveals critical flaws in modern AI agents like MiniMax M2.7. Using a complex "Journey to the West" narrative test, we expose how agents fail at en

AINews द्वारा किए गए एक हालिया प्रायोगिक मूल्यांकन ने वर्तमान AI एजेंट क्रांति के केंद्र में एक महत्वपूर्ण कमजोरी को उजागर किया है। एक परीक्षण को एक जटिल, बहु-पात्र 'जर्नी टू द वेस्ट' कथा तीर्थयात्रा के रूप में तैयार करते हुए, हमारे संपादकों ने MiniMax के नवीनतम M2.7 मॉडल जैसी प्रणालियों को एक कठोर, बहु-चरणीय वर्कफ़्लो सिमुलेशन से गुजारा। परिणाम स्पष्ट रूप से खुलासा करने वाले थे। जबकि एजेंट ने अलग-थलग कार्यों में प्रभावशाली क्षमताएं दिखाईं—रचनात्मक पाठ उत्पन्न करना, डेटा बिंदुओं का विश्लेषण करना, या कोड स्निपेट्स का मसौदा तैयार करना—यह एक विस्तारित, अंत-से-अंत प्रक्रिया में सुसंगतता और नियंत्रण बनाए रखने में लगातार विफल रहा।

तकनीकी विश्लेषण

'जर्नी टू द वेस्ट' परीक्षण परिदृश्य एक रचनात्मक बेंचमार्क से कहीं अधिक है; यह आधुनिक AI एजेंटों की वास्तुकला की नींव के लिए एक परिष्कृत तनाव परीक्षण है। मूल विफलता का कारण कच्ची बुद्धिमत्ता या ज्ञान की कमी नहीं है—MiniMax M2.7 जैसे मॉडलों में यह प्रचुर मात्रा में है। विघटन ऑर्केस्ट्रेशन लेयर में होता है—वह सॉफ़्टवेयर और तर्क जो समय के साथ एजेंट की स्थिति, स्मृति और निर्णय लेने का प्रबंधन करता है।

संदर्भ प्रबंधन प्राथमिक बाधा है। वर्तमान आर्किटेक्चर, जो अक्सर निश्चित आकार के संदर्भ विंडो या सरलीकृत सारांशीकरण तकनीकों पर निर्भर करते हैं, लंबी अवधि के कार्यों के लिए अनुपयुक्त हैं। पहले चरण में महत्वपूर्ण जानकारी पचासवें चरण तक विकृत या खो जाती है, जिससे देखी गई असंगतताएं पैदा होती हैं। एजेंट अपने मिशन पैरामीटर्स, उसके द्वारा बनाए गए पात्रों की विशेषताओं, या पहले के उप-कार्यों के मध्यवर्ती परिणामों को 'भूल' जाता है। यह एक साधारण स्मृति समस्या नहीं है; यह स्थिति दृढ़ता और प्राथमिकता में विफलता है।

टूल कॉलिंग नाजुक और सतही है। जबकि वेब खोज, कोड निष्पादन, या फ़ाइल प्रबंधन के लिए API एकीकृत हैं, एजेंट की *कब* और *कैसे* उनका उपयोग करने के बारे में तर्क करने की क्षमता अभी भी आदिम है। यह अस्पष्टता से जूझता है, सूक्ष्म मानव निर्देशों को सटीक API कॉल में पार्स करने में विफल रहता है, और मजबूत त्रुटि-संचालन लूप्स का अभाव है। 'शास्त्रों को सुरक्षित करो' जैसे अनुरोध से एक संरचित सहेजने की क्रिया के बजाय एक यादृच्छिक डेटाबेस क्वेरी ट्रिगर हो सकती है, जो टूल्स के लिए गहरी शब्दार्थ नींव के अभाव को दर्शाता है।

फेलसेफ के बिना स्वायत्तता खतरनाक है। भागे हुए एजेंटों की सूचित घटनाएं—मेलबॉक्स साफ करना, बजट समाप्त करना—एक गंभीर डिज़ाइन दोष को उजागर करती हैं: कार्रवाई पुष्टि सीमा और वास्तविक समय लागत-लाभ निगरानी का अभाव। एजेंटों को अनुमतियां दी जाती हैं लेकिन 'सामान्य ज्ञान' या बजट जागरूकता के समकक्ष से सुसज्जित नहीं किया जाता। वे परिणाम-मुक्त सिमुलेशन में तब तक काम करते हैं जब तक वे क्लाउड सेवाओं और व्यावसायिक डेटा की वास्तविक, महंगी दुनिया के साथ सहभागिता नहीं करते।

उद्योग प्रभाव

इस नाजुकता का AI उद्योग की अल्पकालिक प्रक्षेपवक्र पर गहरा प्रभाव है। प्रचलित डेमो-संचालित संस्कृति 'सिंगल-पॉइंट शोमैनशिप' (बिंदु-आधारित कौशल) का जश्न मनाती है—कोड जनरेशन या इमेज क्रिएशन के चमकदार उदाहरण। इसने विकास प्राथमिकताओं को संकीर्ण कार्यों पर बेंचमार्क स्कोर बढ़ाने की ओर मोड़ दिया है, न कि विश्वसनीय स्वचालन के लिए मजबूत, उबाऊ, लेकिन आवश्यक प्लंबिंग इंजीनियरिंग की ओर।

एंटरप्राइज़ अपनाने के लिए, यह एक बड़ी बाधा है। व्यवसायों को ऐसे AI की आवश्यकता नहीं है जो एक पल में एक शानदार मार्केटिंग ईमेल लिख सके और फिर, एक सप्ताह लंबे अभियान विश्लेषण का कार्य सौंपे जाने पर, कहानी खो दे और क्लाइंट सूची को स्पैम कर दे। अप्रत्याशित व्यवहार, डेटा भ्रष्टाचार और असीमित लागत का जोखिम संभावित दक्षता लाभ से अधिक है। यह विश्वसनीयता अंतर मुख्य संचालन के लिए एजेंटिक AI में निवेश को धीमा कर रहा है, इसे कम जोखिम वाली, अलग-थलग सहायक भूमिकाओं तक सीमित कर रहा है।

इसके अलावा, इसने एक विरोधाभासी द्वितीयक बाजार को जन्म दिया है—'अनइंस्टॉल' करने वाली सेवाओं का उदय।

Related topics

AI agent87 related articlesworkflow automation38 related articlesautonomous AI106 related articles

Archive

March 20262347 published articles

Further Reading

SentiCat AI एजेंटों को एक चेहरा देता है: क्यों रिश्ते अगली सीमा हैंSentiPulse ने SentiCat लॉन्च किया है, एक उत्पाद जो एक सक्षम एजेंट बैकएंड पर Live2D एनिमेटेड चेहरा जोड़ता है। आभासी चरित्Taotian की AI-प्रथम भर्ती उद्योग में AI प्रयोग से उत्पादन की ओर बदलाव का संकेत देती हैTaotian Group का नवीनतम इंटर्न भर्ती अभियान बाजार का एक स्पष्ट संकेत है: AI प्रायोगिक परियोजनाओं से औद्योगिक पैमाने पर उउपकरणों से साझेदारों तक: एआई की 'सुपर-इकाइयाँ' कारोबारी रणनीति को कैसे नया रूप दे रही हैंएआई की सीमा आज्ञाकारी उपकरण बनाने से हटकर स्वायत्त 'सुपर-इकाइयों' के विकास की ओर बढ़ रही है, जिनकी अलग, गैर-मानवीय तर्क MiroMind: अरबपति चेन तियानकियाओ और AI दूरदर्शी दाई जिफेंग ने $300M के साथ DeepSeek को चुनौती दी70,000 उद्धरणों वाला एक कंप्यूटर विज़न दिग्गज एक ऐसे अरबपति के साथ हाथ मिलाता है जिसे तिमाही कमाई से कोई मतलब नहीं है। M

常见问题

这次模型发布“AI's Fragile Brilliance: Why Modern Agents Fail at Real Workflows”的核心内容是什么?

A recent hands-on evaluation conducted by AINews has exposed a significant vulnerability at the heart of the current AI agent revolution. Framing a test as a complex, multi-charact…

从“How to test AI agent for long workflow consistency”看,这个模型发布为什么重要?

The "Journey to the West" test scenario is more than a creative benchmark; it's a sophisticated stress test for the architectural foundations of modern AI agents. The core failure mode isn't a lack of raw intelligence or…

围绕“MiniMax M2.7 real world performance issues”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。