技术深度解析
杨帆的论点迫使我们从工作流视角(而非仅仅模型视角)重新审视AI系统的技术架构。当前范式——用户编写提示词、发送给大语言模型、接收回复——本质上是一种“人在回路中”的命令界面。而杨帆所称的“人机协作”新兴范式,则需要一个根本不同的技术栈:基于意图的编排层。
这一转变的核心是自主AI智能体的概念。与单次LLM调用不同,智能体系统必须将高层目标分解为子任务、执行它们(通常使用外部工具或API)、评估中间结果并迭代。这要求多智能体架构或复杂的规划模块。该方向上一个值得注意的开源项目是AutoGPT(GitHub: SignificantReparations/autogpt,目前拥有超过16万颗星)。AutoGPT尝试将LLM调用与任务分解和记忆串联起来,但在生产环境中仍显脆弱。一个更稳健的框架是LangGraph(GitHub: langchain-ai/langgraph,约1万颗星),它提供了一个基于图的状态机,用于构建包含循环、分支和人在回路检查点的智能体工作流。LangGraph的方法直接回应了杨帆的观点:它允许开发者设计人与机器之间的“生产关系”,指定AI何时应自主行动,何时必须将控制权交还给人类。
另一个关键技术组件是意图解析与目标分解引擎。与简单的提示词不同,该引擎必须理解歧义、上下文和用户偏好。像Anthropic这样的公司已经开创了“宪法AI”和“工具使用”能力,但真正的创新在于Cognition AI的Devin这类系统,它试图自主完成软件工程任务。Devin的架构包括一个代码编辑器、一个Shell和一个浏览器——全部由AI智能体控制,负责规划、调试和迭代。这里的技术挑战是可靠性:当前智能体系统在复杂的多步骤任务上成功率远低于50%。
| 系统 | 任务类型 | 多步任务成功率 | 需要人工干预 | 开源 |
|---|---|---|---|---|
| AutoGPT | 通用 | ~15% | 高 | 是 |
| LangGraph (with GPT-4) | 自定义工作流 | ~40% | 中 | 是 |
| Devin (Cognition AI) | 软件工程 | ~13.86% (SWE-bench) | 低 | 否 |
| Claude 3.5 + Tool Use | API编排 | ~35% | 中 | 否 |
数据要点: 该表格揭示了一个严峻的现实:即使是最好的智能体系统,在大多数复杂任务上也会失败。这不是模型质量问题——而是工作流设计和可靠性问题。杨帆的观点得到了验证:瓶颈不在于AI的原始智能,而在于能够优雅处理失败和不确定性的人机交互回路的设计。
关键玩家与案例研究
杨帆的论点并非抽象概念——它已经在主要玩家的战略中上演。微软已大力投资Copilot,这显然是一个人机协作工具。然而,微软的方法在每一步操作上仍基本保持“人在回路中”。杨帆会认为这仍是旧范式。更激进的转变出现在Cognition AI,其目标是用单个AI智能体取代整个软件工程团队。他们的Devin产品虽然仍处于萌芽阶段,但代表了“基于意图”的未来:管理者提出一个功能需求,Devin便自主编码、测试并部署。
商汤科技本身正在从纯AI研究实验室转向工作流解决方案提供商。其“SenseCore”平台正被重新定位,不仅是训练基础设施,更是企业工作流的编排层。杨帆的愿景表明,商汤将在模型规模上的竞争减少,而更多地在其AI如何无缝融入现有业务流程上展开竞争。
另一个关键案例是Replit,在线IDE。Replit的“Ghostwriter”AI助手正从代码补全工具(人使用AI)演变为能够根据描述构建整个应用的智能体(人机协作)。Replit的CEO Amjad Masad公开表示,目标是让“任何人都能构建软件”,这与杨帆关于价值链扁平化的观点一致。
| 公司 | 产品 | 范式 | 关键指标 | 商业模式 |
|---|---|---|---|---|
| 微软 | Copilot | 人在回路中 | 180万付费GitHub Copilot用户 | 按席位订阅 |
| Cognition AI | Devin | 基于意图的智能体 | 2100万美元种子轮,SWE-bench 13.86% | 基于成果(预估) |
| Replit | Ghostwriter | 混合 | 3000万+用户 | 免费增值+按席位 |
| 商汤科技 | SenseCore | 工作流编排 | 2021年IPO,正在转型 | 企业许可证 |
数据要点: 该表格展示了进展的谱系。微软拥有规模,但仍停留在旧