技术深度解析
Token与DAA之争根植于根本不同的架构和运营理念。
Token中心论(英伟达范式): 该观点将LLM视为一个黑箱,将输入Token转换为输出Token。关键绩效指标(KPI)是每秒Token数(TPS)、首Token延迟(TTFT)和每百万Token成本。工程重点在于最大化硬件利用率(FLOPS),通过推测解码和KV缓存优化等技术降低延迟,以及扩展模型规模和上下文窗口。其价值主张很简单:更快、更便宜、更大规模的文本生成。这是一个供给侧指标,奖励原始效率。
DAA中心论(百度范式): 该观点将LLM视为智能体的“大脑”。智能体是一个软件程序,利用LLM感知环境、推理、规划并执行行动以实现用户目标。KPI发生了巨大转变,包括:
* 任务成功率: 智能体是否完成了用户的要求?
* 用户留存率: 用户是否每天回来使用智能体?
* 平均会话时长: 用户与智能体互动的时间有多长?
* 工具调用准确率: 智能体调用外部API(例如预订航班、查询数据库)的可靠性如何?
此处的工程重点并非原始Token生成,而是智能体框架。这涉及:
* 规划与推理: 实现ReAct(推理+行动)或思维树等架构,使智能体能够分解复杂任务。
* 记忆管理: 构建长期和短期记忆存储(通常使用Chroma或Milvus等向量数据库),以便智能体记住用户偏好和过往互动。
* 工具集成: 创建稳健、具备错误处理能力的接口,供智能体调用外部API和数据库。
* 安全与对齐: 确保智能体不会在现实世界中采取有害或非预期的行动。
体现DAA中心论的一个相关开源项目是AutoGPT(GitHub: Significant Engine,约16.5万星)。它是最早展示自主智能体的项目之一,能够通过链式调用LLM来实现目标,例如研究一个主题并撰写报告。最近,CrewAI(GitHub: joaomdmoura/crewAI,约2.5万星)因编排多个专业智能体协同处理复杂工作流而获得关注。这些项目表明,真正的创新发生在编排层,而不仅仅是模型层。
数据表:Token vs. DAA 性能指标
| 指标 | Token中心论(例如GPT-4o) | DAA中心论(例如百度文心智能体) |
|---|---|---|
| 主要KPI | 每秒Token数 | 每日活跃智能体(DAA) |
| 延迟关注点 | 首Token延迟(TTFT) | 端到端任务完成时间 |
| 成本驱动因素 | 计算(GPU小时) | API调用 + 工具执行 + 内存存储 |
| 优化目标 | 最大化吞吐量 | 最大化任务成功率与用户留存率 |
| 失败模式 | 幻觉、不连贯文本 | 智能体陷入循环、未能正确调用工具 |
| 基准测试 | MMLU, HumanEval, MT-Bench | AgentBench, WebArena, 自定义任务特定测试 |
数据要点: 该表格展示了工程优先级的根本性转变。一个在Token吞吐量(高TPS、低成本)上表现出色的模型,如果无法规划、使用工具或记住上下文,仍可能作为智能体失败。DAA中心论要求一套更贴近现实世界效用的新基准和优化目标。
关键玩家与案例研究
Token vs. DAA之争体现在行业两位最具影响力的人物身上。
黄仁勋(英伟达)- Token布道者: 黄仁勋的整个商业模式建立在Token中心论之上。英伟达在AI淘金热中出售“铲子”。更多的Token意味着更高的GPU需求。他的主题演讲充满了显示Token生成指数级增长的图表。这一观点得到了主要云提供商(AWS、Azure、GCP)的认同,它们按小时出售计算资源。它们的动机是保持“Token洪流”的流动。
李彦宏(百度)- DAA倡导者: 李彦宏采取了逆向立场。百度拥有自己的LLM——文心4.0,但它并未在原始模型规模上与GPT-4或Claude竞争。相反,百度正积极构建一个智能体生态系统。其战略包括:
1. 将智能体嵌入现有产品: 百度搜索、地图和云正在围绕智能体接口进行重构。用户可以让百度地图智能体“规划一次杭州周末游,包含餐厅和酒店,预算500美元以内”,智能体将执行一个多步骤工作流。
2. 推出智能体平台: 百度发布了一个平台,供第三方开发者在百度生态系统中构建和部署自己的智能体,类似于“AI智能体的Shopify”。该平台的成功与否,将直接以DAA衡量。