Token vs. DAA：AI成功度量标准之争，谁才是真正的王者？

AI行业长期以来痴迷于一个看似客观的单一指标：Token吞吐量。模型每秒能生成的Token越多，就被认为越强大。这一观点由英伟达CEO黄仁勋力挺，将AI视为原始计算资源——一种新型电力，其价值与体积和速度直接成正比。然而，一股强大的反叙事正从意想不到的角落涌现：百度。CEO李彦宏公开将公司AI战略转向一个新指标：每日活跃智能体（DAA）。这并非简单的用户数重命名。DAA衡量的是每天被真实用户用于完成真实任务的自主、面向任务的AI智能体数量。它将焦点从“多少”转移到了“多好”——从原始算力转向实际效用。这场辩论的核心在于：AI的成功究竟取决于它能多快生成文本，还是它能多好地完成工作？

技术深度解析

Token与DAA之争根植于根本不同的架构和运营理念。

Token中心论（英伟达范式）： 该观点将LLM视为一个黑箱，将输入Token转换为输出Token。关键绩效指标（KPI）是每秒Token数（TPS）、首Token延迟（TTFT）和每百万Token成本。工程重点在于最大化硬件利用率（FLOPS），通过推测解码和KV缓存优化等技术降低延迟，以及扩展模型规模和上下文窗口。其价值主张很简单：更快、更便宜、更大规模的文本生成。这是一个供给侧指标，奖励原始效率。

DAA中心论（百度范式）： 该观点将LLM视为智能体的“大脑”。智能体是一个软件程序，利用LLM感知环境、推理、规划并执行行动以实现用户目标。KPI发生了巨大转变，包括：
* 任务成功率： 智能体是否完成了用户的要求？
* 用户留存率： 用户是否每天回来使用智能体？
* 平均会话时长： 用户与智能体互动的时间有多长？
* 工具调用准确率： 智能体调用外部API（例如预订航班、查询数据库）的可靠性如何？

此处的工程重点并非原始Token生成，而是智能体框架。这涉及：
* 规划与推理： 实现ReAct（推理+行动）或思维树等架构，使智能体能够分解复杂任务。
* 记忆管理： 构建长期和短期记忆存储（通常使用Chroma或Milvus等向量数据库），以便智能体记住用户偏好和过往互动。
* 工具集成： 创建稳健、具备错误处理能力的接口，供智能体调用外部API和数据库。
* 安全与对齐： 确保智能体不会在现实世界中采取有害或非预期的行动。

体现DAA中心论的一个相关开源项目是AutoGPT（GitHub: Significant Engine，约16.5万星）。它是最早展示自主智能体的项目之一，能够通过链式调用LLM来实现目标，例如研究一个主题并撰写报告。最近，CrewAI（GitHub: joaomdmoura/crewAI，约2.5万星）因编排多个专业智能体协同处理复杂工作流而获得关注。这些项目表明，真正的创新发生在编排层，而不仅仅是模型层。

数据表：Token vs. DAA 性能指标

| 指标 | Token中心论（例如GPT-4o） | DAA中心论（例如百度文心智能体） |
|---|---|---|
| 主要KPI | 每秒Token数 | 每日活跃智能体（DAA） |
| 延迟关注点 | 首Token延迟（TTFT） | 端到端任务完成时间 |
| 成本驱动因素 | 计算（GPU小时） | API调用 + 工具执行 + 内存存储 |
| 优化目标 | 最大化吞吐量 | 最大化任务成功率与用户留存率 |
| 失败模式 | 幻觉、不连贯文本 | 智能体陷入循环、未能正确调用工具 |
| 基准测试 | MMLU, HumanEval, MT-Bench | AgentBench, WebArena, 自定义任务特定测试 |

数据要点： 该表格展示了工程优先级的根本性转变。一个在Token吞吐量（高TPS、低成本）上表现出色的模型，如果无法规划、使用工具或记住上下文，仍可能作为智能体失败。DAA中心论要求一套更贴近现实世界效用的新基准和优化目标。

关键玩家与案例研究

Token vs. DAA之争体现在行业两位最具影响力的人物身上。

黄仁勋（英伟达）- Token布道者： 黄仁勋的整个商业模式建立在Token中心论之上。英伟达在AI淘金热中出售“铲子”。更多的Token意味着更高的GPU需求。他的主题演讲充满了显示Token生成指数级增长的图表。这一观点得到了主要云提供商（AWS、Azure、GCP）的认同，它们按小时出售计算资源。它们的动机是保持“Token洪流”的流动。

李彦宏（百度）- DAA倡导者： 李彦宏采取了逆向立场。百度拥有自己的LLM——文心4.0，但它并未在原始模型规模上与GPT-4或Claude竞争。相反，百度正积极构建一个智能体生态系统。其战略包括：
1. 将智能体嵌入现有产品： 百度搜索、地图和云正在围绕智能体接口进行重构。用户可以让百度地图智能体“规划一次杭州周末游，包含餐厅和酒店，预算500美元以内”，智能体将执行一个多步骤工作流。
2. 推出智能体平台： 百度发布了一个平台，供第三方开发者在百度生态系统中构建和部署自己的智能体，类似于“AI智能体的Shopify”。该平台的成功与否，将直接以DAA衡量。

时间归档

延伸阅读

常见问题

这次模型发布“Token vs. DAA: The Battle Over AI's True Metric of Success”的核心内容是什么？

The AI industry has long been obsessed with a single, seemingly objective metric: token throughput. The more tokens a model can generate per second, the more powerful it is conside…

从“What is Daily Active Agents (DAA) and how is it calculated?”看，这个模型发布为什么重要？

The debate between Token and DAA is rooted in fundamentally different architectural and operational philosophies. Token-Centric View (The NVIDIA Paradigm): This view treats the LLM as a black box that converts input toke…

围绕“Baidu ERNIE agent platform vs OpenAI GPTs: which is better for developers?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。