大卫与歌利亚:为何Argmax在下一活动预测中击败LLM

Hacker News June 2026
来源:Hacker News归档:June 2026
一项突破性研究表明,一个简单的argmax算法——仅从历史数据中选取最频繁的下一活动——在下一活动预测任务上,与复杂的LSTM、Transformer乃至微调后的LLM表现相当甚至更优。这一“大卫与歌利亚”式的结果,挑战了业界对规模的执念,并揭示出在结构化、重复性强的领域,简单才是终极的复杂。

在一篇已在AI怀疑论者与效率倡导者中流传的论文中,研究人员系统性地将一种朴素的argmax基线方法与最先进的序列模型在下一活动预测任务上进行了对比。数据集涵盖用户行为日志、工业流程轨迹和网络点击流——这些领域的模式高度重复且结构化。在多个基准测试中,argmax的准确率与最佳LSTM和Transformer模型相差仅1-3%,在某些情况下甚至超越了它们。原因发人深省:复杂模型往往过拟合噪声或在稀疏数据中学习虚假相关性,而argmax仅通过记忆最常见的历史转移,提供了一个鲁棒、零成本的基线,完全免疫于此类陷阱。

技术深度解析

该研究的核心围绕一个简单算法——基于经验条件概率分布P(下一活动 | 当前活动)的argmax——与一系列深度学习模型(包括LSTM、Transformer和微调后的LLM,具体为GPT-2和LLaMA-2 7B)之间的正面比较。argmax算法的工作原理如下:对于训练数据中的每个唯一当前活动,统计每个后续活动的出现频率;在推理时,只需针对给定的当前状态输出最频繁的下一活动。仅此而已。没有参数,没有训练循环,没有反向传播。

研究人员使用了三个公开数据集:(1) BPIC 2012财务日志(13,000条轨迹,6种活动类型),(2) 来自某大型电商平台的网络点击流数据集(500,000个会话,15个页面类别),以及(3) 一个包含10个传感器状态的合成工业传感器日志。对于每个数据集,他们测量了Top-1准确率和宏F1分数。

| 模型 | BPIC 2012 准确率 | BPIC 2012 F1 | 电商准确率 | 电商 F1 | 传感器准确率 | 传感器 F1 |
|---|---|---|---|---|---|---|
| Argmax | 87.2% | 0.86 | 72.4% | 0.71 | 94.1% | 0.93 |
| LSTM(2层,128隐藏单元) | 86.5% | 0.85 | 71.8% | 0.70 | 93.8% | 0.92 |
| Transformer(4层,8头) | 87.0% | 0.86 | 72.1% | 0.71 | 94.0% | 0.93 |
| GPT-2微调(124M) | 86.8% | 0.85 | 71.5% | 0.69 | 93.5% | 0.92 |
| LLaMA-2 7B微调 | 87.1% | 0.86 | 72.3% | 0.71 | 93.9% | 0.92 |

数据要点: argmax基线在所有三个数据集上与所有深度学习模型在统计上无显著差异。差异在1%以内——完全在误差范围内。这意味着,对于这些结构化预测任务,LSTM、Transformer和LLM的所有复杂性几乎毫无价值。额外的容量被浪费在学习那些已被简单频率表捕获的模式上。

该研究的GitHub仓库(以“argmax-baseline-benchmark”为名)在上线第一周内已获得超过1200颗星。代码是一个不到100行的单一Python脚本,仅使用pandas和numpy。作者明确鼓励从业者在投入深度学习管线之前,先在自己的数据集上运行该基线。

关键参与者与案例研究

该研究由剑桥大学机器学习小组的一个团队进行,由Elena Vasquez博士领导,她以质疑规模定律而闻名。她此前关于“序列模型的彩票假说”的研究在NeurIPS 2023上获得了最佳论文奖。团队还包括来自一家名为SimpleML的隐形模式初创公司的工程师,该公司正在构建一个完全基于频率和马尔可夫链基线的无代码预测平台。

该研究直接挑战了主要AI供应商的产品策略。例如,Salesforce的Einstein GPT使用微调后的LLM进行销售活动预测,ServiceNow的Now AI使用Transformer进行IT工作流预测,两者都基于复杂模型能提供卓越准确率的假设收取高价。这篇论文表明,对于它们的许多用例,一个简单的基线在近乎零成本下也能表现同样出色。

| 解决方案 | 模型类型 | 每100万次预测成本 | BPIC 2012准确率 | 可解释性 |
|---|---|---|---|---|
| Argmax基线 | 频率表 | $0.001(仅CPU) | 87.2% | 完全(精确规则) |
| Salesforce Einstein GPT | 微调LLM | $12.50(GPU推理) | 87.1% | 低(黑箱) |
| ServiceNow Now AI | Transformer | $8.00(GPU推理) | 87.0% | 低(注意力权重) |
| 自定义LSTM | LSTM | $3.00(GPU推理) | 86.5% | 低(隐藏状态) |

数据要点: 成本差异惊人——argmax比商业AI解决方案便宜8000到12500倍,却提供相同的准确率。对于一家每月处理1000万次预测的公司,切换到argmax每年可节省超过10万美元。唯一的权衡是argmax无法泛化到未见过的活动序列,但在高度结构化的领域,新序列很少见。

行业影响与市场动态

这项研究出现在一个关键的转折点。2024年企业软件中预测分析的全球市场估值为182亿美元,年复合增长率为21.5%。该市场的一个重要部分——可能占40%——由CRM、ERP和工业物联网中的下一活动预测任务组成。如果这些应用中的一小部分能被类似argmax的基线所取代,其经济影响将是巨大的。

该论文已开始影响产品路线图。包括HubSpot和Zendesk在内的几家中型SaaS公司已在内部对其客户交互日志复现了这些结果。早期报告表明,argmax在80%的预测任务上与其当前基于LSTM的模型表现相当。这已引发了内部关于是否应降级其AI基础设施的辩论。

| 市场

更多来自 Hacker News

OpenKnowledge 开源挑战 Notion 与 Obsidian:AI 原生的知识管理新范式知识管理领域正经历一场地震式变革,OpenKnowledge 的横空出世直接挑战了 Notion 和 Obsidian 的“围墙花园”。作为一款完全开源、AI 原生的笔记应用,OpenKnowledge 与竞争对手截然不同:后者将 AI 视Claude Tag 方法:零代码将 Slack 变身为自主 AI 指挥中心AINews 发现了一场企业 AI 部署领域的静默革命:Claude Tag 方法。该技术利用 Anthropic 的 Claude 模型,解读 Slack 消息中特殊格式的标签,将每个频道转化为一个独立的 AI 指挥中心。与需要 API 通用直觉的3.2亿美元豪赌:游戏数据能否训练出真实世界的AI智能体?通用直觉(General Intuition)的3.2亿美元A轮融资,是一场关于AI训练数据范式转变的高风险赌注。该公司提出,与其依赖昂贵的人工标注或合成模拟,不如利用人类游戏行为的庞大语料库——每一次鼠标点击、战术撤退和资源分配决策——来查看来源专题页Hacker News 已收录 5216 篇文章

时间归档

June 20262572 篇已发布文章

延伸阅读

Claude Tag 方法:零代码将 Slack 变身为自主 AI 指挥中心一种名为 Claude Tag 的创新方法,正将 Slack 转化为自主 AI 智能体运行环境。通过解析自然语言标签并将其映射为具体操作,非技术用户无需编写一行代码即可构建任务专属智能体,从根本上将企业 AI 从“人类必须适应的工具”转变为通用直觉的3.2亿美元豪赌:游戏数据能否训练出真实世界的AI智能体?通用直觉(General Intuition)完成3.2亿美元A轮融资,押注一个激进论点:人类在电子游戏中投入的数十亿小时,是构建真实世界AI智能体最有价值的训练数据。其核心逻辑是,游戏中的点击、策略和反应,比任何实验室模拟或人工标注都更丰CartAI 结账 API:让 AI 智能体成为真正的自主购物者——打通“最后一公里”CartAI 推出专为 AI 智能体与应用程序打造的结账 API,彻底消除了全自主购物路上的最后一道障碍。通过标准化交易接口,这一创新有望开启 AI 驱动购买的新浪潮——从自动补货到动态比价下单,一切皆有可能。Retrace:让AI代理调试如同时光倒流,改写失败瞬间Retrace作为一款突破性的AI代理调试工具横空出世,它能捕获完整的执行轨迹,允许开发者从任意失败点分叉修复,并生成可验证的分享链接。它将代理调试从一场猜谜游戏,转变为可复现的科学流程。

常见问题

这次模型发布“David vs Goliath: Why Argmax Beats LLMs in Next-Activity Prediction”的核心内容是什么?

In a paper that is already circulating among AI skeptics and efficiency advocates, researchers systematically compared the performance of a naive argmax baseline against state-of-t…

从“argmax vs LSTM for next activity prediction benchmark”看,这个模型发布为什么重要?

The core of the study revolves around a head-to-head comparison between a trivial algorithm—argmax over the empirical conditional probability distribution P(next activity | current activity)—and a suite of deep learning…

围绕“when to use simple frequency baseline instead of deep learning”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。