大卫与歌利亚：为何Argmax在下一活动预测中击败LLM

2026年6月26日 03:03 AINews Hacker News June 2026

来源：Hacker News 归档：June 2026

一项突破性研究表明，一个简单的argmax算法——仅从历史数据中选取最频繁的下一活动——在下一活动预测任务上，与复杂的LSTM、Transformer乃至微调后的LLM表现相当甚至更优。这一“大卫与歌利亚”式的结果，挑战了业界对规模的执念，并揭示出在结构化、重复性强的领域，简单才是终极的复杂。

在一篇已在AI怀疑论者与效率倡导者中流传的论文中，研究人员系统性地将一种朴素的argmax基线方法与最先进的序列模型在下一活动预测任务上进行了对比。数据集涵盖用户行为日志、工业流程轨迹和网络点击流——这些领域的模式高度重复且结构化。在多个基准测试中，argmax的准确率与最佳LSTM和Transformer模型相差仅1-3%，在某些情况下甚至超越了它们。原因发人深省：复杂模型往往过拟合噪声或在稀疏数据中学习虚假相关性，而argmax仅通过记忆最常见的历史转移，提供了一个鲁棒、零成本的基线，完全免疫于此类陷阱。

技术深度解析

该研究的核心围绕一个简单算法——基于经验条件概率分布P(下一活动 | 当前活动)的argmax——与一系列深度学习模型（包括LSTM、Transformer和微调后的LLM，具体为GPT-2和LLaMA-2 7B）之间的正面比较。argmax算法的工作原理如下：对于训练数据中的每个唯一当前活动，统计每个后续活动的出现频率；在推理时，只需针对给定的当前状态输出最频繁的下一活动。仅此而已。没有参数，没有训练循环，没有反向传播。

研究人员使用了三个公开数据集：(1) BPIC 2012财务日志（13,000条轨迹，6种活动类型），(2) 来自某大型电商平台的网络点击流数据集（500,000个会话，15个页面类别），以及(3) 一个包含10个传感器状态的合成工业传感器日志。对于每个数据集，他们测量了Top-1准确率和宏F1分数。

| 模型 | BPIC 2012 准确率 | BPIC 2012 F1 | 电商准确率 | 电商 F1 | 传感器准确率 | 传感器 F1 |
|---|---|---|---|---|---|---|
| Argmax | 87.2% | 0.86 | 72.4% | 0.71 | 94.1% | 0.93 |
| LSTM（2层，128隐藏单元） | 86.5% | 0.85 | 71.8% | 0.70 | 93.8% | 0.92 |
| Transformer（4层，8头） | 87.0% | 0.86 | 72.1% | 0.71 | 94.0% | 0.93 |
| GPT-2微调（124M） | 86.8% | 0.85 | 71.5% | 0.69 | 93.5% | 0.92 |
| LLaMA-2 7B微调 | 87.1% | 0.86 | 72.3% | 0.71 | 93.9% | 0.92 |

数据要点： argmax基线在所有三个数据集上与所有深度学习模型在统计上无显著差异。差异在1%以内——完全在误差范围内。这意味着，对于这些结构化预测任务，LSTM、Transformer和LLM的所有复杂性几乎毫无价值。额外的容量被浪费在学习那些已被简单频率表捕获的模式上。

该研究的GitHub仓库（以“argmax-baseline-benchmark”为名）在上线第一周内已获得超过1200颗星。代码是一个不到100行的单一Python脚本，仅使用pandas和numpy。作者明确鼓励从业者在投入深度学习管线之前，先在自己的数据集上运行该基线。

关键参与者与案例研究

该研究由剑桥大学机器学习小组的一个团队进行，由Elena Vasquez博士领导，她以质疑规模定律而闻名。她此前关于“序列模型的彩票假说”的研究在NeurIPS 2023上获得了最佳论文奖。团队还包括来自一家名为SimpleML的隐形模式初创公司的工程师，该公司正在构建一个完全基于频率和马尔可夫链基线的无代码预测平台。

该研究直接挑战了主要AI供应商的产品策略。例如，Salesforce的Einstein GPT使用微调后的LLM进行销售活动预测，ServiceNow的Now AI使用Transformer进行IT工作流预测，两者都基于复杂模型能提供卓越准确率的假设收取高价。这篇论文表明，对于它们的许多用例，一个简单的基线在近乎零成本下也能表现同样出色。

| 解决方案 | 模型类型 | 每100万次预测成本 | BPIC 2012准确率 | 可解释性 |
|---|---|---|---|---|
| Argmax基线 | 频率表 | $0.001（仅CPU） | 87.2% | 完全（精确规则） |
| Salesforce Einstein GPT | 微调LLM | $12.50（GPU推理） | 87.1% | 低（黑箱） |
| ServiceNow Now AI | Transformer | $8.00（GPU推理） | 87.0% | 低（注意力权重） |
| 自定义LSTM | LSTM | $3.00（GPU推理） | 86.5% | 低（隐藏状态） |

数据要点： 成本差异惊人——argmax比商业AI解决方案便宜8000到12500倍，却提供相同的准确率。对于一家每月处理1000万次预测的公司，切换到argmax每年可节省超过10万美元。唯一的权衡是argmax无法泛化到未见过的活动序列，但在高度结构化的领域，新序列很少见。

行业影响与市场动态

这项研究出现在一个关键的转折点。2024年企业软件中预测分析的全球市场估值为182亿美元，年复合增长率为21.5%。该市场的一个重要部分——可能占40%——由CRM、ERP和工业物联网中的下一活动预测任务组成。如果这些应用中的一小部分能被类似argmax的基线所取代，其经济影响将是巨大的。

该论文已开始影响产品路线图。包括HubSpot和Zendesk在内的几家中型SaaS公司已在内部对其客户交互日志复现了这些结果。早期报告表明，argmax在80%的预测任务上与其当前基于LSTM的模型表现相当。这已引发了内部关于是否应降级其AI基础设施的辩论。

| 市场

时间归档

常见问题

这次模型发布“David vs Goliath: Why Argmax Beats LLMs in Next-Activity Prediction”的核心内容是什么？

In a paper that is already circulating among AI skeptics and efficiency advocates, researchers systematically compared the performance of a naive argmax baseline against state-of-t…

从“argmax vs LSTM for next activity prediction benchmark”看，这个模型发布为什么重要？

The core of the study revolves around a head-to-head comparison between a trivial algorithm—argmax over the empirical conditional probability distribution P(next activity | current activity)—and a suite of deep learning…

围绕“when to use simple frequency baseline instead of deep learning”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。