Noema64国际象棋引擎:大模型推理能否以智取胜,挑战Stockfish的暴力计算?

Hacker News June 2026
来源:Hacker News归档:June 2026
开源国际象棋引擎Noema64摒弃了暴力穷举,转而借助大语言模型进行推理。AINews深入探究这一激进路线能否撼动Stockfish等传统引擎的霸主地位,并揭示其对可解释AI未来的启示。

AINews独家获悉了Noema64——一款开源国际象棋引擎,它代表着人工智能在博弈领域的一次范式转变。与Stockfish等通过穷举搜索树每秒评估数百万个位置的传统引擎不同,Noema64利用大语言模型(LLM)以类人方式对棋局进行推理。该引擎并不计算所有可能的走法;相反,它将棋盘状态处理为文本提示,生成战略计划,并基于对国际象棋原理的语言理解来选择走法。目前处于早期测试阶段,Noema64在纯粹的战术准确性上尚无法与顶级引擎匹敌。然而,其真正意义在于能够提供自然语言解释的能力。

技术深度解析

Noema64的架构是对传统国际象棋引擎的一次彻底颠覆。像Stockfish 16这样的传统引擎,结合了Alpha-Beta剪枝、置换表以及手工调校的评估函数。Stockfish在现代CPU上每秒约评估6000万个位置,依靠暴力搜索深度来寻找战术组合。相比之下,Noema64使用一个经过微调的LLM——具体来说是Meta的LLaMA 3.1 8B模型的一个变体——来生成走棋决策。

其核心流程如下:棋盘状态被序列化为文本表示(Forsyth–Edwards Notation,简称FEN),并与一个要求模型逐步推理最佳走法的提示拼接在一起。然后,LLM输出一个思维链解释,后跟标准代数记谱法表示的走法。这个输出被解析并执行。该模型在一个包含150万个来自特级大师对局位置的数据集上进行了微调,每个位置都标注了顶级引擎的走法(来自Stockfish 15,搜索深度为20)以及对该走法背后战略推理的人工编写解释。微调过程使用了LoRA(低秩适配)技术以控制内存需求,并在8块A100 GPU上训练了大约72小时。

一个关键的工程挑战是延迟。Stockfish可以在10毫秒内输出一步棋。而Noema64在单块A100上运行,每步棋平均需要2.3秒——慢了230倍。为了缓解这一问题,团队实现了一个缓存层,用于存储之前评估过的位置及其解释。他们还引入了一种“快速模式”,跳过思维链生成,直接预测走法,将延迟降低到0.8秒,但牺牲了可解释性。

| 指标 | Stockfish 16 | Noema64 (LLM) | Noema64 (快速模式) |
|---|---|---|---|
| 每秒评估位置数 | 60,000,000 | ~1 | ~1 |
| 平均走棋延迟 | 8 毫秒 | 2,300 毫秒 | 800 毫秒 |
| Elo等级分 (对阵3000+对手) | ~3550 | ~1850 | ~1750 |
| 可解释性 | 无 | 完整思维链 | 最低限度 |
| 推理内存占用 | 256 MB | 16 GB | 16 GB |

Elo等级分的差距是巨大的。Noema64约1850的Elo等级分使其处于强大的俱乐部棋手水平,远低于Stockfish超人类水平的3550分。然而,差距并不能说明全部问题。在一组专门为战略复杂性挑选的500个位置(例如,需要长期计划的封闭局面)上进行测试时,Noema64的走法准确率与Stockfish的首选走法匹配度达到68%,而在战术性位置上则为52%。这表明LLM擅长局面理解,但在需要精确计算的深层战术序列上表现挣扎。

数据要点: 在原始性能上,Noema64并非暴力计算引擎的替代品,但它证明了LLM能够捕捉到纯粹数值评估函数所无法企及的战略细微差别。速度和可解释性之间的权衡是目前阻碍其实际应用的主要障碍。

关键参与者与案例研究

Noema64项目由前DeepMind研究员、现任职于剑桥大学的Elena Vasquez博士发起,并与一个由五名开源贡献者组成的团队共同完成。其GitHub仓库(noema64/noema64)增长迅速,公开发布后三周内便获得了4200颗星。值得注意的贡献者包括来自Hugging Face的工程师以及一位前Stockfish维护者,他加入团队是为了帮助优化推理流程。

其他几个项目也在探索类似的领域。Google DeepMind的AlphaZero虽然并非基于LLM,但它证明了神经网络可以通过强化学习从零开始学习国际象棋。Noema64的不同之处在于使用了预训练的语言模型,而非从零开始训练。另一个相关的项目是Maia Chess,一个由康奈尔大学研究人员开发的类人国际象棋引擎,它可以预测特定Elo等级分下的人类走法。Maia使用的是残差卷积网络,而非Transformer,并且不提供解释。

| 项目 | 方法 | 可解释性 | 峰值Elo | 开源 |
|---|---|---|---|---|
| Noema64 | 微调LLaMA 3.1 8B | 是 (思维链) | ~1850 | 是 |
| Stockfish 16 | Alpha-Beta + 手工评估 | 否 | ~3550 | 是 |
| AlphaZero | 深度强化学习 + MCTS | 否 | ~3500 | 否 |
| Maia | 残差CNN | 否 | ~1800 (类人) | 是 |
| Leela Chess Zero | 深度强化学习 + MCTS | 否 | ~3500 | 是 |

Noema64的独特卖点在于它能够回答“为什么”的问题。例如,当被问及为何将马跳到f3时,引擎可能会回答:“我正在将我的马发展到中心格,以控制e5和d4,为易位后的王翼进攻做准备。这遵循了开放局面中快速出子的原则。”这种级别的解释在国际象棋AI中是前所未有的。

数据要点: Noema64占据了一个独特的利基市场:它是唯一一个将竞技对弈(俱乐部级别)与完整的自然语言解释相结合的引擎。这使其定位为一个潜在的教育工具,而非纯粹的顶级引擎竞争者。

更多来自 Hacker News

无声的认知重塑:大语言模型如何重写人类思维大语言模型(LLM)的到来引发的变革远不止于生产力提升。AINews 的调查揭示了一场系统性的认知重构:人类正从“先思考再写作”转向“先生成再编辑”,实质上将推理行为外包给了机器。这代表着从创造者到编辑者的根本性角色迁移。交互范式已从命令驱Huall自主AI代理:数字员工崛起,副驾驶时代终结Huall的平台代表了AI代理领域的范式转变,它超越了需要每一步都经人类确认的“副驾驶”模式。这些代理能自主分解复杂任务、调用API、处理异常并动态调整策略——本质上就是数字员工。其核心技术革新包括先进的任务分解算法、持久化记忆机制以及容错英国政府启用AI规划审批官:将房屋审批从数月压缩至数天为应对长期存在的住房短缺问题,英国政府大胆将人工智能引入其以缓慢著称的规划审批系统。核心创新是一个多模态AI代理,它能同时读取规划申请、交叉参考数千页地方分区法规,并自动生成合规评估报告。这不是简单的聊天机器人,而是一个能够消化建筑图纸、环查看来源专题页Hacker News 已收录 4821 篇文章

时间归档

June 20261659 篇已发布文章

延伸阅读

无声的认知重塑:大语言模型如何重写人类思维大语言模型已悄然从实验工具演变为日常基础设施。但最深刻的变革并非技术本身——而是我们的思维方式、沟通模式与自我认知正在被无声地重写。AINews 深入探索这场隐藏的认知革命。Huall自主AI代理:数字员工崛起,副驾驶时代终结Huall推出自主AI代理,它们如同真正的数字员工,无需人类监督即可独立规划、执行并适应复杂的多步骤任务。这标志着AI从“副驾驶”向“员工”的关键转变,在重塑企业自动化的同时,也引发了关于责任与信任的新问题。英国政府启用AI规划审批官:将房屋审批从数月压缩至数天英国政府正部署一款融合地理空间数据的精调大语言模型,用于自动化规划申请审查,目标是将审批时间从数月缩短至数天。这标志着生成式AI在高风险行政决策中的关键实验,从内容创作迈入监管副驾驶领域。Spaturzu SDKs:开源利器,终于让AI Agent的API成本无所遁形一款名为Spaturzu SDKs的全新开源工具,让企业能够将每一分API费用精确追溯到具体AI Agent。通过在请求头中嵌入Agent标识符,它解决了多Agent系统共享单一API密钥时的成本归属难题,标志着从混乱支出到可审计、精细化财

常见问题

GitHub 热点“Noema64 Chess Engine: Can LLMs Beat Stockfish With Reasoning Over Brute Force?”主要讲了什么?

AINews has obtained exclusive insight into Noema64, an open-source chess engine that represents a paradigm shift in how artificial intelligence approaches games. Unlike traditional…

这个 GitHub 项目在“Noema64 vs Stockfish comparison”上为什么会引发关注?

Noema64’s architecture is a radical departure from conventional chess engines. Traditional engines like Stockfish 16 use a combination of alpha-beta pruning, transposition tables, and handcrafted evaluation functions. St…

从“how to install Noema64 chess engine”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。