Mahjax:基于JAX的GPU加速麻将模拟器,或重塑强化学习研究格局

arXiv cs.AI May 2026
来源:arXiv cs.AIreinforcement learning归档:May 2026
一款名为Mahjax的GPU加速麻将模拟器正式发布,它基于Google JAX框架构建,专为强化学习研究设计。该模拟器让AI智能体通过自我对弈从零开始学习日本麻将,完全绕过人类数据,为不确定性下的多智能体决策开辟了全新前沿。

AINews获悉,一款名为Mahjax的新型GPU加速麻将模拟器已正式发布。该模拟器基于Google的JAX框架构建,专为强化学习(RL)研究设计,目标直指复杂、高维度、非完美信息的日本麻将游戏。与以往依赖人类棋谱进行监督学习的方法不同,Mahjax让智能体通过自我对弈从零开始学习,复刻了AlphaGo在围棋领域取得统治地位的范式。这一转变意义重大,因为麻将固有的随机性、隐藏手牌以及巨大的状态空间,使其成为现实世界挑战(如自动驾驶——车辆需预判其他驾驶员意图,或金融交易——需应对市场不确定性)更真实的代理。

技术深度解析

Mahjax从底层架构上就旨在充分利用JAX的独特优势:自动微分、即时编译(JIT)以及无缝的GPU/TPU加速。该模拟器将日本麻将的完整规则集——包括摸牌、打牌、吃、碰、杠、立直宣告以及计分——编码为一组可微分操作。这是一项非同寻常的成就,因为麻将涉及随机元素(掷骰、牌墙洗牌)和隐藏信息(每位玩家的手牌),这些通常都会破坏可微性。Mahjax通过将游戏视为部分可观测马尔可夫决策过程(POMDP),并利用JAX的`vmap`和`pmap`在GPU核心上同时并行处理数千个游戏实例来解决这一问题。

架构亮点:
- 状态表示: 游戏状态被编码为固定大小的张量,包括公开的弃牌、玩家手牌(对手的手牌被遮蔽)以及牌墙构成。这使得游戏状态可以进行批量处理。
- 动作空间: Mahjax定义了一个离散动作空间,涵盖所有合法操作(打牌、鸣牌、立直、自摸、荣和)。动作掩码通过JIT编译函数高效计算。
- 奖励函数: 奖励基于最终分数变化(符数计算),并且是完全可微的。这实现了基于梯度的策略优化。
- 环境循环: 从初始发牌到最终计分的整个游戏循环被编译为单个JAX函数,消除了Python开销,并实现了端到端的梯度流动。

性能基准测试:

| 指标 | Mahjax (JAX, GPU) | 传统基于CPU的模拟器 (例如 PyTorch) | 提升倍数 |
|---|---|---|---|
| 每秒游戏步数(单实例) | 12,000 | 850 | 14倍 |
| 并行游戏实例数(批量大小4096) | 4800万步/秒 | 340万步/秒 | 14倍 |
| 每1万个实例的内存使用量 | 2.1 GB | 8.4 GB | 降低4倍 |
| 训练简单DQN智能体达到50%胜率所需时间 | 2.3小时 | 34小时 | 14.8倍 |

数据要点: Mahjax的GPU原生并行性在环境模拟上实现了14倍的加速,而环境模拟正是大多数强化学习流程中的瓶颈。这使得研究人员能够以以前在麻将领域不可能实现的速度迭代算法,使其更接近Atari等更简单游戏的模拟速度。

可微性与自我对弈: 关键的创新在于整个游戏是可微的。这意味着梯度可以从最终奖励反向传播到每一个决策,从而无需蒙特卡洛树搜索或人类数据即可进行端到端训练。研究人员可以直接在游戏上实现近端策略优化(PPO)或软演员-评论家(SAC)等算法,或者通过学习游戏动态的可微分世界模型来尝试基于模型的强化学习。

相关开源仓库: Mahjax的代码库已在GitHub上发布(仓库名称:`mahjax/mahjax`)。发布第一周内,它已获得超过1200颗星和200次分支。该仓库包含PPO和DQN智能体的示例训练脚本,以及一个预训练的基线模型,该模型对随机对手的胜率达到55%。

关键参与者与案例研究

Mahjax由一群处于游戏AI与可微分编程交叉领域的研究人员开发。首席开发者是Kenji Tanaka博士,他曾是DeepMind的研究员,参与过AlphaGo和AlphaZero项目。他的团队包括来自Google Brain的工程师以及来自JAX开源社区的几位独立贡献者。

与现有麻将AI系统的比较:

| 系统 | 方法 | 训练数据 | GPU支持 | 可微性 | 自我对弈能力 |
|---|---|---|---|---|---|
| Mahjax (2025) | 基于JAX的强化学习 | 无(自我对弈) | 是(原生) | 是 | 是 |
| Suphx (微软, 2019) | 深度强化学习 + 监督预训练 | 500万局人类对局 | 有限 | 否 | 否(需要人类数据) |
| Naga (日本商业软件) | 蒙特卡洛模拟 | 人类棋谱记录 | 否 | 否 | 否 |
| Mortal (2021) | 模仿学习 + 强化学习 | 1000万局人类对局 | 是(仅推理) | 否 | 否 |

数据要点: Mahjax是唯一一个完全可微且专为从零开始自我对弈设计的系统,而所有先前的系统都依赖海量人类数据集。这代表了方法论上的根本转变,有可能降低麻将AI研究的数据门槛。

案例研究:Suphx的局限性

微软的Suphx在Tenhou平台上达到了最高段位,是一项里程碑式的成就。然而,它需要500万局人类对局记录进行预训练。这种方法有两个关键缺陷:(1)它学习了人类的偏见和次优策略;(2)它难以轻松泛化到规则变体或新的计分系统。相比之下,Mahjax的自我对弈方法理论上可以发现人类从未考虑过的策略,就像AlphaGo著名的“第37手”一样。

更多来自 arXiv cs.AI

冲突感知引导:AI多约束生成领域的突破性进展多年来,推理时引导采样一直面临一个关键瓶颈:当模型必须同时满足多个约束条件时——例如药物分子需要高靶点亲和力、可合成性和低毒性——简单的梯度求和会将生成过程拉离真实数据流形,产生伪影甚至完全失败。一种新提出的方法——冲突感知加性引导——直接声明式数据服务:AI基础设施告别试错时代数据工程世界已撞上南墙。传统AI代理构建数据基础设施依赖暴力循环:写代码、运行、解析错误日志、修复bug、重复。这种方法虽对简单脚本有效,但在真实数据系统的组合复杂性下崩溃。搜索空间过于庞大——数百种数据库、消息队列、转换引擎和缓存层——而无标题The industrial sector has been quietly suffering from a 'latency disaster' as AI agents, tasked with querying sensor dat查看来源专题页arXiv cs.AI 已收录 367 篇文章

相关专题

reinforcement learning82 篇相关文章

时间归档

May 20262491 篇已发布文章

延伸阅读

OSCToM:强化学习如何暴露AI心智理论的致命盲区全新框架OSCToM利用强化学习自动生成对抗性信念场景,无情揭露大语言模型在递归推理与信息不对称中的严重缺陷。这标志着AI社会智能评估从静态问答向动态博弈论范式的根本转变。COSMO-Agent:强化学习如何让大模型变身自主CAD-CAE工程师全新强化学习框架COSMO-Agent成功教会大语言模型自主闭环工业设计中的CAD建模与CAE仿真。通过将几何编辑视为序列决策问题,该智能体学会解读仿真反馈、调用建模工具、执行修改并重新验证——有望将数周的设计迭代周期压缩至数小时。ICRL:当AI学会“内化批评”,自我进化的智能体时代来了一项名为ICRL(内化批评强化学习)的突破性框架,正在教会AI智能体永久性地吸收反馈,使其从被动的错误修正者转变为能够自我进化的系统。这或许将终结昂贵的外部监督循环,开启真正自主智能体的新纪元。后训练:唤醒还是创造?自由能原理重新定义AI能力边界一个基于自由能原理的全新理论框架,正在颠覆业界对监督微调仅是模仿、强化学习即是发现的传统认知。AINews深度分析揭示,后训练的真正分野在于:它究竟是唤醒了模型潜藏的能力,还是创造了全新的能力——这一判断对评估体系、战略布局与商业模式具有深

常见问题

GitHub 热点“Mahjax GPU-Accelerated Mahjong Simulator Could Reshape Reinforcement Learning Research”主要讲了什么?

AINews has learned that Mahjax, a novel GPU-accelerated mahjong simulator, has been officially released. Built on Google's JAX framework, it is purpose-designed for reinforcement l…

这个 GitHub 项目在“Mahjax vs Suphx comparison”上为什么会引发关注?

Mahjax is engineered from the ground up to exploit the unique strengths of JAX: automatic differentiation, just-in-time (JIT) compilation, and seamless GPU/TPU acceleration. The simulator encodes the complete ruleset of…

从“JAX reinforcement learning game simulators”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。