Go Attack:破解AlphaGo的对抗性研究,如何重塑AI安全边界

GitHub May 2026
⭐ 91
来源:GitHubAI safety归档:May 2026
一项名为go_attack的开源项目正系统性地探测围棋AI系统的弱点,包括基于AlphaGo的模型。该研究揭示了神经网络在棋盘感知上的关键漏洞,挑战了“超人类表现即代表鲁棒智能”的既有假设。

AlignmentResearch发布了go_attack,这是一套专门用于生成围棋AI对抗样本的工具包。与典型的国际象棋或Atari游戏攻击不同,围棋的组合复杂性使其成为评估深度强化学习模型鲁棒性的独特试验场。该项目实现了从梯度扰动到搜索策略等多种攻击算法,针对策略网络和价值网络进行攻击。早期结果显示,即使是KataGo和Leela Zero等最先进的模型,也能通过几乎不可察觉的棋盘改动被诱导走出灾难性落子。这项工作填补了AI安全研究中的一个关键空白:虽然图像分类器的对抗攻击已被广泛研究,但围棋中战略性、长周期的决策过程为AI安全带来了全新挑战。

技术深度解析

go_attack项目并非单一攻击手段,而是一个框架,实现了多种针对围棋独特结构定制的对抗攻击策略。核心挑战在于,围棋是一个确定性、完美信息的游戏,其分支因子约为250,远超国际象棋的35。这意味着对抗扰动必须精心设计,以利用神经网络的决策边界,同时不被人类观察者或游戏引擎自身的搜索所察觉。

架构与算法

该代码库实现了三类主要攻击:

1. 基于梯度的攻击:这些攻击直接修改棋盘状态(作为19x19的图像,包含黑子、白子和气等多个通道),以最大化目标模型的损失函数。项目使用了快速梯度符号法(FGSM)和投影梯度下降法(PGD),并针对离散棋盘位置进行了适配。例如,攻击可能在一个看似无关的位置将一颗棋子从黑翻白,导致策略网络对最优落子的预测偏差超过40%。

2. 基于搜索的攻击:这些攻击利用蒙特卡洛树搜索(MCTS)来寻找对抗序列。攻击者不是攻击单一状态,而是构建一系列落子,逐步将AI引入“陷阱”——即其价值网络严重低估对手获胜概率的局面。这类似于强化学习中的“尖峰”攻击。

3. 策略-价值联合攻击:最复杂的攻击同时针对策略头(选择哪步落子)和价值头(获胜概率)。通过同时扰动两者,攻击者可以制造一种局面:AI自信地走出一步必败之棋,却自以为有90%的胜率。

性能基准测试

该项目包含一套基准测试套件,比较了针对KataGo(最强的开源围棋AI)和一个较小的蒸馏模型的攻击成功率。下表展示了初步结果:

| 攻击类型 | 目标模型 | 扰动预算(改变的棋子数) | 成功率(导致败招) | 平均胜率下降 |
|---|---|---|---|---|
| FGSM(单步) | KataGo 40-block | 1 | 12% | 8% |
| PGD(10步) | KataGo 40-block | 3 | 34% | 22% |
| MCTS搜索攻击 | KataGo 40-block | 5(序列) | 58% | 41% |
| 策略-价值联合 | 蒸馏模型(10-block) | 2 | 67% | 53% |
| 策略-价值联合 | KataGo 40-block | 2 | 41% | 29% |

数据要点:基于搜索和联合攻击的效果远优于简单的梯度方法,尤其是针对较大模型时。这表明漏洞不仅存在于网络的局部感知中,更在于其长期规划和价值评估能力。较小的蒸馏模型明显更脆弱,说明模型压缩牺牲了鲁棒性。

相关GitHub仓库

- go_attack(AlignmentResearch):主仓库。包含预训练的攻击模型和用于复现基准测试的脚本。最近的提交增加了通过OpenSpiel接口攻击模型的支持。
- KataGo(lightvector):最受欢迎的开源围棋AI,被用作主要攻击目标。它使用残差网络(最多40个block)和自对弈训练。
- leela-zero(gcp):另一个基于AlphaGo Zero架构的强开源围棋AI。go_attack团队报告称已初步成功攻击Leela Zero。

关键参与者与案例研究

AlignmentResearch是主要开发者。这是一个相对较新的团队,专注于AI对齐与鲁棒性,与DeepMind或OpenAI等大型实验室不同。他们选择围棋具有战略意义:这是一个定义明确的领域,有清晰的成功指标(胜率、Elo等级分),使得衡量攻击效果比在开放式任务中更容易。

KataGo(由David Wu / lightvector开发)是开源围棋AI的事实标准。它已超越Leela Zero的实力,并被职业棋手用于分析。go_attack能够可靠地欺骗KataGo这一事实意义重大,因为KataGo因其广泛的训练数据和自对弈而被认为是最鲁棒的模型之一。

目标模型对比

| 模型 | 架构 | 训练数据 | Elo(约) | 对go_attack的脆弱性 |
|---|---|---|---|---|
| KataGo 40-block | ResNet + MCTS | 自对弈 + 人类棋谱 | 4500+ | 中等(成功率41%) |
| Leela Zero 40-block | ResNet + MCTS | 仅自对弈 | 4400+ | 高(估计55%) |
| 蒸馏KataGo(10-block) | 较小ResNet | 从40-block蒸馏 | 4000 | 非常高(67%) |
| AlphaGo(原始版) | CNN + MCTS | 人类棋谱 + 自对弈 | 3500(估计) | 未知(未测试) |

数据要点:脆弱性与模型规模和训练多样性呈负相关。仅通过自对弈训练的模型(Leela Zero)比使用人类棋谱训练的模型(KataGo)更容易受到攻击,这表明人类数据提供了某种程度的鲁棒性。

更多来自 GitHub

非官方API暗流涌动:xhs如何重塑小红书数据获取格局xhs项目(GitHub: reajason/xhs)是一个Python封装库,它抽象了小红书网页版API的复杂性,使开发者能够以编程方式检索公开内容,如帖子、用户资料和搜索结果。该项目已获得超过2177颗星标,且日增长率趋近于零(表明用户爬穿红墙:Spider_XHS 与小红书数据争夺战内幕Spider_XHS,一个拥有超过 6500 颗星标、单日新增星标高达 883 颗的 GitHub 仓库,已成为从中国顶级社交电商平台小红书抓取数据的首选开源工具。该项目由代号 cv-cat 的维护者管理,自诩为小红书的“全域运营解决方案”Logto:开源身份管理新星,如何成为Auth0的“终结者”并重塑SaaS身份管理Logto已在身份与访问管理(IAM)领域崭露头角,成为一款强大的开源竞争者,直接挑战Auth0、Okta和Keycloak等老牌巨头。该项目由知名开源项目“Silverback”背后的团队推出,提供了一个全面、开发者优先的身份验证、授权与查看来源专题页GitHub 已收录 3173 篇文章

相关专题

AI safety252 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

对齐手册:Hugging Face 打造安全可控 AI 的开源蓝图Hugging Face 正式发布《对齐手册》(Alignment Handbook),这是一套完整、可复现的语言模型对齐方案,涵盖 RLHF、DPO 等主流方法。该开源工具包旨在降低对齐研究门槛,让更多团队能够构建更安全、更可控的 AI TransformerLens探索:机械可解释性的低门槛入口一个名为aisec-psaiko/transformerlens-exploration的新GitHub仓库,为机械可解释性研究提供了一个低摩擦的切入点。它通过封装TransformerLens库,提供了剖析GPT-2内部注意力头和神经元激精神咒语红队测试:开源越狱库曝光Claude隐藏缺陷一个名为Spiritual-Spell-Red-Teaming的GitHub仓库,通过发布一套专门针对Claude安全过滤器的系统性越狱提示库,在一天内收获了超过1350颗星。这个开源红队测试工具包揭示了当前大语言模型对齐的脆弱本质,并迫使Anthropic TypeScript SDK:安全至上的AI,开发者掌控一切Anthropic 正式发布 Claude API 的官方 TypeScript SDK,将安全性与开发者控制权置于首位。该 SDK 原生支持流式传输、函数调用及内置内容过滤器,专为客服、内容审核等高合规性应用场景打造。

常见问题

GitHub 热点“Go Attack: The Adversarial Research That Could Break AlphaGo and Reshape AI Safety”主要讲了什么?

AlignmentResearch has released go_attack, a specialized toolkit designed to generate adversarial examples against Go AI systems. Unlike typical chess or Atari game attacks, Go's co…

这个 GitHub 项目在“go_attack adversarial examples tutorial”上为什么会引发关注?

The go_attack project is not a single attack but a framework that implements multiple adversarial attack strategies tailored to the unique structure of Go. The core challenge is that Go is a deterministic, perfect-inform…

从“how to attack KataGo with go_attack”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 91,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。