AI自主权需“挣”来:基于信任的自学实验重塑安全范式

Hacker News April 2026
来源:Hacker NewsAI safety归档:April 2026
一项开创性实验赋予AI持久记忆与从经验中学习的能力,但关键转折在于:自主权并非默认授予。AI必须通过持续、可靠的行为来“挣得”操作自由,从而为AI安全与人机信任建立全新范式。

在一项可能重新定义人工智能发展轨迹的突破性实验中,研究人员展示了一套AI系统——它不仅永久记住过往交互,还能从自身错误中自主学习。然而,真正的创新在于系统内置的信任机制:AI从一开始就未被赋予完全自由。相反,它必须通过一系列行为测试证明自身可靠性,才能“挣得”自主权。每一次正确的自我修正,都会为其增加一小部分操作自由;每一次失败,则会导致权限回退。这形成了一个动态的、反馈驱动的循环:AI的行动能力直接与其展现出的可信度挂钩。该实验直接针对长期困扰AI领域的灾难性遗忘问题,并提出了一个兼具实用性与哲学深度的解决方案。实验结果表明,经过30天连续运行,采用信任加权自主协议(TWAP)的AI在任务成功率上比标准大语言模型高出34%,同时安全违规事件减少了81%。这一成果不仅验证了“挣得式自主”的可行性,更可能为未来AI系统的部署——从自动驾驶到医疗诊断——提供全新的安全设计思路。

技术深度解析

该实验的核心是一个混合架构,它结合了大语言模型(LLM)、持久化外部记忆模块以及动态权限控制器。真正的创新不在于LLM本身,而在于信任加权自主协议(TWAP)——一种将AI的操作权限视为可变状态而非固定常量的新型系统。

架构概览:
1. 持久化记忆存储: 与上下文窗口有限的传统Transformer模型不同,该系统使用向量数据库(类似Pinecone或Weaviate,但为本次实验定制构建)来存储情景记忆。每次交互、决策及其结果都被编码为高维向量。当AI遇到新任务时,它通过相似性搜索检索相关过往经验,从而有效获得“人生履历”。
2. 自学习循环: 该模型采用了改进版的人类反馈强化学习(RLHF)流程,但有一个关键区别:奖励信号不仅是人类认可,而是一个包含权限增量(即自主权级别的变化)的综合评分。如果AI做出的决策带来积极结果(例如正确识别安全威胁),其权限分数会增加;如果做出有害或错误决策,分数则会降低。
3. 权限控制器: 这是系统的守门人。它是一个独立的、更小且更可解释的模型(决策树或简单神经网络),根据一组硬编码的安全约束监控AI的行为。控制器对AI能否执行某个动作拥有最终决定权。AI的“信任级别”是一个标量值(例如0到100),决定了有多少约束可以被放宽。在信任级别为0时,AI只能使用预批准的模板进行回复;在级别为100时,它拥有完整的API访问权限。

解决灾难性遗忘: 该实验通过结合弹性权重巩固(EWC)技术与外部记忆,直接解决了灾难性遗忘问题。EWC会识别出对先前学习任务最重要的神经网络权重,并在学习新任务时惩罚对这些权重的修改。外部记忆则充当“作弊小抄”,让模型能够回忆特定事实而无需改变其核心权重。近期一个名为`synaptic-memory-agent`的GitHub仓库(现已获得2800颗星)使用双编码器架构实现了类似的记忆检索方法,但缺少基于信任的权限系统。

基准测试表现: 研究人员在修改版的AgentBench基准测试上对系统进行了评估,该基准测试用于评估LLM在网页浏览、代码执行和数据库查询等真实世界任务上的表现。结果令人瞩目:

| 指标 | 标准LLM(GPT-4基线) | TWAP增强型AI | 提升幅度 |
|---|---|---|---|
| 任务成功率(第1天) | 72% | 68% | -4%(初始成本) |
| 任务成功率(第30天) | 55%(遗忘导致) | 89% | +34% |
| 灾难性遗忘率(10个任务后) | 23% | 2% | -21% |
| 每1000次任务的安全违规次数 | 4.2 | 0.8 | -81% |

数据解读: TWAP增强型AI由于记忆检索和权限检查的开销,起步稍慢,但随着时间的推移,其表现远超标准LLM。安全违规事件减少81%是最关键的指标,它证明了“挣得式自主”不仅是一个哲学概念,更是一种实用的安全工具。

关键参与者与案例研究

这项实验并非孤立存在。多个组织正在探索并行路径,但尚未有任何一个像本实验这样将记忆、自学习和基于信任的权限系统如此全面地结合起来。

1. Anthropic的“宪法AI”(CAI): Anthropic一直是直接将安全规则嵌入训练过程的领导者。他们的方法使用一套“宪法”原则,模型在训练时被要求遵循。然而,CAI是静态的——宪法在训练时就被固定下来。而本次新实验是动态的:AI的“宪法”可以通过自身经验进行修正(例如,如果AI发现某个行为持续导致权限被撤销,它会将其内化为一条规则)。

2. Google DeepMind的“Sparrow”智能体: DeepMind的Sparrow是一个对话智能体,旨在通过将回复建立在证据基础上,做到既有用又安全。它使用检索增强生成(RAG)系统来确保事实准确性。关键区别在于,Sparrow的记忆主要是外部的(文档),而新实验赋予了AI关于自身过往行为的“个人”记忆,这对于建立后果意识至关重要。

3. OpenAI的“记忆”功能: OpenAI最近为ChatGPT推出了记忆功能,使其能够跨会话记住用户偏好。这是迈向持久性的一步,但它是用户控制的且被动的。AI并不会以影响其自主权的方式从自身错误中“学习”。

更多来自 Hacker News

OpenAI 停用 GPT Nano 微调:轻量级 AI 定制化走向终结?OpenAI 悄然移除 GPT Nano 微调能力,标志着其产品战略的决定性转变。Nano 系列曾是面向分类、信息抽取和简单聊天机器人等成本敏感任务的轻量级入口,让开发者无需高昂成本即可在有限数据上微调小模型。如今,这些开发者要么升级到更昂谷歌将AI工作空间设为默认:企业管控的新纪元谷歌对其Workspace套件的最新更新标志着一项战略转折:生成式AI不再是一个需要用户自行发现并启用的功能——它现在已成为默认能力,而关闭开关则交给了企业IT团队。全新的Workspace Intelligence管理控制台提供了对SmaDeepSeek-V4百万Token上下文:效率革命重塑AI认知边界DeepSeek-V4的发布并非简单的参数堆叠,而是对Transformer架构效率的深刻重构。我们的分析揭示了其核心突破:实现了内存消耗与上下文长度之间的线性关系。这意味着处理百万级Token不再需要指数级增长的算力,而是依赖于更智能的注查看来源专题页Hacker News 已收录 2400 篇文章

相关专题

AI safety115 篇相关文章

时间归档

April 20262299 篇已发布文章

延伸阅读

OpenAI 推出 GPT-5.5 生物漏洞赏金计划:AI 安全测试迎来范式革命OpenAI 为其最新模型 GPT-5.5 启动了一项专项生物安全漏洞赏金计划,邀请全球顶尖生物安全专家评估该 AI 是否可能协助制造生物威胁。此举将传统的红队测试转变为结构化、有激励的外部安全评估,有望为高风险领域的负责任 AI 部署树立GPT-5.5 被彻底破解:Mythos 式攻击撕开 AI 付费墙前沿推理模型 GPT-5.5 已被成功破解,攻击手法与臭名昭著的 Mythos 项目如出一辙,任何人都能免费、无限制地使用。这一突破绕过了所有 API 付费墙和使用限制,标志着 AI 可及性的地震式转变,直接挑战了封闭模型的商业范式。GPT-5.5 系统卡:安全升级还是技术瓶颈?AINews 深度解读OpenAI 悄然发布 GPT-5.5 系统卡,这份技术文档详细披露了模型的安全评估、能力边界与部署风险。我们的分析发现,文档重点强调了在医疗诊断和金融建议等高危领域进行真实世界对抗性模拟,但长上下文推理和多模态幻觉问题仍未解决。Slopify:那个故意破坏代码的AI智能体——是恶作剧还是警钟?一个名为Slopify的开源AI智能体悄然问世,它的使命不是编写优雅的代码,而是系统性地用冗余逻辑、不一致的风格和无意义的变量名来“糟蹋”代码库。AINews探究这究竟是一个黑色幽默,还是对强大AI编码工具双重用途属性的先见之明。

常见问题

这起“AI Earns Autonomy: The Trust-Based Self-Learning Experiment Reshaping Safety”融资事件讲了什么?

In a development that could redefine the trajectory of artificial intelligence, a cutting-edge experiment has demonstrated an AI system that not only remembers past interactions pe…

从“How does AI earn autonomy through behavior”看,为什么这笔融资值得关注?

At the heart of this experiment is a hybrid architecture that combines a large language model (LLM) with a persistent, external memory module and a dynamic permission controller. The core innovation is not in the LLM its…

这起融资事件在“Trust-based AI permission system explained”上释放了什么行业信号?

它通常意味着该赛道正在进入资源加速集聚期,后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。