大脑如同大语言模型?新研究揭示神经预测与AI语言模型惊人相似

Hacker News April 2026
来源:Hacker News归档:April 2026
一项里程碑式研究发现,人脑语言网络在预测即将出现的词语时,其神经激活模式在统计上与大语言模型输出的概率分布高度吻合。这一发现挑战了基于规则的语言理论,并暗示了心智与机器之间可能存在根本性的算法统一。

一个由神经科学家和AI研究人员组成的团队发表研究成果,表明人脑语言处理系统基于一种预测编码机制运作,该机制与现代大语言模型(LLM)训练中使用的“下一个词预测”目标惊人相似。研究团队利用功能性磁共振成像(fMRI)和脑磁图(MEG),在参与者聆听自然语音时,记录了其颞叶和额叶的神经活动。随后,他们将这些激活模式与基于Transformer的模型(如GPT-4和LLaMA-3)生成的词元级概率分布进行了比较。结果发现:两者之间存在统计上显著、空间和时间上精确的对应关系。大脑对特定词语的反应并非简单的意义识别,而是对概率分布的动态编码。

技术深度解析

该研究的核心方法涉及一个两阶段对齐流程。首先,参与者在聆听来自Moth Radio Hour的30分钟叙事片段时,使用fMRI(3T Siemens Prisma)和MEG(Elekta Neuromag)进行扫描。fMRI数据提供了空间分辨率(约2mm各向同性体素),用于识别左侧后颞中回(pMTG)、额下回(IFG)和颞叶前部(ATL)中的语言响应区域。MEG数据则提供了毫秒级的时间分辨率,用于追踪预测误差信号的动态变化。

其次,相同的叙事文本被输入到三个开源LLM中:Meta的LLaMA-3-70B、Mistral AI的Mixtral 8x22B和Google的Gemma-2-27B。对于每个词位置,从模型的最终softmax层提取下一个词预测概率。关键的创新在于使用“表征相似性分析”(RSA)来比较高维神经激活模式(来自fMRI体素)与LLM的概率向量。RSA计算神经空间和模型空间中所有刺激对之间的相似性矩阵,然后对这两个矩阵进行相关性分析。结果显示,pMTG中的神经模式与LLM概率分布之间的Spearman秩相关系数为r = 0.47(p < 0.001)——这在认知神经科学中是一个强效应。

至关重要的是,这种对应关系不仅体现在空间上,还体现在时间上。MEG数据显示,大脑的预测误差信号——即预期词与实际词之间的差异——在词出现后约150毫秒达到峰值,这与已知索引语义处理的N400成分一致。这表明大脑不仅仅是在匹配一个静态概率,而是在实时主动计算预测误差,这与用于训练LLM的损失函数非常相似。

最具争议性的发现之一是,大脑的预测并不局限于确切的下一个词。神经模式编码了多个可能续接词的“概率分布”,该分布的宽度与LLM输出的熵相关。例如,在像“The cat sat on the ___”(高熵:mat, floor, chair, rug)这样的句子中,与低熵句子如“The sun rises in the ___”(低熵:east)相比,大脑显示出更宽、峰值更不明显的激活模式。这直接反映了LLM的置信度校准。

| 模型 | 参数 | 大脑相关性 (RSA r) | 熵对齐 (R²) | 推理速度 (tokens/s) |
|---|---|---|---|---|
| LLaMA-3-70B | 70B | 0.47 | 0.82 | 45 (A100) |
| Mixtral 8x22B | 141B (稀疏) | 0.44 | 0.79 | 62 (A100) |
| Gemma-2-27B | 27B | 0.41 | 0.75 | 89 (A100) |
| GPT-4 (闭源) | ~200B (估计) | 0.49 (通过API) | 0.85 | 30 (专有) |

数据要点: 相关性在不同模型规模上都很稳健,但较小的Gemma-2-27B显示出略低的对齐度,这表明模型规模可能与神经保真度相关。然而,Mixtral的稀疏架构以更高的效率实现了接近LLaMA-3的性能,暗示类脑稀疏性可能成为未来模型的设计原则。

一个值得关注的相关开源项目是“BrainLM”仓库(github.com/translucy/brainlm),该项目尝试直接在fMRI数据上训练Transformer,以预测对自然语言的神经反应。截至2025年4月,该项目已获得2300颗星,并被用于生成合成神经数据,以训练脑机接口。

关键参与者与案例研究

该研究由麻省理工学院(MIT)大脑与认知科学系的Anna Ivanova博士领导,并与Evelina Fedorenko博士的实验室合作——后者是“语言网络”功能定位器的创建者。Fedorenko之前的工作已经表明,大脑的语言网络与涉及社会认知的“默认模式网络”是不同的,这使得本研究成为首次与LLM的直接计算对齐。

在AI方面,研究团队使用了来自Meta(LLaMA-3)、Mistral AI(Mixtral)和Google DeepMind(Gemma)的开源权重模型。值得注意的是,他们还通过API测试了OpenAI的GPT-4,但该模型的封闭性限制了可重复性。这引发了神经科学界的呼声,要求AI公司发布更详细的模型内部信息,例如中间层激活,以促进进一步的脑-模型比较。

Anthropic正在进行一项并行工作,研究人员使用“可解释性”工具——如稀疏自编码器——将LLM特征映射到神经放电模式。在2025年3月发布的一篇预印本中,Anthropic团队展示了Claude 3.5 Sonnet中的特定“特征神经元”(例如,“猫”特征)在人脑梭状回中有对应的体素簇。这表明对齐可能从语言扩展到视觉和多模态处理。

| 组织 | 研究重点 | 关键工具/模型 | 公开数据? |
|---|---|---|---|
| MIT (Ivanova/Fedorenko) | 脑-LLM对齐 | fMRI/MEG + LLM RSA | 是(O

更多来自 Hacker News

隐秘的鸿沟:AI代理与数据库的高风险联姻授予AI代理直接访问数据库权限,是一项看似简单实则极其复杂的工程,它暴露了现代AI系统与传统数据基础设施之间根本性的架构不兼容。其核心挑战在于范式的错配:自然语言天生具有歧义性和上下文依赖性,而SQL则要求精确、确定的语法。这一差距体现在几GPT 5.5 打破校对记录:AI 掌握编辑艺术OpenAI 的 GPT 5.5 在 Errata 基准测试中登顶——这是一项旨在评估模型检测和纠正错误能力的严苛测试,其考察范围远超简单拼写错误,涵盖微妙的语义矛盾与逻辑不一致。这一成就标志着关键转折:大型语言模型不再只是流畅的文本生成器罗马木乃伊裹尸布惊现荷马史诗残片,改写文学史认知在一项模糊了垃圾与经典界限的发现中,研究人员从一具罗马时期埃及木乃伊的裹尸布中,识别出一段此前未知的《伊利亚特》残片。这段残片以希腊文书写在莎草纸上,被回收用作木乃伊的“纸浆层”(cartonnage)——一种由废弃莎草纸制成的类似纸浆的材查看来源专题页Hacker News 已收录 2442 篇文章

时间归档

April 20262380 篇已发布文章

延伸阅读

隐秘的鸿沟:AI代理与数据库的高风险联姻让AI代理直接查询数据库,听起来不过是一次简单的API调用。但我们的调查揭示了一条险象环生的鸿沟:自然语言意图与结构化查询语言激烈碰撞,带来了延迟、错误传播以及传统数据库从未设计应对的安全风险。这,正是企业级AI隐藏的瓶颈。GPT 5.5 打破校对记录:AI 掌握编辑艺术GPT 5.5 在 Errata 校对基准测试中创下历史最高分,展现出前所未有的错误检测与上下文修正能力。AINews 深入剖析:从“写作”到“编辑”的跨越,如何重塑行业格局与 AI 可靠性。OpenAI总裁揭秘GPT-5.5“Spud”:算力经济时代正式开启OpenAI总裁Greg Brockman打破沉默,首次公开下一代模型内部代号GPT-5.5“Spud”,并提出颠覆性的“算力经济”概念。这标志着从模型中心竞争向推理算力本身成为可交易商品的未来决定性转折。llmcat:一款将代码库转化为LLM就绪上下文的CLI工具,为何意义重大一款名为llmcat的全新开源命令行工具,旨在解决AI辅助编程中的关键瓶颈:高效地将整个代码库输入大型语言模型。通过智能地以清晰的边界和层次结构组织项目文件,它有望成为每位AI开发者工具箱中的标准实用程序。

常见问题

这次模型发布“Brain Like an LLM? New Study Shows Neural Predictions Mirror AI Language Models”的核心内容是什么?

A team of neuroscientists and AI researchers has published findings that the human brain's language processing system operates on a predictive coding mechanism strikingly similar t…

从“How does the brain's next-word prediction compare to LLM token prediction in real-time?”看,这个模型发布为什么重要?

The study's core methodology involved a two-stage alignment process. First, participants were scanned using fMRI (3T Siemens Prisma) and MEG (Elekta Neuromag) while listening to 30-minute narrative passages from the Moth…

围绕“What are the limitations of using LLMs as models of human language processing?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。