大脑如同大语言模型?新研究揭示神经预测与AI语言模型惊人相似

Hacker News April 2026
来源:Hacker News归档:April 2026
一项里程碑式研究发现,人脑语言网络在预测即将出现的词语时,其神经激活模式在统计上与大语言模型输出的概率分布高度吻合。这一发现挑战了基于规则的语言理论,并暗示了心智与机器之间可能存在根本性的算法统一。

一个由神经科学家和AI研究人员组成的团队发表研究成果,表明人脑语言处理系统基于一种预测编码机制运作,该机制与现代大语言模型(LLM)训练中使用的“下一个词预测”目标惊人相似。研究团队利用功能性磁共振成像(fMRI)和脑磁图(MEG),在参与者聆听自然语音时,记录了其颞叶和额叶的神经活动。随后,他们将这些激活模式与基于Transformer的模型(如GPT-4和LLaMA-3)生成的词元级概率分布进行了比较。结果发现:两者之间存在统计上显著、空间和时间上精确的对应关系。大脑对特定词语的反应并非简单的意义识别,而是对概率分布的动态编码。

技术深度解析

该研究的核心方法涉及一个两阶段对齐流程。首先,参与者在聆听来自Moth Radio Hour的30分钟叙事片段时,使用fMRI(3T Siemens Prisma)和MEG(Elekta Neuromag)进行扫描。fMRI数据提供了空间分辨率(约2mm各向同性体素),用于识别左侧后颞中回(pMTG)、额下回(IFG)和颞叶前部(ATL)中的语言响应区域。MEG数据则提供了毫秒级的时间分辨率,用于追踪预测误差信号的动态变化。

其次,相同的叙事文本被输入到三个开源LLM中:Meta的LLaMA-3-70B、Mistral AI的Mixtral 8x22B和Google的Gemma-2-27B。对于每个词位置,从模型的最终softmax层提取下一个词预测概率。关键的创新在于使用“表征相似性分析”(RSA)来比较高维神经激活模式(来自fMRI体素)与LLM的概率向量。RSA计算神经空间和模型空间中所有刺激对之间的相似性矩阵,然后对这两个矩阵进行相关性分析。结果显示,pMTG中的神经模式与LLM概率分布之间的Spearman秩相关系数为r = 0.47(p < 0.001)——这在认知神经科学中是一个强效应。

至关重要的是,这种对应关系不仅体现在空间上,还体现在时间上。MEG数据显示,大脑的预测误差信号——即预期词与实际词之间的差异——在词出现后约150毫秒达到峰值,这与已知索引语义处理的N400成分一致。这表明大脑不仅仅是在匹配一个静态概率,而是在实时主动计算预测误差,这与用于训练LLM的损失函数非常相似。

最具争议性的发现之一是,大脑的预测并不局限于确切的下一个词。神经模式编码了多个可能续接词的“概率分布”,该分布的宽度与LLM输出的熵相关。例如,在像“The cat sat on the ___”(高熵:mat, floor, chair, rug)这样的句子中,与低熵句子如“The sun rises in the ___”(低熵:east)相比,大脑显示出更宽、峰值更不明显的激活模式。这直接反映了LLM的置信度校准。

| 模型 | 参数 | 大脑相关性 (RSA r) | 熵对齐 (R²) | 推理速度 (tokens/s) |
|---|---|---|---|---|
| LLaMA-3-70B | 70B | 0.47 | 0.82 | 45 (A100) |
| Mixtral 8x22B | 141B (稀疏) | 0.44 | 0.79 | 62 (A100) |
| Gemma-2-27B | 27B | 0.41 | 0.75 | 89 (A100) |
| GPT-4 (闭源) | ~200B (估计) | 0.49 (通过API) | 0.85 | 30 (专有) |

数据要点: 相关性在不同模型规模上都很稳健,但较小的Gemma-2-27B显示出略低的对齐度,这表明模型规模可能与神经保真度相关。然而,Mixtral的稀疏架构以更高的效率实现了接近LLaMA-3的性能,暗示类脑稀疏性可能成为未来模型的设计原则。

一个值得关注的相关开源项目是“BrainLM”仓库(github.com/translucy/brainlm),该项目尝试直接在fMRI数据上训练Transformer,以预测对自然语言的神经反应。截至2025年4月,该项目已获得2300颗星,并被用于生成合成神经数据,以训练脑机接口。

关键参与者与案例研究

该研究由麻省理工学院(MIT)大脑与认知科学系的Anna Ivanova博士领导,并与Evelina Fedorenko博士的实验室合作——后者是“语言网络”功能定位器的创建者。Fedorenko之前的工作已经表明,大脑的语言网络与涉及社会认知的“默认模式网络”是不同的,这使得本研究成为首次与LLM的直接计算对齐。

在AI方面,研究团队使用了来自Meta(LLaMA-3)、Mistral AI(Mixtral)和Google DeepMind(Gemma)的开源权重模型。值得注意的是,他们还通过API测试了OpenAI的GPT-4,但该模型的封闭性限制了可重复性。这引发了神经科学界的呼声,要求AI公司发布更详细的模型内部信息,例如中间层激活,以促进进一步的脑-模型比较。

Anthropic正在进行一项并行工作,研究人员使用“可解释性”工具——如稀疏自编码器——将LLM特征映射到神经放电模式。在2025年3月发布的一篇预印本中,Anthropic团队展示了Claude 3.5 Sonnet中的特定“特征神经元”(例如,“猫”特征)在人脑梭状回中有对应的体素簇。这表明对齐可能从语言扩展到视觉和多模态处理。

| 组织 | 研究重点 | 关键工具/模型 | 公开数据? |
|---|---|---|---|
| MIT (Ivanova/Fedorenko) | 脑-LLM对齐 | fMRI/MEG + LLM RSA | 是(O

更多来自 Hacker News

AI Token成本危机:超越模型替换,走向工程纪律AI即服务时代隐藏着一项隐性税:Token消耗。无论是初创公司还是大型企业,大语言模型(LLM)的月度API账单都可能膨胀至六位数,威胁着单位经济模型。虽然许多公司急于将GPT-4o等昂贵模型替换为Claude 3 Haiku或开源Llam用Python和Tkinter构建LLM平台:一位开发者为何选择“过时”技术,以及这为何重要在重型框架和云端依赖AI工具大行其道的当下,一位独立开发者用Python和Tkinter——一个被许多人认为已过时的GUI工具包——构建了一个功能完备的大型语言模型(LLM)平台。该项目已在开源社区获得关注,它证明无需Docker、CUDAApple MDM强制本地LLM:零数据外泄的AI革命正式开启在最新的开发者测试版中,苹果引入了一项配置描述文件选项,启用后,所有Apple Intelligence的LLM请求将被强制在设备端完全处理,不会回退至苹果的Private Cloud Compute(PCC)服务器。该功能专为移动设备管理查看来源专题页Hacker News 已收录 4385 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

AI Token成本危机:超越模型替换,走向工程纪律随着AI应用规模化部署,大语言模型的Token消耗正悄然侵蚀企业利润。AINews调查发现,工程团队正通过缓存复用、提示压缩、动态模型路由和批量处理等多管齐下的策略,在不牺牲输出质量的前提下,将API成本削减40%至70%。用Python和Tkinter构建LLM平台:一位开发者为何选择“过时”技术,以及这为何重要当AI行业追逐更大模型和云端基础设施时,一位开发者却用Python和Tkinter——一个常被视为过时的GUI工具包——构建了完整的LLM平台。这场反文化实验证明,功能完备、人人可用的AI工具可以源自最基础的代码,挑战了AI开发所需条件的固Apple MDM强制本地LLM:零数据外泄的AI革命正式开启苹果最新开发者测试版中一项潜在新功能,将允许企业IT管理员强制所有大语言模型请求仅在设备端处理,甚至阻断苹果自家的Private Cloud Compute。这项零数据外泄政策,标志着企业AI数据主权迎来关键转折点。CalmSEO的静默革命:AI代理接管Google Search ConsoleCalmSEO发布全新工具集,让AI代理直接调用Google Search Console与关键词数据,彻底绕过人工操作面板。这标志着从人类主导的SEO向代理原生工作流的根本转变——自主代理独立分析数据并执行优化任务,无需人工介入。

常见问题

这次模型发布“Brain Like an LLM? New Study Shows Neural Predictions Mirror AI Language Models”的核心内容是什么?

A team of neuroscientists and AI researchers has published findings that the human brain's language processing system operates on a predictive coding mechanism strikingly similar t…

从“How does the brain's next-word prediction compare to LLM token prediction in real-time?”看,这个模型发布为什么重要?

The study's core methodology involved a two-stage alignment process. First, participants were scanned using fMRI (3T Siemens Prisma) and MEG (Elekta Neuromag) while listening to 30-minute narrative passages from the Moth…

围绕“What are the limitations of using LLMs as models of human language processing?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。