大脑如同大语言模型？新研究揭示神经预测与AI语言模型惊人相似

Q: 围绕“What are the limitations of using LLMs as models of human language processing?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

2026年4月25日 07:02 AINews Hacker News April 2026

来源：Hacker News 归档：April 2026

一项里程碑式研究发现，人脑语言网络在预测即将出现的词语时，其神经激活模式在统计上与大语言模型输出的概率分布高度吻合。这一发现挑战了基于规则的语言理论，并暗示了心智与机器之间可能存在根本性的算法统一。

一个由神经科学家和AI研究人员组成的团队发表研究成果，表明人脑语言处理系统基于一种预测编码机制运作，该机制与现代大语言模型（LLM）训练中使用的“下一个词预测”目标惊人相似。研究团队利用功能性磁共振成像（fMRI）和脑磁图（MEG），在参与者聆听自然语音时，记录了其颞叶和额叶的神经活动。随后，他们将这些激活模式与基于Transformer的模型（如GPT-4和LLaMA-3）生成的词元级概率分布进行了比较。结果发现：两者之间存在统计上显著、空间和时间上精确的对应关系。大脑对特定词语的反应并非简单的意义识别，而是对概率分布的动态编码。

技术深度解析

该研究的核心方法涉及一个两阶段对齐流程。首先，参与者在聆听来自Moth Radio Hour的30分钟叙事片段时，使用fMRI（3T Siemens Prisma）和MEG（Elekta Neuromag）进行扫描。fMRI数据提供了空间分辨率（约2mm各向同性体素），用于识别左侧后颞中回（pMTG）、额下回（IFG）和颞叶前部（ATL）中的语言响应区域。MEG数据则提供了毫秒级的时间分辨率，用于追踪预测误差信号的动态变化。

其次，相同的叙事文本被输入到三个开源LLM中：Meta的LLaMA-3-70B、Mistral AI的Mixtral 8x22B和Google的Gemma-2-27B。对于每个词位置，从模型的最终softmax层提取下一个词预测概率。关键的创新在于使用“表征相似性分析”（RSA）来比较高维神经激活模式（来自fMRI体素）与LLM的概率向量。RSA计算神经空间和模型空间中所有刺激对之间的相似性矩阵，然后对这两个矩阵进行相关性分析。结果显示，pMTG中的神经模式与LLM概率分布之间的Spearman秩相关系数为r = 0.47（p < 0.001）——这在认知神经科学中是一个强效应。

至关重要的是，这种对应关系不仅体现在空间上，还体现在时间上。MEG数据显示，大脑的预测误差信号——即预期词与实际词之间的差异——在词出现后约150毫秒达到峰值，这与已知索引语义处理的N400成分一致。这表明大脑不仅仅是在匹配一个静态概率，而是在实时主动计算预测误差，这与用于训练LLM的损失函数非常相似。

最具争议性的发现之一是，大脑的预测并不局限于确切的下一个词。神经模式编码了多个可能续接词的“概率分布”，该分布的宽度与LLM输出的熵相关。例如，在像“The cat sat on the ___”（高熵：mat, floor, chair, rug）这样的句子中，与低熵句子如“The sun rises in the ___”（低熵：east）相比，大脑显示出更宽、峰值更不明显的激活模式。这直接反映了LLM的置信度校准。

| 模型 | 参数 | 大脑相关性 (RSA r) | 熵对齐 (R²) | 推理速度 (tokens/s) |
|---|---|---|---|---|
| LLaMA-3-70B | 70B | 0.47 | 0.82 | 45 (A100) |
| Mixtral 8x22B | 141B (稀疏) | 0.44 | 0.79 | 62 (A100) |
| Gemma-2-27B | 27B | 0.41 | 0.75 | 89 (A100) |
| GPT-4 (闭源) | ~200B (估计) | 0.49 (通过API) | 0.85 | 30 (专有) |

数据要点： 相关性在不同模型规模上都很稳健，但较小的Gemma-2-27B显示出略低的对齐度，这表明模型规模可能与神经保真度相关。然而，Mixtral的稀疏架构以更高的效率实现了接近LLaMA-3的性能，暗示类脑稀疏性可能成为未来模型的设计原则。

一个值得关注的相关开源项目是“BrainLM”仓库（github.com/translucy/brainlm），该项目尝试直接在fMRI数据上训练Transformer，以预测对自然语言的神经反应。截至2025年4月，该项目已获得2300颗星，并被用于生成合成神经数据，以训练脑机接口。

关键参与者与案例研究

该研究由麻省理工学院（MIT）大脑与认知科学系的Anna Ivanova博士领导，并与Evelina Fedorenko博士的实验室合作——后者是“语言网络”功能定位器的创建者。Fedorenko之前的工作已经表明，大脑的语言网络与涉及社会认知的“默认模式网络”是不同的，这使得本研究成为首次与LLM的直接计算对齐。

在AI方面，研究团队使用了来自Meta（LLaMA-3）、Mistral AI（Mixtral）和Google DeepMind（Gemma）的开源权重模型。值得注意的是，他们还通过API测试了OpenAI的GPT-4，但该模型的封闭性限制了可重复性。这引发了神经科学界的呼声，要求AI公司发布更详细的模型内部信息，例如中间层激活，以促进进一步的脑-模型比较。

Anthropic正在进行一项并行工作，研究人员使用“可解释性”工具——如稀疏自编码器——将LLM特征映射到神经放电模式。在2025年3月发布的一篇预印本中，Anthropic团队展示了Claude 3.5 Sonnet中的特定“特征神经元”（例如，“猫”特征）在人脑梭状回中有对应的体素簇。这表明对齐可能从语言扩展到视觉和多模态处理。

| 组织 | 研究重点 | 关键工具/模型 | 公开数据？ |
|---|---|---|---|
| MIT (Ivanova/Fedorenko) | 脑-LLM对齐 | fMRI/MEG + LLM RSA | 是（O

时间归档

常见问题

这次模型发布“Brain Like an LLM? New Study Shows Neural Predictions Mirror AI Language Models”的核心内容是什么？

A team of neuroscientists and AI researchers has published findings that the human brain's language processing system operates on a predictive coding mechanism strikingly similar t…

从“How does the brain's next-word prediction compare to LLM token prediction in real-time?”看，这个模型发布为什么重要？

The study's core methodology involved a two-stage alignment process. First, participants were scanned using fMRI (3T Siemens Prisma) and MEG (Elekta Neuromag) while listening to 30-minute narrative passages from the Moth…

围绕“What are the limitations of using LLMs as models of human language processing?”，这次模型更新对开发者和企业有什么影响？