技术深度解析
Flourish的技术路线是对统治现代AI的Transformer架构的一次彻底背离。其算法的核心是脉冲神经网络(SNN),它将神经元建模为离散事件发生器,而非连续激活函数。在SNN中,只有当神经元的膜电位超过阈值时才会发放一个脉冲,随后复位。这种事件驱动计算天然具有稀疏性——大多数神经元在任意时刻都处于静默状态——从而带来巨大的能耗节省。这与Transformer形成鲜明对比:在Transformer中,每个token都要与所有其他token进行密集的二次方计算,能耗与序列长度的平方成正比。
Flourish还实现了脉冲时序依赖可塑性(STDP),这是一种具有生物合理性的学习规则,突触权重根据前后脉冲的精确时序进行调整。这与反向传播有本质区别:反向传播需要全局梯度计算,能耗极高。STDP是局部的、无监督的,并且可以直接在硬件中实现,有望实现片上学习,无需海量数据传输。
在硬件方面,Flourish押注于存内计算(IMC)。传统的冯·诺依曼架构需要在内存与处理器之间搬运数据,这一过程消耗的能量比计算本身高出数个数量级。IMC利用内存阵列(例如电阻式RAM或相变存储器)直接在数据所在位置执行模拟矩阵-向量乘法。这消除了数据搬运,并实现了大规模并行。挑战在于,模拟计算存在噪声,易受器件差异影响,且难以扩展到训练所需的精度。
| 指标 | Transformer(GPT-4级别) | Flourish SNN + IMC(预估) |
|---|---|---|
| 单次推理能耗(10亿参数模型) | ~10焦耳 | ~0.05焦耳 |
| 训练能耗(10亿参数模型) | ~1,000兆瓦时 | ~10兆瓦时 |
| 延迟(实时语音) | ~50毫秒 | ~5毫秒 |
| 精度(权重) | FP16 | 4位模拟(有效) |
| 硬件成熟度 | 成熟(GPU) | 原型(实验室) |
数据要点: 预估的100至200倍能耗节省令人震惊,但代价是精度和成熟度。IMC的模拟特性意味着,要达到与数字Transformer相同的精度,是一项艰巨的工程挑战。
一个值得关注的开源项目是Lava(英特尔的神经形态框架),它在GitHub上拥有超过1,500颗星,为SNN提供了软件栈。另一个是snnTorch(超过2,000颗星),它将SNN集成到PyTorch中。这些代码库表明研究社区正在积极探索这一领域,但它们距离生产就绪仍有很长的路要走。
关键玩家与案例研究
Flourish并非孤军奋战,但其方法最为激进。神经形态计算领域包括几家主要参与者,各自采取不同策略。
英特尔的Loihi 2是已投产的最先进神经形态芯片。它采用数字SNN核心,专为事件驱动的低功耗推理而设计。然而,它并未实现存内计算;尽管采用了专用架构,但仍使用分离的内存和逻辑。Loihi 2在嗅觉感知和机器人控制等任务上表现出色,但尚未在大型语言模型上展现出有竞争力的性能。
IBM的NorthPole芯片是另一个竞争者,它将近存计算与专用神经网络架构相结合。它在图像分类基准测试(ResNet-50,能耗仅为GPU的十分之一)上实现了令人印象深刻的能效,但并非为Flourish所瞄准的动态、序列型任务而设计。
| 公司 | 架构 | 关键指标 | 目标应用 | 成熟度 |
|---|---|---|---|---|
| Flourish | SNN + IMC(模拟) | 200倍能耗节省(声称) | 通用AI(LLM、视频) | 实验室原型 |
| 英特尔 Loihi 2 | 数字SNN | 100倍能耗节省(推理) | 感知处理、机器人 | 商用(有限) |
| IBM NorthPole | 近存数字 | 10倍能耗节省(推理) | 图像分类、边缘AI | 研究原型 |
| Groq | 张量流处理器 | 10倍延迟降低 | LLM推理 | 商用 |
数据要点: Flourish是唯一一家尝试将模拟IMC用于通用AI的玩家,这提供了最高的潜在回报,但也伴随着最高的风险。英特尔和IBM采取了更为保守的路径,专注于更易制造但能效提升较小的数字实现。
该领域的一位关键人物是Carver Mead,这位加州理工学院教授在20世纪80年代创造了“神经形态工程”一词。他在模拟VLSI电路模拟神经系统方面的研究为Flourish的方法奠定了基础。然而,Mead本人曾警告说,模拟电路天生存在噪声,要达到大规模计算所需的精度是一项极其艰巨的挑战。