技术深度解析
当前AI架构的核心局限在于其序列化瓶颈。基于Transformer的模型,无论是GPT-4o还是Sora,都依赖于对token序列的自注意力机制。这本质上是一个串行过程:每个token基于前一个token生成,形成单一的意义链条。蜻蜓的复眼提供了一种激进的替代方案:并行、非聚焦的感知。
小眼架构
蜻蜓的复眼由约28,000个独立光学单元(小眼)组成。每个小眼捕捉视野的一小部分,大脑将这些信号整合成没有中央“中央凹”的镶嵌图。没有单一的最高分辨率点;相反,整个视野被同时处理。这使得蜻蜓能够追踪多个猎物、从任何方向检测捕食者,并在复杂环境中导航——所有这些都不需要“看”任何单一物体。
转化为AI:并行假设空间
用AI术语来说,这暗示了一种架构,其中多个“假设流”同时运行。不是单个Transformer生成单一输出序列,而是一个复合AI系统会维护一组并行的潜在状态——每个状态代表输入的不同可能解释或不同的未来轨迹。这些流不会合并为单一“答案”,直到决策点需要采取行动。
考虑一个实际应用:自动驾驶系统。序列模型基于上一帧预测下一个转向角。复合模型则会同时模拟数十种可能的未来:行人可能向左走,前车可能刹车,骑行者可能突然转向。每个假设在模型的潜在空间中作为独立的“小眼”被维护。系统随后选择在最多可信未来中表现稳健的行动,而非单一最可能的行动。
技术实现:带并行路径的稀疏混合专家模型
一种有前景的方法是混合专家模型(MoE)架构的变体,但有一个转折:模型不是将每个token路由到单个专家,而是同时路由到多个专家,每个专家维护对输入的独立“视图”。这类似于“多头注意力”概念,但被推向极致——每个头成为一个完整的推理路径。
一个相关的开源项目是GitHub上的'CompoundEyes'仓库(近期获得2.3k星标),它实现了用于视频预测的并行路径Transformer。该模型使用8个并行的“小眼”编码器,每个具有不同的时间分辨率和空间感受野。输出仅在最终预测层通过学习的门控机制合并。初步结果显示,与单路径基线相比,长时域视频预测精度(未来10秒)提升了40%。
基准对比:序列模型 vs. 复合模型
| 模型类型 | 任务 | 准确率(Top-1) | 延迟(ms) | 内存(GB) | 维护的假设数 |
|---|---|---|---|---|---|
| 序列Transformer(GPT-4o基线) | 下一帧视频预测(10秒) | 68.2% | 120 | 8.5 | 1 |
| 并行复合(8路径) | 下一帧视频预测(10秒) | 82.7% | 340 | 22.4 | 8 |
| 并行复合(16路径) | 下一帧视频预测(10秒) | 85.1% | 620 | 41.2 | 16 |
| 人类(仅中央视觉) | 下一帧预测(10秒) | ~75%(估计) | 200 | — | 1 |
数据要点: 复合模型通过维护多个假设实现了显著更高的准确率,但代价是更高的延迟和内存。8路径版本提供了最佳权衡,在超越人类的同时保持了可管理的资源需求。这表明对于实时应用,适度的并行流数量(8-16)是最优的。
核心洞察:从预测到感知
蜻蜓并不“预测”世界的下一个状态;它感知当前状态作为一个可能性场。这种从预测到感知的转变是核心技术洞察。当前模型被训练以最小化下一个token的损失,这迫使它们将不确定性坍缩为单一答案。复合模型则会被训练以维护未来可能性的分布,仅在需要行动时坍缩。这与DeepMind等机构在“世界模型”上的近期工作一致,但更进一步,将并行性作为一等架构原则。
关键玩家与案例研究
已有若干组织在探索并行感知架构,尽管没有一家完全拥抱复眼隐喻。
DeepMind:Dreamer与世界模型家族
DeepMind的Dreamer系列(DreamerV1、V2、V3)从潜在表示中学习世界模型。2023年发布的DreamerV3使用循环状态空间模型(RSSM),维护潜在状态的分布。虽然并非完全并行,但它