技术深度解析
Meshcore本质上并非单一协议,而是一种融合了多项尖端技术与改造技术的架构模式。其目标是创建一个容错、可扩展的网络,任何参与者均可贡献算力(作为“提供者”),任何参与者也可请求推理服务(作为“消费者”)。
该架构通常包含以下几个层次:
1. 发现与编排层: 节点宣告其能力(GPU类型、显存、支持的模型框架)并加入一个去中心化注册表。一个调度器(其本身也可以是去中心化的,例如使用DHT或轻量级区块链)根据成本、延迟和硬件兼容性,将推理任务匹配给合适的提供者。像Bittensor的Subnet机制(针对机器学习任务)提供了概念上的先驱,尽管其更侧重于训练而非低延迟推理。
2. 执行与容器化层: 为处理异构性,模型及其依赖项被打包成标准化、安全的容器(例如支持GPU透传的Docker)。一项关键创新是超轻量级、即时模型分区与加载系统的开发,该系统能够将大型模型拆分到位于不同物理位置的多个消费级GPU上运行,这项技术超越了传统局限于单个数据中心机柜内的模型并行方法。
3. 共识与验证层: 这是最深刻的挑战。在去中心化网络中,你不能信任任何单一提供者会正确执行模型。解决方案正在探索密码学验证。一种方法是使用zk-SNARKs(零知识简洁非交互式知识论证)来生成证明,证实特定模型输出是从给定输入和模型权重正确推导而来。然而,为万亿参数模型推理生成zk证明目前在计算上是不可行的。更务实的中期解决方案包括经济共识(例如,在多个节点上进行冗余执行,并对输出不匹配的节点实施惩罚机制,正如Gensyn为训练设计的那样)以及带有欺诈证明的乐观验证。
一个值得关注的关键开源项目是`petals`(GitHub: `bigscience-workshop/petals`)。它允许通过将模型层分布在志愿者计算机上来协作运行像BLOOM-176B这样的大语言模型。虽然并非完整的Meshcore实现,但它证明了去中心化推理的可行性,已实现了来自贡献者的超过10万个模型层部署。其性能指标揭示了核心权衡:
| 推理任务 | 集中式云 (A100) | Petals 网络 (GeForce RTX 3090) | 备注 |
|---|---|---|---|
| 延迟(首个词元) | 50-100 毫秒 | 500-1500 毫秒 | 较高,源于志愿者节点间的网络跳转。 |
| 吞吐量(词元/秒) | ~100 | ~20 | 受限于计算链中最慢的节点。 |
| 成本 | 每100万词元 $X | 约便宜5-10倍(估计) | 直接货币成本近乎为零;成本体现在延迟上。 |
数据启示: `petals`的数据阐明了Meshcore的根本权衡:直接货币成本的大幅降低是以延迟和吞吐量为代价实现的。这使其适用于非实时、批处理或研究导向的推理,但对于交互式聊天应用则具有挑战性。低延迟P2P路由和网内缓存技术的进步对于缩小这一差距至关重要。
主要参与者与案例研究
该领域正从学术概念验证演变为风险投资支持的初创公司,每家在去中心化计算这一主题下的侧重点略有不同。
* Gensyn: 虽然主要专注于去中心化*训练*,但Gensyn的密码学验证系统(使用概率学习证明)是一个里程碑。它展示了一种可行的、无需信任的验证复杂机器学习工作的方法。其由a16z crypto领投的4300万美元A轮融资,表明了投资者对其底层验证技术的强烈信心,该技术可被适配用于推理。
* Together AI: 定位更接近于“去中心化云”替代方案,Together AI聚合云实例和志愿者计算资源,以提供开放模型推理API。他们正在构建一个完整Meshcore网络所需的开发者工具和经济层,在短期内扮演着中心协调者的角色。
* Bittensor: 一个去中心化网络,参与者托管机器学习模型(“矿工”),并根据其输出对其他参与者(“验证者”)的有用性获得TAO代币奖励。它可以说是最大的去中心化智能网络实际部署,尽管其主观共识机制更适合开放式任务而非确定性推理。
* Io.net: 专门致力于将未被充分利用的GPU(从数据中心到消费级设备)聚合为用于ML推理和训练的云服务。它突显了将闲置算力商品化并引入主流市场的商业潜力。