技术深度解析
太空计算的核心挑战并非将硬件送入轨道——而是让它在轨存活并高效运行。
抗辐射加固 vs. 软件缓解
标准AI加速器(NVIDIA H100/B200、AMD MI300X)采用先进工艺节点(4–5纳米)制造,晶体管尺寸极小。在太空中,来自宇宙射线和太阳耀斑的高能质子和重离子可能导致单粒子闩锁(SEL)摧毁芯片,或单粒子翻转(SEU)破坏寄存器或DRAM中的数据。传统方法是使用抗辐射加固(rad-hard)芯片,它们采用更大的特征尺寸(例如28纳米或65纳米)和特殊电路设计(如三模冗余)。然而,抗辐射芯片在代际上落后于商用部件——最先进的抗辐射FPGA,Xilinx(现AMD)Kintex UltraScale XQRKU060,基于20纳米工艺,其AI推理吞吐量仅为现代GPU的约十分之一。
一种由Cosmic Shielding Corporation和Zero Error Systems等初创公司开创的新方法,采用基于软件的纠错:在商用芯片上运行同一模型的多个副本,通过多数投票检测并纠正SEU。这种方法对推理有效,但会使有效计算成本翻倍或三倍。对于训练,其开销过高,因为梯度更新对数据损坏极为敏感。
真空中的热管理
在地球上,数据中心依赖强制风冷或液冷。在太空中,没有空气。唯一的散热机制是辐射冷却——向深空发射红外光子。斯特藩-玻尔兹曼定律表明,一个300K(27°C)的黑体辐射体每平方米仅能耗散约460瓦。一块H100 GPU在负载下功耗可达700瓦。要冷却一个包含8块GPU(5.6千瓦)的机架,需要大约12平方米的散热器面积——比卫星本体还大。Lumen Orbit等公司正在试验可展开散热面板和相变材料(PCM),后者在峰值负载时吸收热量,在空闲时段辐射出去,但这增加了质量和复杂性。
轨道延迟 vs. 光纤
支持者声称,对于长距离连接,LEO计算的延迟低于光纤,因为光在真空中(299,792公里/秒)比在玻璃光纤中(约200,000公里/秒)传播更快。对于纽约用户向悉尼服务器发送请求,光纤路径约16,000公里(往返80毫秒)。一颗500公里高度的LEO卫星通过星间激光链路理论上可在约40毫秒内路由同一请求。然而,这一优势仅对超过2,000公里的路径成立。对于区域推理(例如旧金山用户查询托管在俄勒冈州的模型),地面光纤更快且更便宜。
数据表:计算性能对比
| 指标 | 地面(H100集群) | LEO抗辐射(XQRKU060) | LEO商用+ECC(H100) |
|---|---|---|---|
| 推理吞吐量(LLaMA-70B tokens/秒) | 1,200 | 15 | 900(带3倍冗余) |
| 每GPU功耗(W) | 700 | 25 | 700 |
| 每GPU散热器质量(kg) | 0 | 15 | 15 |
| 每GPU发射成本($) | 0 | $15,000 | $15,000 |
| 预期寿命(年) | 10 | 7 | 5 |
| SEU率(错误/GPU/年) | <0.01 | <0.001 | ~50(已纠正) |
数据要点: 使用商用GPU配合软件纠错可提供有竞争力的推理吞吐量,但由于发射和散热器质量,总拥有成本(TCO)高出10倍。抗辐射方案对于现代LLM来说速度太慢。目前,这两条路径对通用AI都不具备经济可行性。
关键玩家与案例研究
Lumen Orbit(华盛顿州雷德蒙德)是最引人注目的玩家。由前SpaceX和微软工程师创立,他们于2024年向国际空间站发射了一个原型计算模块。其设计采用定制机架,可装入标准天鹅座货运舱,配备被动散热器以及商用AMD MI250 GPU和抗辐射FPGA的混合方案。他们声称目标推理成本为每百万tokens 0.50美元——与GPT-4o定价相当——但尚未展示超过30天的持续运行。其GitHub仓库(lumen-orbit/space-compute)拥有2,300颗星,包含轨道热动力学仿真代码。
Axiom Space(德克萨斯州休斯顿)正在为国际空间站建造商业模块,将托管供NASA和国防部客户使用的AI计算架。他们的方法不那么激进——使用带有重型屏蔽的地面硬件,并依赖机组人员维护——但这是目前唯一运营中的太空计算服务。定价未公开,但分析师估计每小时计算时间费用在10,000至50,000美元之间。
Cosmic Shielding Corporation(加利福尼亚州帕洛阿尔托)不发射服务器,但销售抗辐射存储器和逻辑IP。其专利技术“纠错码(ECC)2.0”声称可在不产生三模冗余性能损失的情况下,将SEU率降低99%。他们有一个GitHub仓库(cosmic-shielding/ecc2),拥有850颗星,并提供Verilog参考实现。
数据表:存