技术深度解析
SpaceX的AI堆栈是一个为延迟、自主性和迭代学习而设计的三层系统。在最底层,猎鹰9号和星舰的飞行控制系统采用定制神经网络架构,运行在抗辐射FPGA和GPU上。该网络实时处理来自3000多个传感器的遥测数据,融合惯性测量单元、GPS、激光雷达和光学摄像头的信息。控制律并非传统的PID回路,而是一个基于深度强化学习策略的模型,该策略在数百万条模拟轨迹上训练而成。模型以100Hz的频率输出执行器指令,用于万向节推力矢量控制、栅格翼定位和着陆腿展开。该系统于2015年实现了轨道级助推器的首次全自主着陆,此后将人工干预减少至任务时间的10%以下——主要集中在发射前检查阶段。关键创新在于使用了一个“安全探索”约束层,防止神经网络输出超出已验证物理极限的指令,这一技术在SpaceX的专利文件(US20210009281A1)中有所记载。
第二层是星链卫星边缘计算平台。每颗V2 Mini卫星搭载了一款名为“Starcore”的定制ASIC——一款7nm工艺芯片,在15W功耗下提供32 TOPS的INT8推理性能。该芯片专为低延迟推理设计,支持计算机视觉模型(用于空间碎片规避)和自然语言模型(用于自动遥测分析)。软件栈基于针对芯片稀疏张量核心优化的PyTorch分支构建,并配备名为“OrbitML”的自定义运行时,负责模型量化和空中升级。SpaceX已在GitHub上开源了部分模型序列化格式,仓库名为“spacex/starformat”(目前获得1200颗星),允许第三方开发者编译模型用于轨道部署。典型推理任务——从机载摄像头数据中分类碎片物体——的延迟为8毫秒,而如果将数据下行传输到地面站处理则需要1.2秒。这对于必须在检测到后100毫秒内执行的自主避碰机动至关重要。
第三层是地面训练基础设施。位于德克萨斯州麦格雷戈的设施集群由约10,000块NVIDIA H100 GPU组成,通过InfiniBand互连,总FP16算力达到197 exaflops。这大致相当于TOP500榜单上第15快的超级计算机。该集群用于训练一系列名为“StarSim”的基础模型,这些模型模拟轨道力学、大气再入动力学和卫星星座管理。模型基于来自猎鹰9号飞行和星链运营的超过50PB遥测数据训练而成。训练单个StarSim模型大约需要1200万美元的GPU算力成本,耗时14天。随后,模型被量化为FP8格式,通过激光星间链路以每颗卫星200 Gbps的速率上传至星链星座。整个流程——从轨道数据收集到模型部署——耗时不到48小时。
| 组件 | 硬件 | 算力(FP16) | 功耗 | 推理延迟 | 训练成本 |
|---|---|---|---|---|---|
| 飞行控制(猎鹰9号) | Xilinx RFSoC + NVIDIA Jetson AGX Orin | 2 TFLOPS | 75W | 10ms | 每模型200万美元 |
| 星链边缘(V2 Mini) | Starcore ASIC(7nm) | 32 TOPS(INT8) | 15W | 8ms | 每模型50万美元 |
| 地面集群(德克萨斯) | 10,000x H100 + InfiniBand | 197 EFLOPS | 35 MW | 不适用 | 每StarSim模型1200万美元 |
数据要点: 地面集群的算力是边缘节点的6000倍,但边缘节点低于10毫秒的延迟才是实时自主运行的关键。该系统设计遵循“重训练、轻推理”范式,即最密集的计算工作在地面完成,而最关键的实时决策在轨道上执行。
关键玩家与案例研究
SpaceX并非轨道AI领域的唯一玩家,但它是唯一拥有垂直整合堆栈的公司。最接近的竞争对手是亚马逊的Project Kuiper,该公司已宣布计划在其卫星上集成AI加速器,但芯片仍处于设计阶段,尚未部署任何飞行硬件。亚马逊位于华盛顿州雷德蒙德的地面训练集群估计拥有5000块H100 GPU——仅为SpaceX德克萨斯集群规模的一半。另一家竞争对手是欧洲初创公司Orbital Insight,它采用混合方法:在地面使用自己的地理空间AI模型处理卫星图像,但不在轨道上部署推理。这将其任务分配和分析的延迟限制在10-15分钟。
一个值得注意的案例是美国太空军的“TacSat”计划,该计划于2023年在一颗小型卫星上测试了AI载荷。该载荷使用了Google Edge TPU,实现了15毫秒的目标检测推理延迟,但卫星没有推进系统,无法根据检测结果自主行动。