技术深度解析
Nvidia 的 Halos 并非单一产品,而是一个分层式安全架构,覆盖从晶体管级设计到应用层监控的整个计算堆栈。该架构建立在三大基石之上:硬件冗余、实时决策监控 和 确定性安全状态接管。
硬件冗余与锁步架构
在硅片层面,Halos 强制要求所有安全关键功能采用双锁步核心配置。这意味着主 AI 流水线执行的每一次计算,都会由一个独立的次级核心同步执行。结果会逐周期进行比较。任何不匹配都会立即触发故障标志。这在航空航天或工业控制领域并非新鲜事,但将其应用于基于 GPU 的自动驾驶系统这种大规模并行、异构计算环境中,则是一项工程挑战。Nvidia 通过将 GPU 的流式多处理器(SM)划分为冗余组来实现这一点,并由一个专用的安全岛——一个经过加固的小型微控制器——来管理比较逻辑。这个安全岛运行自己的固件,与主操作系统隔离,确保软件漏洞不会破坏安全监控器。
实时决策监控(RTDM)
第二层是最具创新性的部分。Nvidia 开发了一个代号为 "Atlas" 的专用安全协处理器,它与主计算集群并列运行。Atlas 并不运行主要的感知或规划模型。相反,它运行一套轻量级、经过形式化验证的约束条件——本质上是一套硬编码的物理规则和交通规则。例如,如果主 AI 决定以 5 m/s² 的加速度加速,而 Atlas 在当前速度下检测到前方 10 米处有障碍物,Atlas 就可以将该决策标记为不安全。关键在于,Atlas 的模型不是神经网络;它们是确定性的、数学上可证明的算法。这完全避免了黑箱问题。该协处理器以 1000 Hz 的频率监控主 AI 的输出,将规划轨迹与由 ISO 26262 ASIL-D 和即将发布的 ISO 21448(SOTIF)标准定义的安全包络线进行比较。
AI 故障接管机制
最后一层是强制接管。如果 Atlas 判定主 AI 在其安全包络线之外运行——或者锁步核心检测到硬件故障——系统会启动一个优雅的降级序列。这不是简单的紧急制动,因为在高速公路上这可能非常危险。相反,Halos 会执行一个“最小风险机动”(MRM)。系统拥有一个预先计算好的安全状态库(例如,靠右停到路肩、减速至 5 英里/小时、打开双闪灯)。接管是瞬时的,延迟保证在 10 毫秒以下。Nvidia 已在 GitHub 上以仓库 `nvidia/halos-mrm-controller` 的形式发布了参考实现,自发布以来已获得超过 4200 颗星。该仓库包含一个使用 TLA+ 规范语言的形式化验证工具链,允许第三方开发者从数学上证明其 MRM 逻辑的正确性。
基准数据
| 安全指标 | Nvidia Halos (Drive Thor) | Qualcomm Snapdragon Ride Flex | Mobileye EyeQ Ultra |
|---|---|---|---|
| 锁步核心覆盖率 | 100% 安全关键路径 | 60%(部分) | 80%(部分) |
| RTDM 延迟(99 百分位) | 0.8 毫秒 | 2.1 毫秒 | 1.5 毫秒 |
| MRM 触发可靠性(FIT 率) | < 10 FIT | < 50 FIT | < 30 FIT |
| 形式化验证支持 | 完整(集成 TLA+) | 无 | 有限(专有) |
| ISO 26262 ASIL-D 合规性 | 是(已认证) | 进行中 | 是(已认证) |
数据要点: Nvidia 的 Halos 架构在安全延迟方面实现了 2-3 倍的改进,故障时间(FIT)率相比当前竞争对手降低了 5 倍。包含形式化验证工具是一个重要的差异化优势,因为它允许 OEM 从数学上证明安全属性,而不仅仅依赖统计测试。
关键玩家与案例研究
Halos 的发布直接影响了自动驾驶汽车和机器人生态系统中的几个主要参与者。Nvidia 的策略是让 Halos 成为任何使用其 Drive 平台的系统的默认安全层,该平台已为超过 800 家开发自动驾驶解决方案的公司提供支持。
Waymo 长期以来一直依赖一套定制的安全架构,该架构基于冗余传感器套件和一个独立的“安全驾驶员”计算机。虽然 Waymo 使用 Nvidia GPU 进行训练,但其车载计算是 Intel Xeon 处理器和定制 Google TPU 的混合体。Waymo 尚未承诺采用 Halos,但压力正在增加。Waymo 的安全记录虽然强劲,但也因几次高调的脱离事件而受损。采用 Halos 可以提供一个标准化、可审计的安全层,监管机构将难以忽视。
Tesla 是最直接的对比对象。Tesla 设计自己的全自动驾驶(FSD)芯片,并且历史上一直拒绝使用冗余传感器(如激光雷达),而是依赖纯视觉方案。Tesla 的安全策略建立在海量数据收集和影子模式的基础上,通过大规模车队学习来应对边缘情况。然而,这种方法缺乏 Halos 所提供的数学可证明性。Tesla 的 FSD 系统在遭遇罕见或对抗性场景时,其行为本质上是一个黑箱。如果 Nvidia 能够成功地将 Halos 推广为行业标准,Tesla 可能会面临越来越大的压力,需要证明其方法的可审计性——或者最终被迫采用类似 Halos 的架构。
Mobileye 是另一个关键参与者。Mobileye 的 EyeQ 芯片长期以来一直主导着高级驾驶辅助系统(ADAS)市场,并且 Mobileye 拥有自己的责任敏感安全(RSS)模型,该模型为驾驶行为提供了形式化模型。然而,RSS 主要关注决策层的安全,而 Halos 则从硬件冗余到形式化验证提供了更全面的覆盖。Mobileye 的 EyeQ Ultra 在 RTDM 延迟和 FIT 率方面落后于 Halos,并且缺乏集成的形式化验证工具链。Nvidia 正在直接挑战 Mobileye 在安全领域的传统优势。
机器人技术 是 Halos 的另一个重要应用领域。波士顿动力、Agility Robotics 和众多工业机器人制造商都在其系统中使用 Nvidia 的 Jetson 平台。对于这些应用,Halos 可以提供类似的安全保证,确保机器人在与人互动时不会造成伤害。Halos 的 MRM 机制可以针对机器人进行定制,例如,在检测到故障时,执行“安全停止并降低手臂”的操作。