技术深度剖析
西雅图魔幻环岛,看似是一种结构简单的交通设施:一个连接多条主干道、多车道且无信号灯的环形交叉口。其复杂性在于“涌现”。人类驾驶员依靠一套共享的、不成文的“社会契约”来驾驭它——这包括眼神交流、微小的车身移动,以及对当地驾驶文化的理解(例如“西雅图滑行”,即司机会挥手示意让你先走,但期望你立刻行动)。
当前的自动驾驶汽车(AV)系统在此地失败,根本原因在于:它们建立在概率性障碍规避的范式之上,而非意图理解。一个典型的AV处理流程包括:
1. 感知: LiDAR、摄像头和雷达构建出世界的3D地图,识别出物体(汽车、自行车、行人)。
2. 预测: 一个轨迹预测模型(通常是循环神经网络或Transformer)预测这些物体未来5-10秒的运动路径。这通常是对每个物体独立进行的。
3. 规划: 一个运动规划器(例如使用模型预测控制或基于搜索的算法)找到一条安全、舒适的路径,以避开所有预测轨迹。
问题出在预测环节。在环岛中,一辆车的未来路径不仅取决于其自身的物理运动,还取决于AV本身的行为。这是一个多智能体交互预测问题,而当前大多数系统对此处理得很糟糕。它们假设其他智能体是“反应式”的,而非“交互式”的——它们没有建模“其他司机也在试图弄清楚AV会做什么”这一事实。这导致了“冻结机器人”问题:AV等待一个永远不会出现的空档,因为人类司机看到一辆犹豫不决的机器人,不会像对待一个会进行眼神交流并向前试探的人类那样让行。
解决这一问题的关键技术路径是隐式通信建模。研究人员正在探索使用逆强化学习(IRL)来推断其他司机的“奖励函数”。例如,AV可以学会,一个车身略微朝向出口、车轮已转向的司机很可能要驶出,即使他并未打转向灯。另一个有前景的方向是博弈论规划,即AV将环岛明确建模为一个博弈,其中每个智能体的行为都会影响其他智能体。开源代码库nuPlan(由nuTonomy/Motional开发)为规划研究提供了大规模数据集,但在处理此类高度交互的场景时仍显吃力。另一个相关的代码库是MetaDrive(GitHub: metadriverse/metadrive),这是一个模拟器,允许研究人员生成包括环岛在内的复杂交通场景,以测试多智能体协调能力。该项目已获得超过1500颗星,并被积极用于强化学习研究。
| 指标 | 当前基于规则的AV | 人类驾驶员 | 意图感知AI(目标) |
|---|---|---|---|
| 通行效率(辆/小时) | 800-1,000(导致拥堵) | 1,500-1,800 | 1,400-1,700 |
| 平均等待时间(秒) | 45-60 | 15-25 | 20-30 |
| 碰撞率(每千次通过) | 0.1(过度谨慎) | 0.05 | 0.02 |
| 成功汇入率(%) | 60% | 98% | 95% |
数据要点: 该表显示,当前基于规则的AV为了安全牺牲了通行效率和成功率,反而造成了拥堵。意图感知AI的目标是在达到人类水平效率的同时,超越人类的安全水平,这是一个极具挑战性的优化问题。
关键玩家与案例研究
魔幻环岛问题是整个行业面临更大挑战的一个缩影。多家公司正从不同角度应对这一难题:
* Waymo (Alphabet): Waymo在旧金山和菲尼克斯的策略依赖于高精度地图和保守的规划。其系统设计追求可预测性,而非协商。在魔幻环岛场景中,一辆Waymo很可能会等待一个几乎不可能出现的大空档,从而引发交通堵塞。它的优势在于结构化环境,而非模糊的社交场景。
* Tesla (FSD Beta): Tesla的端到端神经网络方法,通过视频数据学习驾驶,理论上更适合此类场景。它可以学习环岛的“氛围”。然而,FSD Beta已被观察到在复杂环岛中“困惑”,有时会无限绕圈或做出突兀、不安全的决策。其“黑箱”特性使得调试具体的社交误解变得困难。
* Mobileye (Intel): Mobileye的责任敏感安全(RSS)模型是一种形式化的数学安全方法。它定义了“安全状态”和追责规则。虽然RSS在高速公路上表现出色,但在环岛这种没有明确“路权”、只有协商空间的“灰色地带”却难以应对。Mobileye目前正在研发“社交合规”的规划扩展。
* 初创公司如Waabi和Ghost Autonomy: 这些公司正明确聚焦于“世界模型”问题。由AI研究员Raquel Urtasun领导的Waabi,其核心目标就是构建能够理解并预测其他道路使用者意图的AI系统,从根本上解决魔幻环岛这类场景带来的挑战。