StreetLearn:谷歌DeepMind那座被遗忘的街景与具身AI桥梁

GitHub April 2026
⭐ 318
来源:GitHubreinforcement learningembodied AI归档:April 2026
谷歌DeepMind于2018年发布的StreetLearn,是一项技术精湛却意外沉寂的研究遗产。它曾承诺在街景海量真实视觉数据与无地图城市导航AI之间架起革命性桥梁,为何最终未能成为主流研究工具?本文深入剖析其技术内核与时代际遇。

StreetLearn是谷歌DeepMind开发的开源强化学习环境,旨在为无地图城市导航研究提供仿真平台。其核心创新在于基于谷歌街景全景图像构建,为智能体提供了覆盖纽约和匹兹堡部分区域的高度逼真视觉环境。该套件不仅包含环境本身——一个高性能的C++/Python混合实现——还提供了其奠基性论文(NeurIPS 2018《Learning to Navigate in Cities Without a Map》)中的参考TensorFlow智能体。

在该环境中,智能体置身于一个第一人称、基于图结构的世界:节点是街景全景图,边是可行走的路径。智能体的任务是目标驱动式的:从起始全景图导航至指定的目标位置。其强化学习设定极具挑战性,仅在抵达目标时获得+1奖励,并通过每步微小惩罚鼓励高效路径寻找,迫使智能体纯粹从视觉输入中学习长程规划。

尽管技术架构先进,StreetLearn却始终未在具身AI研究社区中获得广泛采用。其根本矛盾在于:它用无与伦比的真实世界视觉保真度和城市级地理尺度,换取了较慢的仿真速度、静态的场景以及受限于预定义图结构的离散动作空间。这使其成为研究视觉表征学习和长程规划的独特沙盒,却也与后来该领域向交互任务、连续控制和快速迭代发展的主流趋势渐行渐远。

技术深度解析

StreetLearn的架构是针对海量数据问题的一个务实工程解决方案。其核心是一个图 \(G = (V, E)\),其中顶点 \(V\) 是街景全景图,边 \(E\) 代表基于实际街道连通性推导出的可行走路径。环境核心用C++实现,以保障渲染和图遍历的性能关键部分,同时通过Pybind11暴露Python接口,便于集成到机器学习工作流中。这种混合方法让研究者既能利用编译代码的速度进行环境模拟,又能使用Python控制智能体和训练循环。

视觉观察空间是该环境的定义性特征。智能体接收到的不是合成或简化的图形,而是从数十亿像素的街景全景图数据库中实时渲染出的60度等距柱面投影RGB图像切片。原论文中的智能体采用双流CNN架构:一个流处理当前视觉观察,另一个流处理“目标图像”——即目标位置的全景图视角。这些嵌入向量与一个循环神经网络(通常是LSTM)融合,该网络维护内部状态,使智能体能够整合时序信息并构建其路径的潜在表征。

其强化学习设定稀疏且充满挑战。智能体仅在抵达目标全景图时获得+1奖励,并通过时间惩罚(如每步-0.01)鼓励效率。这要求智能体纯粹从视觉输入中学习长程信用分配。原论文证明,智能体能够使用优势演员-评论家(A2C)算法学习有效的导航策略,最终表现甚至超过了能够访问完整图结构的非学习型最短路径基线——这一显著结果表明了真正的视觉导航能力确实能够涌现。

一个关键的技术限制在于动作空间。智能体沿着预定义的图边进行离散步骤移动。它无法执行精细运动或与物体交互;仅仅是选择下一个要跳转到的连接全景图。这种图约束的世界简化了问题,但也使其远离了实际机器人部署所需的连续控制。

| 环境维度 | StreetLearn实现 | 典型合成替代品(如Habitat、iGibson) |
|---|---|---|
| 视觉保真度 | 照片级真实(街景) | 程序化渲染,真实感不一 |
| 世界尺度 | 真实世界城市(有限区域) | 单体建筑或小型合成场景 |
| 动作空间 | 离散图遍历 | 通常为连续运动 |
| 场景多样性 | 高(真实城市变化) | 较低,除非经过大量人工整理 |
| 动态元素 | 静态(无移动车辆/行人) | 可编程实现 |
| 仿真速度 | 较慢(图像加载/渲染) | 更快(优化图形) |

数据启示: StreetLearn以牺牲仿真速度和动态交互性为代价,换取了无与伦比的视觉真实感和真实世界地理尺度。这使其成为研究视觉表征学习和长程规划的绝佳工具,但不太适用于底层控制或交互式任务研究。

关键参与者与案例研究

StreetLearn的开发由谷歌DeepMind的研究人员主导,包括NeurIPS 2018论文的关键作者Piotr Mirowski。该项目处于多个研究脉络的交汇点:DeepMind在深度强化学习(从DQN到AlphaGo)方面的专长、谷歌庞大的地图和图像基础设施,以及机器人社区对仿真到现实(sim2real)迁移的推动。

虽然StreetLearn本身是一个研究平台,但它在概念上与日益增长的具身AI模拟器生态系统形成竞争。Facebook AI Research的Habitat可以说是当前的主导者,它强调效率、室内空间照片级真实的3D扫描(通过Matterport3D),并专注于支持快速实验。斯坦福视觉与学习实验室的iGibson提供支持物理交互的场景。CARLA则是自动驾驶研究的领导者,提供了一个带有动态交通的详细城市驾驶模拟器。与这些相比,StreetLearn独特的价值主张在于其直接锚定于城市尺度的真实世界视觉纹理与布局。

然而,StreetLearn的案例研究却是一个采用度有限的案例。几个因素共同导致了这一结果。首先,计算成本:处理高分辨率街景图像需要大量存储和内存,且C++/Python的构建过程比纯Python模拟器设置了更高的入门门槛。其次,数据集是静态的,仅限于谷歌发布的特定区域。研究者无法像在可编程模拟器中那样轻松将其扩展到新城市或生成新场景。第三,领域焦点发生了转移。2018年之后,大量具身AI研究转向了指令跟随、密集交互和物理推理,这些方向在Habitat和iGibson等可扩展、可修改的模拟器中更容易实现。StreetLearn因其与静态、预定义现实世界的紧密绑定,在灵活性上做出了牺牲,而这恰恰是快速发展的研究领域所日益看重的特质。

更多来自 GitHub

SimCSE:用Dropout技巧颠覆句子嵌入的简单革命SimCSE是普林斯顿NLP团队于2021年提出的对比学习框架,以惊人的简洁性生成高质量句子嵌入。其核心创新在于利用Transformer模型中的标准Dropout作为噪声源来构建正样本对:将同一句子两次输入模型,每次使用不同的DropouMeta SAM 2 重新定义实时视频分割:AI News 深度解析Meta AI 正式发布 Segment Anything Model 2(SAM 2),这是一个面向图像与视频的实时、交互式分割统一框架。在初代 SAM 基于提示词分割的基础上,SAM 2 引入记忆机制与流式架构,能够按序处理视频帧并保持GraphCast从零开始:降低AI气象模型的使用门槛GitHub上的“sfsun67/graphcast-from-ground-zero”仓库是一个工具型项目,旨在大幅简化Google DeepMind旗下GraphCast——一款用于全球天气预报的尖端AI模型——的执行流程。GraphC查看来源专题页GitHub 已收录 2283 篇文章

相关专题

reinforcement learning84 篇相关文章embodied AI150 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

DeepMind推出MuJoCo Menagerie:标准化机器人仿真,为AI研发按下加速键谷歌DeepMind悄然发布了一项AI与机器人研究的基础性资源——MuJoCo Menagerie。这个为流行物理引擎MuJoCo精心打造的高质量优化机器人模型库,旨在成为仿真开发的标准化资源库。通过提供可靠且物理精确的模型,DeepMinMeta Habitat-Lab:驱动下一代具身AI的开源引擎Meta AI推出的Habitat-Lab已成为具身AI研究的基础性开源平台,为在逼真3D仿真环境中训练智能体提供标准化工具包。通过抽象底层环境复杂性,它显著加速了导航、操控与人机交互领域的研发进程。AllenAct如何通过模块化框架设计,让具身AI研究走向大众化艾伦人工智能研究所正式发布AllenAct——一个旨在加速具身人工智能研究的综合性开源框架。这套模块化系统为在仿真环境中训练和评估智能体提供了标准化工具,有望显著降低这一高门槛复杂研究领域的入门壁垒。GraphCast从零开始:降低AI气象模型的使用门槛一个名为“graphcast-from-ground-zero”的全新开源项目,承诺消除运行Google DeepMind的GraphCast气象模型所需的复杂环境配置。AINews深入探究这一工具是否解决了AI在科学领域应用的“最后一公里

常见问题

GitHub 热点“StreetLearn: Google DeepMind's Forgotten Bridge Between Street View and Embodied AI”主要讲了什么?

StreetLearn is an open-source reinforcement learning environment developed by Google DeepMind, providing a simulation platform for research into map-less urban navigation. Its core…

这个 GitHub 项目在“StreetLearn setup tutorial and installation issues”上为什么会引发关注?

StreetLearn's architecture is a pragmatic engineering solution to a massive data problem. At its heart is a graph \(G = (V, E)\) where vertices \(V\) are Street View panoramas and edges \(E\) represent navigable paths be…

从“StreetLearn vs Habitat performance comparison for visual navigation”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 318,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。