您现在的位置是：首页 > 人工智能人工智能

ROAD数据集 | 基于道路事件，会让自动驾驶像人那样感知环境吗？

cc博主2021-11-16【人工智能】822人已围观

作者 | 洁萍

编辑 | 青暮

自动驾驶汽车如何像人那样感知环境并做出决策？

像人一样感知环境并做出决策，这是人们对自动驾驶汽车的最终想象。经过多年的研究，当前自动驾驶汽车主要存在三大类感知决策控制方法，分别为sequential planning、behavior-aware planning以及end-to-end planning。

sequential planning属于最传统的方法，感知、决策与控制三个部分层次较为清晰；behavior-aware planning的亮点在于引入了人机共驾、车路协同以及车辆对外部动态环境的风险预估；而时下最热门的方法之一，则是end-to-end planning，这种方法基于DL、DRL技术，可以借助大量的数据做训练，获得从图像等感知信息到方向盘转角等车辆控制输入的关系。

牛津布鲁斯大学计算机视觉实验室的研究团队，就基于端到端的方法，发表了第一类面向自动驾驶车辆的道路事件感知数据集（ROAD）。

论文链接：https://arxiv.org/pdf/2102.11585.pdf

ROAD由一个移动智能体（即自动驾驶车辆）、它所执行的动作和相应的场景位置三者组成，可以测试自动驾驶车辆感知并预测道路事件的能力。

ROAD数据集 | 基于道路事件，会让自动驾驶像人那样感知环境吗？第2张

作者表示，利用ROAD，通过一种模仿学习设置，人类驾驶者应对道路情况的驾驶行为，可以被用来训练自动驾驶汽车以更深入、更人性化的方式，理解道路环境以及道路其他使用者随时间而变化的行为。

不用关注驾驶员的身体动作了？

为了了解道路上发生的情况，如今的自动驾驶车辆通常配备了一系列不同的传感器（如激光测距仪、雷达、摄像头、GPS ）来收集数据，不过ROAD主要考虑的是基于视觉的自动驾驶车辆的行驶环境。

安装在牛津机器人小车上的摄像机，以一种流式、在线的方式拍下了大量视频，研究团队从中精心挑选了22段持续时间相对较长（每段约8分钟）的视频，这些视频由多个道路事件（REs）组成。

根据定义，REs由移动智能体Ag、它执行的动作Ac和发生该动作的位置Loc所组成，即E=（Ag、Ac、Loc）。

经过对这22个视频的内容进行编译，Ag、Ac、Loc构成了编译后有限列表里的所有分类，道路事件则可喻为“管道”，即逐帧边界框检测（frame-wise bounding box detections）的时间序列。

ROAD是一个具有相当规模的数据集，因为122K的视频镜头被标记成了总共560K的检测边界框，依次与1.7M的唯一单独标签相关联，这些标签分别有560K智能体标签、640K动作标签和499K位置标签。

此数据集按照以下原则设计：

多标签基准：每个道路事件由负责的（移动）智能体标签、执行的动作类型标签和描述了动作所在位置的标签组成。
每一个事件都可以在相关时间下被分配到同种标签类型的多个实例（例如，一个RE可以是既移动又左转的实例）。
标注都是从自动驾驶车辆的角度完成的，最终目标是为了让自动驾驶车辆利用此信息做出适当的决策。
元数据旨在包含所有需要全面描述了道路场景的信息，下图给出了该概念的说明。这意味着，即使不看视频，我们也可以根据与这些视频关联的一组标签，还原当时的道路情况（或者可以让自动驾驶汽车根据这些标签，做出一样的决定）