优步AI技术小组发布离散残差流用于概率预测行人行为


背景

在未来的几年中,自动驾驶汽车将逐渐成为一种流行的交通工具。但是,在此之前,研究人员将需要开发工具,以确保这些车辆安全并且可以在人口稠密的环境中有效导航。

由于自动驾驶汽车的最终设计旨在绕过静态障碍物和移动障碍物,因此它们应该能够快速检测到物体并避开它们。实现此目的的一种方法可能是开发模型,该模型可以预测街道上物体或人的未来行为,以便估计车辆接近它们时它们将位于何处。

但是,预测城市环境的未来变化可能会非常具有挑战性。在预测人类行为(例如行人的运动或意外动作)时,这尤其困难。

介绍

在NTSB发布这些文件的几天前,优步高级技术小组,多伦多大学和加州大学伯克利分校的研究人员在arXiv上发表了一篇论文,介绍了一种预测行人行为的新技术,称为离散残差流网络(DRF-净)。根据研究人员的说法,该神经网络可以对未来的行人行为进行预测,同时捕获预测远距离运动时固有的不确定性。

研究人员在论文中写道:“我们的网络通过预测,更新和离散化空间位置上的分布,有效地捕获了未来人类运动的多峰后验。

下图显示了模型星人的预测:

优步AI技术小组发布离散残差流用于概率预测行人行为

相关工作

关于行人预测的先前工作主要是对轨迹,目标或高层意图进行建模。

  • 人体轨迹预行人预测

使用循环编码器和MLP解码器预测未来的轨迹,报告的误差要比复杂的多智能体方案低,并且发现行为是多模式的,而且受场景的影响很大。

Social GAN 是一个序列到序列的生成模型,其中轨迹样本的速度和转弯角度会发生变化,并经过各种损失训练以鼓励多样性。但是,即使不使用本地地图,采样方法的运行时间也会随样本数量(12条轨迹为150 ms )而缩放,并且需要许多样本。SoPhie 是整合外部高架摄像机图像的另一种采样策略。相反,我们预测整个表达空间分布,而不是单个样本,并将局部地图纳入预测。

  • 目标导向的预测

ziebart2009planning使用历史路径预先计算室内行人目标的先前分布,然后开发MDP以推断未来轨迹的后验分布。

wu2018概率使用启发式方法来确定映射环境中的可能目标位置,并使用马尔可夫链来预测下次占用网格。

[ rehder2018pedestrian,rehder2015goal ]使用两阶段深度模型来预测目标上的高斯混合,然后使用计划网络在中间时间步构建分布。

尽管如此,必须调整混合物成分的数量,并且在推理过程中将混合物离散化,这在计算上是不太划算的。

Fisac和Bajcsy [ fisac2018,bajcsy2018 ]指定每个人在室内的已知目标,然后通过假设人类近似最大化效用来估计单峰状态分布,朝着以欧几里得准则衡量的目标前进。他们从模型性能估计预测置信度,并以低置信度返回无信息的分布,置信度估计是我们方法的补充。

  • 语义地图

行人预测变量分别对空间连续的轨迹和离散的世界表示进行了推理[ ziebart2009planning,rehder2018pedestrian ]。这些论文要么忽略语义图,要么在中间阶段将其集成。在车辆预测中,更广泛地使用输入地图栅格化。IntentNet [ casas2018 ]使用鸟瞰车道图和2D卷积体系结构来改进世界,以鸟瞰世界,同时预测车辆轨迹和高水平意图[ luo2018fast ]。其中中使用了类似的地图栅格化bansal2018chauffeur,yang2018hdnet,djuric2018motion ]。

  • 相关建模技术

卷积长短期记忆(ConvLSTM)体系结构已应用于时空天气预报

ConvLSTM迭代更新隐藏的特征图,从中得出输出。相反,DRF-Net顺序调整输出空间而不是隐藏状态。同样,自适应实例规范化运算符[ huang2017arbitrary ]使用共享功能来预测缩放/移位参数并将其应用于固定的离散图像。归一化流[ rezende2015variational ]对来自简单先验的样本应用一系列可逆映射,例如高斯,构造具有复杂PDF 的随机变量。在对流进行归一化变换单个样本的同时,我们直接对概率质量函数(PMF)进行变换以提高计算效率。

离散余流网络

在本文中,作者通过离散化空间的分类分布表达了对未来行人位置的确定。这种分布可用于自动驾驶车辆中基于成本的计划或约束路径优化。作者将解释如何将历史观测值表示为对已知地图和检测到的参与者进行编码的多通道图像,这一过程称为栅格化。然后引入骨干深度神经网络,该网络从光栅化图像中提取特征,然后是DRF-Net的概率框架。最后介绍使用提取的特征进行预测的DRF头。


优步AI技术小组发布离散残差流用于概率预测行人行为

上图是离散残差流网络流程图。

显示感兴趣的行人(PoI)和演员检测与语义图对齐。

多尺度主干共同导致输入中的时空信息,从而将上下文嵌入特征F中。

最后,DRF头递归地调整初始分布,以预测很长一段时间内的未来行人状态

码历史信息

未来的行人动作与历史动作高度相关。但是,动作也会受到诸如路面类型,交通信号,静态物体,车辆和其他行人等因素的影响。我们光栅化将所有语义图信息和代理观测值转换为3D 张量,并通过自动渲染对空间和时间信息进行编码。前两个维度对应于空间域,第三个维度形成通道。每个频道都是576 × 416像素的图像,以每米 8像素的分辨率编码特定的局部鸟瞰(BEV)信息。

下图显示了真实城市场景中的栅格化示例。

优步AI技术小组发布离散残差流用于概率预测行人行为

使用liang2018deep中提出的目标检测器从LiDAR和摄像机检测动态代理,并使用匹配算法随时间进行关联。使用Unscented Kalman过滤器精炼所得轨迹[ wan2000unscented ]。DRF-Net在通道D t中的每个时间步长t中经过6秒钟的检测到的行人,在通道V t中检测到的非行人(例如,车辆)。为了将感兴趣的行人与其他演员区分开,灰度图像R遮盖了他们的小轨迹。

离散剩余流

我们的模型以递归方式构造:

优步AI技术小组发布离散残差流用于概率预测行人行为

优步AI技术小组发布离散残差流用于概率预测行人行为

可以被看作是从分布映射一个离散概率流,我们使用深度神经网络来实例化此框架下的概率分布,并提供等式的推导。

另外,在实现中,我们立即对所有边际进行归一化,并将残差应用于未归一化:

优步AI技术小组发布离散残差流用于概率预测行人行为

通过最小化被观察者的负对数似然(NLL)来进行学习行人运动的顺序。具体来说,我们解决以下优化问题:

优步AI技术小组发布离散残差流用于概率预测行人行为

下图是递归离散残差流的一个步骤。日志潜力被用来更新全局特征映射˚F。DRF然后预测残差ψ ,θ 流到日志电位为下一个时间步长。

优步AI技术小组发布离散残差流用于概率预测行人行为

评估

  • 数据集

数据集包含在数个北美城市中收集的481,927个地面真实行人轨迹。该数据集被分为375,700条用于训练的轨迹,34,571条用于验证的轨迹和71,656条保持性轨迹用于测试。120米的范围内从车载激光雷达传感器图。批注包含6 s(30帧)的过去观测值和10 s(50帧)的未来观测值。这些5 Hz,16 滑动窗口是从较长的日志中提取的。

  • 基准

作者描述了两个基线预测变量族。对这些基线进行端到端训练,以预测给定特征F(Ω )的分布,这些特征是由与我们提出的模型相同的主干产生的。

优步AI技术小组发布离散残差流用于概率预测行人行为

上图是基线与作者提出的具有地面实况观察结果的模型DRF-Net的比较。

当观察到嘈杂的检测(在线轨道)而不是地面真相时,基线和我们建议的模型DRF-Net的概率预测比较如下:

优步AI技术小组发布离散残差流用于概率预测行人行为

结果

我们在短期和长期预测范围内评估负对数似然(NLL),其中较低的值表示更准确的预测,以及所有50个未来时间步的平均NLL。

作者分别在保留测试集上提供了针对地面真相注释的日志和跟踪的真实世界检测结果。

作者提出的DRF-Net通过引入离散状态表示和时间步长之间的概率流,在基线上实现了更高的似然性。

地面真相轨迹的可能性 为了评估理想感知下的结果,我们以地面真相(带注释)行人轨迹为基准。表 1显示,与MDN中表现最好的模型相比,我们提出的模型将平均NLL降低了0.64,相对于ConvLSTM基准降低了0.14。这相当于90 %

增加几何平均可能性相比,最好的MDN和ConvLSTM相比增加了 15 %。

在线曲目的可能性 在网上,不完美的感觉,DRF-网实现了减少0.23平均NLL在最好的MDN和0.16以上ConvLSTM,即。未来观察到的行人位置的几何平均可能性分别增加了26 %和17 %(表 2)。尽管存在感知噪音,但DRF-Net的顺序残差更新可能会规范并平滑预测。加4以上密度网络的组件不会减少NLL。与离散化连续空间密度相比,直接预测网格上的占用概率可提供更强的性能。使用具有隐藏状态更新(ConvLSTM)的显式内存也会比我们建议的输出分布之间的流性能差。

优步AI技术小组发布离散残差流用于概率预测行人行为

上图是测试指标。DRF-Net的 NLL低(a),并且捕获了远期期货固有的多模式(b)。离散状态空间(DRF,ConvLSTM)产生最低的NLL和熵(c),并且每个模式的熵都饱和。但是,对于连续MDN(d),EPM随时间的推移而增加。

优步AI技术小组发布离散残差流用于概率预测行人行为

表中显示多个概率预测头的消融研究。

优步AI技术小组发布离散残差流用于概率预测行人行为

图中显示行人预测:过去轨迹的地面真实情况是绿色,未来是黑色,不透明度表示密度,而颜色表示时间范围。由于与MDN-8相似,因此省略了MDN-4预测;两者都是单峰的。

结论

在本文中,作者开发了一种用于行人行为预测的概率建模技术,称为离散残差流。将多角色行为编码为与详细语义图对齐的鸟瞰栅格化。基于深度卷积神经网络,设计了概率模型,以根据栅格化顺序更新未来演员状态的边际分布。我们凭经验验证了我们模型在大规模,真实世界的城市数据集上的有效性。大量实验表明,我们的模型优于几个强基准,表示高可能性,低误差,低熵和高多模态。DRF-Net离散预测的强大性能对于基于成本和受限的机器人计划非常有前途。

论文地址:https://arxiv.org/pdf/1910.08041.pdf


分享到:


相關文章: