谷歌研究分享：从RGB图像准确估计透明对象的三维姿态

VR/AR

2020

09/06

19:27

映维网

来源：映维网作者颜昳华

三维对象的位置和方向估计是计算机视觉应用的核心问题之一。对于涉及到增强现实和机器人操作等对象级感知的计算机视觉用例中，其需要知晓对象在世界中的三维位置，从而直接影响它们或者正确地将模拟对象放置在它们周围。尽管业界已经利用机器学习技术（特别是Deep Nets）来对这一主题进行了大量研究，但大多数依赖于深度传感设备的使用，如可以直接测量对象距离的Kinect。对于具有光泽或透明的对象，直接深度感测效果不佳。如下图所示，深度设备难以为透明的星星膜具确定合适的深度值，并且实际的3D点重建效果非常糟糕（右）。

解决所述问题的一个方法是，使用一个深度神经网络来修复透明对象的损坏深度图。例如，给定透明对象的单个RGB-D图像，ClearGrap可以使用深卷积网络来推断表面法线、透明表面的掩膜，以及遮挡边界，并用来优化场景中所有透明表面的初始深度估计（上图最右侧）。这种方法非常具有前景，它允许通过基于深度的姿态估计方法来处理具有透明对象的场景。但涉及修复可能相当棘手，尤其是在完全使用合成图像进行训练时，而且依然可能导致深度错误。

在谷歌与斯坦福人工智能实验室（Stanford AI Lab）合作撰写的CVPR 2020论文《KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects》中，团队描述了一个通过直接预测3D关键点来估计透明对象深度的机器学习系统。为了训练系统，团队以半自动化的方式收集一个透明对象真实世界数据集，并使用手动选择的三维关键点来有效地标记它们的姿态。然后，谷歌训练了名为KeyPose的深度模型，使其能够根据单目图像或立体图像端到端地估计3D关键点，不需要显式计算深度。在训练过程中，模型可以处理可见对象和不可见对象，包括单个对象和对象类别。尽管KeyPose可以处理单目图像，但立体图像提供的额外信息使其能够在单目图像输入的基础上将结果优化两倍。根据对象的不同，典型误差仅为5毫米到10毫米不等。在对象的姿态估计方面，它比最先进的方法有了实质性的改进。谷歌正已经公开相关的数据集。

相关论文：KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects

具有3D关键点标签的真实世界透明对象数据集

为了加速收集大量真实世界图像，谷歌建立了一个机器人数据采集系统。在这个系统中，一个机器人手臂通过轨迹移动，并同时使用两个设备（一个立体摄像头和一个Kinect Azure深度摄影头）拍摄视频。

位于目标的AprilTags可以精确追踪摄像头的姿态。通过在每个视频中用2D关键点手工标记少数图像，团队可以使用多视图几何体为视频的所有帧提取3D关键点，从而将标记效率提高100倍。

团队拍摄了15种不同透明对象的图像，并使用了10种不同的背景纹理，其中每个对象4种不同的姿态，而这总共产生了600个视频序列，包括48K立体图像和深度图像。研究人员同时对不透明对象拍摄了相同的图像，从而提供精确的地ground truth图像。所有的图像都用3D关键点标记。谷歌将公开这个真实世界图像数据集，并作为合成的ClearGrap数据集的补充。

基于早期融合的KeyPose算法

直接使用立体图像进行关键点估计的想法是为这个项目独立构思，而它最近同样出现在手部追踪的情景之中。下图是基本的思想：围绕对象裁剪立体摄像头的两幅图像，并输入到KeyPose网络中，然后KeyPose网络预测一组代表对象3D姿态的稀疏3D关键点。接下来，使用标记的3D关键点对网络进行监督训练。

KeyPose的一个关键方面是，使用早期融合来混合立体图像，并允许网络隐式计算视差。作为说明，后期融合则是分别预测每个图像的关键点，然后进行组合。如下图所示，KeyPose的输出是图像平面中的2D关键点热图，以及每个关键点的视差（即逆深度）热图。这两个热图的组合生成每个关键点的3D坐标。

与后期融合或单目输入相比，早期融合立体图像的精度通常可以提升两倍。

结果

下图说明了KeyPose对单个对象的定性结果。左边是原始立体图像之一；中间是投影到图像的3D关键点。在右边，团队将瓶子三维模型中的点可视化，并放置在由预测的3D关键点所确定的姿态中。这一网络十分高效和准确。对于标准的GPU，只需5毫秒即可完成对关键点的预测。

下表说明了KeyPose在类别级别估计的结果。测试集使用了训练集中不存在的背景纹理。请留意MAE在5.8 mm到9.9 mm之间变化。

有关定量结果的完整说明，以及相关研究，请参阅论文和补充材料，以及KeyPose官网。

总结

这项研究表明，在不依赖深度图像的情况下，我们可以从RGB图像中准确地估计出透明对象的三维姿态。它验证了使用立体图像作为早期融合深网的输入（在这个网络中，网络可以直接从立体对中提取稀疏的3D关键点）。谷歌表示：“我们希望，一个广泛的、带标签的透明对象数据集将有助于这一领域的发展。最后，尽管我们是使用半自动的方法来有效地标记数据集，但我们希望在未来的研究中使用自我监督的方法来消除手动标记。”

原文链接：https://yivian.com/news/77585.html

THE END

广告、内容合作请点击这里寻求合作

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表砍柴网的观点和立场。