为了帮助人工智能 (AI) 从 2D 照片中检索 3D 信息,科学家们开发了一种新技术,使相机成为此类未来技术极其有用的工具。这项工作与许多应用高度相关,尤其是涉及无人驾驶车辆的应用。对于可以添加多个摄像头以提供系统冗余的自动驾驶汽车设计人员来说,摄像头是比激光雷达等其他仪器更具成本效益的替代品,激光雷达使用激光来估计距离。
然而,这种冗余的成功取决于人工智能从这些摄像机记录的 2D 图像中解码 3D 导航数据的能力。通过从 2D 照片中提取 3D 数据,一种名为 MonoXiver 的新方法为解决这一问题并提高自动驾驶汽车的能力做出了重大贡献。
在本文中,我们将了解这项新技术以及训练人工智能模型所需的数据标注。
当前的方法是什么?
尝试从 2D 照片中提取 3D 信息的现有技术(例如 MonoCon 方法)依赖于边界框的使用。通过这些方法,人工智能系统被教导检查 2D 图像并围绕特定对象(例如街道上的单个车辆)绘制 3D 边界框。这些边界框由长方体表示,长方体是八角三维矩形,类似于鞋盒的角。这些边界框的目的是帮助人工智能估计图像中物体的大小并确定它们之间的空间关系。
边界框本质上帮助人工智能确定汽车的大小及其相对于道路上其他移动汽车的位置。虽然这种方法非常有效,但我们可以使用 MonoXiver 方法对其进行改进,这将在下一节中讨论。
MonoXiver 方法如何改进 3D 信息提取?
MonoXiver 技术采用了与以前的程序不同的方法,其中边界框可能不完美,并且可能无法完全包围 2D 图像中存在的车辆或物品的所有部分。每个边界框都用作人工智能研究的起点和锚点。然后,人工智能对每个锚定边界框周围的区域进行第二次分析。作为二次调查的结果,锚点被许多额外的边界框包围。
人工智能会进行两次关键的比较,以确定这些辅助框中的哪一个最能捕获物体的任何缺失部分。初始比较评估每个辅助框的“几何形状”,以查看它是否包含与锚框中的形状相匹配的形式。第二个比较着眼于每个辅助框的“外观”,看看它是否具有与锚框中的颜色或其他视觉特征密切相关的颜色或其他视觉特征。借助这种彻底的策略,MonoXiver 能够更好地估计物体尺寸和位置,并提高 2D 图像中物体检测的准确性。
总之,MonoXiver 改进了已经使用的使用边界框从 2D 照片中提取 3D 信息的方法。旧的边界框经常无法充分表示 2D 图像中对象的各个方面。每个边界框都作为 MonoXiver 对其周围区域进行后续检查的起点,这会产生几个辅助框。然后,它评估每个辅助框的形状和设计,看看哪个最能捕获丢失的物体部分。
需要与 MonoXiver 结合使用哪些类型的数据注释?
我们在这篇文章中谈到的最大的数据标注方法是边界框,它可以是2D或3D的。边界框注释用于训练人工智能系统检测现实场景中的各种对象。通过使用边界框,可以高精度地检测图像和视频中的对象。还需要注意的是,边界框在3D点云标注中也很重要。
与 2D 边界框相比,3D 边界框标注提供了照片中物体的高度、深度和长度信息,提高了图像分类的准确性。此外,与 2D 边界框相比,3D 边界框为照片中的对象提供了更清晰的边界。
尽管边界框方法有很多用途,但对象检测是其最重要的用途。由于在所呈现的照片集上注释框时所做的设置,计算机视觉算法可以立即确定这些元素看起来与之前给出的参考完全相同。这些对象改变后的颜色随后将显示在屏幕上。