冰山數據

合成数据相对于真实数据的优势

人工智能在 2020 年风靡一时,但许多AI算法团队都遇到了一个瓶颈:AI训练数据。 

对于大多数人工智能,机器学习项目来说,拥有一个庞大并且经过加工的数据集是必不可少的,但获取这些数据通常是巨大的挑战。 

不仅必须从现实世界中收集数据,还必须要经过人工的清洗和标注。对于大学的AI研究室、小型研究团队和早期创业公司来说,训练数据的不足是一个重大障碍。 

这就是合成训练数据派上用场的地方,合成数据就是模拟真实世界的假数据。 

对于某些 ML 应用程序,创建合成数据比采集和标注真实数据容易得多。 

这主要有三个原因: 

  • 可按需生成尽可能多的数据。
  • 可生成现实世界中难以采集到的数据(如车祸,极端恶劣天气、涉及个人隐私的人脸数据等)
  • 合成数据是自带标注信息的,并且100%准确。 

让我们来更具体地解释下什么是合成数据:

什么是合成数据?

机器学习的最基础条件之一是大量的AI训练数据。您需要的数据量可以从一万个到数十亿条数据不等,高质量的数据越多,您的AI模型就越精确。

对于自动驾驶汽车这样复杂的AI项目,进行大规模的数据采集和数据标注是一项巨大的挑战。幸运的是,现在可以通过合成数据解决这个问题。

采集和标注的速度难以提升是真实数据的一大弱点。

在大多数情况下,每多采集和标注一条数据,花费的时间是成倍的,但合成数据并非如此。

使合成数据一大好处是可以批量生成。一万条训练数据?没问题。一百万条训练数据?没问题。十亿?也可以,您需要只是强大的GPU。

相比之下,标注十亿条真实的训练数据则难以实现。

合成数据同步

为什么使用合成数据(合成数据vs真实数据)

收集真实数据可能很危险。比如说,自动驾驶AI不能完全依赖真实数据。从事这项技术的公司,例如 Alphabet 的 Waymo,必须进行模拟。

想一想,要训练 AI 避免车祸,您需要有关车祸的训练数据。但采集到真实车祸的大型数据集实在是太昂贵和太冒险了——所以你要模拟车祸。

真实数据可能非常罕见

和危险数据一样,合成数据也可以模拟真实世界的罕见情况。

例如,您想让您的AI模型适应雾霾或者暴雪天气,合成数据可以生成足够数量的罕见事件来训练 AI 模型。 

往往人工智能的最大价值就是能自动地处理罕见事件,但正是由于罕见,在现实世界采集是难以实现的。

回到汽车的例子,车祸并不经常发生,我们很难有机会采集这些数据。使用合成数据可以无限次地模拟车祸。

合成数据完全由用户设计

合成数据模拟中的一切都由用户设计和操控,这是一把双刃剑。 

弊端是在某些情况下,合成数据会缺少真实世界中的行为或者特征,对于这种情况,必须通过迁移学习来补充一部分真实数据。

好处是事件频率、样本分布等等都取决于用户。

合成数据拥有100%的标注准确度

合成数据的另一个优点是完美的标注,完全避免了人工标注产生的错误。

可以为模拟场景中的每个对象自动生成各种标注(包围框、语义分割、关键点等),这相对于人工标注来说能节省大量的成本。

您不需要为标注付费,因为是自动生成的,合成数据的主要成本是前期的建模费用,但是在建模完成之后,您可以生成无限多的标注数据。

合成数据可以是多光谱的

目前,许多自动驾驶公司已经意识到标注不可见数据具有巨大的挑战性。这就是为什么他们一直是合成数据的最大支持者。 

Alphabet 的 Waymo 和通用汽车的 Cruise 等公司使用合成 LiDAR 数据。由于这些数据是合成的,因此基本事实是已知的,并且数据会被自动标记。 

同样,合成数据也适用于人类无法完全解读图像的红外或雷达计算机视觉应用。

同步合成数据

合成数据的应用领域有哪些?

合成数据有很多用途。目前,合成数据主要有两大领域:计算机视觉和表格数据。 

计算机视觉是指使用AI算法检测图像中的对象和模式。摄像头应用于越来越多的行业,从汽车到无人机,再到医学,等等。

合成数据与更先进的人工智能相结合,意味着计算机视觉技术才刚刚起步。

合成数据的另一个用途是在表格数据中。表格合成数据引起了研究人员的广泛关注。麻省理工学院的研究人员最近发布了 Synthetic Data Vault,这是一个用于合成电子表格数据的开源工具。

健康和隐私数据对于合成方法来说尤其成熟。这些数据受到隐私法律的高度限制。合成数据可以帮助研究人员在不侵犯人们隐私的情况下获得他们需要的训练数据。 

随着新工具和教程的发布,合成数据将能够在人工智能的发展中发挥越来越大的作用。

结论

大量数据、危险的真实数据收集和完美的标注是使用合成数据的三大原因。 

如果你想查看一个真实的产品,Simerse发布了一个免费的虚幻引擎插件,可以更轻松地生成合成数据。 

还有很多其他工具可以生成合成数据。无论您选择哪种方式,合成数据都是获取训练数据的好方法,并且很可能成为下一代 AI 的一大推动力。