在《合成数据相对于真实数据的优势》一文当中, 我们着重介绍了合成数据如何应用于计算机视觉模型的训练,在文章当中我们有提到:合成数据的另一大应用场景便是表格数据。在下文中我们将解释如何使用合成数据帮助训练高精度的反金融诈骗模型,以及如何避免使用敏感的个人信息。
注:该文章转载自itprotoday,为了让读者更顺畅地阅读,我们对文章进行了部分修改,如添加了一些插图或改动了一些用词,您可以点击此处查看原文。
银行迫切地需要解决金融诈骗问题,LexisNexis Risk Solutions(一家全球数据和分析公司)的研究发现:由金融诈骗导致的每一美元损失,需要投入相当于损失金额本身的四倍成本来解决问题。
为了防止损失,各大银行已经开始采用AI和机器学习模型来检测诈骗特征,但尽管银行系统每天充斥大量的交易,然而能够用于训练ML模型的诈骗样本却相对较少。这时便体现了合成数据的价值。
什么是合成数据?
合成数据是具有统计学代表性版本的真实数据,合成数据当中不包含任何原始的真实信息,但它保留了统计学特征。简单来说,合成数据的外表和行为与原始数据相似,但却不包含任何原始数据信息,对于建模和仿真目的来说,合成数据完全可以满足条件。
合成数据生成通过第一遍尽可能准确地重建原始数据集,之后,这个生成模型就可以生成额外的数据,或者仅扩增选定的部分。举例来说,银行可能会合成一个数据集,这个数据集中包含的诈骗样本比真实数据集中更多。相对于真实数据集更多诈骗样本的合成数据集,这样就可以提供训练样本给机器学习模型。
合成数据的使用
除了金融诈骗检测外,合成数据也可以用来解决企业们担心的个人隐私信息问题,Hazy(一家为金融机构提供合成数据公司)的创始人兼CEO Harry Keen说:“由于有关个人隐私的法律法规的推动,例如GDPR,这(合成数据)变得越来越重要。”
个人信息匿名化是遵守政策的一个方案,然而在数据来源可疑以及合规风险下,企业可以采用合成数据方案以完全规避风险。
相对于昂贵的真实数据,更便宜的合成数据同样也能用于实践。“若使用的合成数据映射了95%的真实情况,就能在决策时变得更加灵活。”, Capgemini Canada的副总裁兼洞察和数据主管Steven Karan说。“合成数据的成本取决于使用场景”,Steven补充道。“在普遍的使用场景中,比如地理位置数据,合成数据的成本大约比真实的第三方数据低60-70%。”
用于模型训练的真实数据与合成数据的比例取决于应用场景,Keen提醒道,“从合规性和信任的角度出发,你在训练自动驾驶的机器视觉模型时,可能不会完全使用合成数据,而完全抛弃真实世界的数据就投入使用。”他说,“不过在反欺诈场景中,你可以大规模使用合成数据用来扩增欺诈样本来让你的模型表现更好。”
合成数据的局限性
当使用合成数据来解决边缘事件时,数据科学家们必须要小心谨慎。在欺诈检测当中,合成数据可以扩增真实数据来生成更多的欺诈样本,不过并不意味着它可以覆盖所有的欺诈行为。许多特殊类型的欺诈仍然仅存在于真实数据集当中。虽然合成数据可以生成更多的数量,但是它并不能自己产生一种全新的欺诈类型。
此外,合成数据并不能向下分析每一条具体的数据,这是由于合成数据不能直接映射真实数据集,Keen解释道。所以即便ML模型能够带来更高级别的人口统计的分析能力,但是并不能用来分析每一个具体的人。
合成数据的未来展望
Karan对于未来使用AI来生成合成数据表现出十足的兴趣,这是一个值得探索的领域。
调研机构Gartner预测:到2024年AI和分析项目将有60%的数据是合成的。
Keen说,合成数据将在一些领域有越来越多的使用场景,包括开发自动驾驶ML模型,将用到包含更多边缘事件的更大的数据集。“提供更多的数据让AI来理解如何在从未见过的特殊场景中驾驶是一个非常有价值的方法”,他说道。
结论
如今,合成数据的最大用途是企业拥有海量的数据,出于种种原因,它们可能无法在ML模型训练中使用。“合成数据可以创建安全,超现实的数据集,所以你不必在非生产环境中使用生产环境的数据。”,Keen说道。企业们不再需要担心使用敏感数据来训练模型的风险。合成数据提供了一个有效的可替代方案。