对于一个人来说,看一张自拍并识别图像中的人脸是很容易的。然而,对于机器来说,在将人脸与图像的其余部分(背景)分离的同时识别人脸并不容易。如果我们想训练机器人来识别图像中的人脸,我们需要用图像分割来训练它。
今天,我们将研究图像分割的基础,以及用于执行这种类型的图像标注的技术。让我们从了解什么是图像分割开始。
什么是图像分割?
图像分割是将数字图像分割为称为片段的子组的过程,从而降低图像的整体复杂性,并能够对每个片段进行分析和处理。如果我们进一步研究图像分割,我们会发现分割图像就是为像素分配特定的标签,以识别对象、人和其他重要元素。
图像分割的常见用例之一是对象检测。研究人员所做的不是处理整个图像,而是首先使用图像分割算法在图像中找到感兴趣的对象。然后,对象检测器可以对由算法定义的边界框进行操作。这减少了推理时间,同时也提高了准确性。
图像分割的各个阶段
图像分割包括获取大量图像输入并生成输出,该输出是具有指定每个像素所属的对象类别或实例的各种元素的掩码或矩阵。许多高级图像特征,或启发式,可以用于图像分割。这些特征是标准图像分割算法的基础,该算法使用诸如边缘和直方图之类的聚类算法。
存在适合于图像分割的各种神经网络设计和实现。它们通常包含以下基本组件:
编码器——这是一系列使用越来越深和越来越窄的滤波器提取图像特征的层。编码器可以在类似的任务上进行预训练,例如图像识别,这允许它利用其现有知识来执行分割任务。
解码器——这是一系列层,它们将编码器的输出逐渐转换为与输入图像的像素分辨率相对应的分割掩码。
跳过连接——多个远程神经网络连接允许模型识别不同尺度的特征,以提高模型的准确性。
现在我们已经了解了基本组件,让我们看看如何完成数据标注过程:
手动图像分割——这需要人类数据标注器使用标记、语义分割和其他方法手动准备训练数据集。
自动分割——机器学习算法能够执行一些分割任务,但通常需要一些数据验证工作来确保一切都做得正确。
图像分割的类型
图像分割可以通过几种不同的方式进行。以下是一些最常见的技术:
•语义图像分割——这涉及到根据语义类排列图像中的像素。
•实例分割——这项技术涉及根据对象的实例而不是类对像素进行分类。
•全景分割——全景分割是一种比上述前两种技术更新的技术,通常表示为语义和实例分割的组合。它预测每个对象的身份,分离图像中每个对象的每个实例。哪些图像分割技术用于标注数据?
以下是一些常见的图像分割技术:
基于边缘的分割。这是一种流行的图像处理技术,用于识别给定图像中各种对象的边缘。它有助于使用来自边缘的信息来定位图像中相关对象的特征。边缘检测有助于从图像中去除冗余信息,从而缩小图像大小并便于分析。
基于阈值的分割。这是一种简单的图像分割方法,其中基于像素相对于给定值或阈值的强度来分割像素。它可用于分割强度高于其他对象或背景的对象。
基于区域的分割。该技术包括将图像划分为具有相似特征的区域。每个区域都是一组像素,算法通过种子点对其进行定位。当该算法找到种子点时,它可以通过添加更多像素或缩小像素并将其与其他点合并来生长区域。
基于聚类的分割。聚类算法是一种无监督的分类算法,有助于识别图像中的隐藏信息。它们通过隔离集群、阴影和结构来增强人类视觉。图像被划分为具有相似特征的像素簇,分离数据元素并将相似元素分组为簇。
流域分割。分水岭的定义是灰度图像中的变换。该算法像地形图一样处理图像,像素亮度决定高度。通过分水岭分割,可以检测到形成山脊和盆地的线条,标记分水岭线条之间的区域。它将图像划分为多个像素高度,将具有相同灰度值的像素分组。