冰山數據

2022年10 款最佳计算机视觉开源数据标注工具

一款好用的数据标注工具对于创建高质量的AI训练数据集至关重要,您可以通过高效的标注工具提高数据标注速度,让工作流变得更为有序。随着计算机视觉技术的发展,我们可以在开源社区看到越来越多的图像标注工具,任何人都可以免费使用并从强大的功能中获益,我们在下文中列举了10款我们认为优秀的开源标注工具!

1. LABEL STUDIO

我们最为推荐的开源标注工具是Heartex开发的 Label Studio,该工具分为付费和开源版本,即便是免费的开源版本,也足以支持广泛的标注类型,包括图像分类、目标检测2D包围框标注语义分割等,除了图像外,也可以用在音频文本和 HTML场景的标注,并具有名为 Labeling Config 的独特配置,您可以在其中根据所需定制UI,Label Studio整合了多种算法辅助的自动化功能,包括可以基于现有AI模型对数据进行预标注。最后,我们推荐的另外一个重要的因素在于它拥有一个活跃的用户社区,您可以在其中分享使用技巧或提出问题。

2. DIFFGRAM

我们推荐的第二款是Diffgram,此前它还是一个付费的工具,但是从 2021 年Q1之后,Diffgram 已转为完全开源的工具,提供可选的付费托管服务和企业支持。
它的突出之处在于除了作为数据标注工具外,还具有各种数据集和工作流管理功能。
它支持图像和视频相关的大多数数据标注场景,例如2D包围框、多边形、语义分割立方体关键点等。
它的语义分割功能还提供了各种辅助功能,例如自动贴合、组合形状、点到全多边形等等!
此外,它的视频标注支持关键帧和序列标注,例如事件跟踪和目标跟踪。

3. LABELIMG

LabelIMG是一款非常流行的开源图像标注工具。大多数接触数据标注工作的人使用过的第一款标注工具就是它,由于其简单直观的UI以及它可以离线使用以提供最大的数据安全性,而受到诸多算法工程师的青睐。 

它可以在几乎所有环境中使用,例如 Windows、Linux、Ubuntu 和 Mac OS,它的 Python 库也可以在 Anaconda 或 Docker 中使用。然而,虽然LabelIMG非常易于上手,但由于它没有任何协同标注功能,而且仅支持包围框标注,所以不适合用于多人协同标注,也不适合任何其他标注类型。

它可以将标注结果保存为 PASCAL VOC 格式以及 YOLO 和 CreateML 格式的 XML 文件。

4. CVAT

CVAT 是英特尔开发的开源软件,虽然入门难度相对较高,但它具有非常丰富的标注工具和各种自动化功能,基于 Chrome 运行,支持包围框、多边形、线和关键点的标注,同时CVAT 支持复制粘贴标注对象、目标自动跟踪和关键帧标注,由 TensorFlow OD API 提供支持。在CVAT 中的多人协作很容易,可以拆分和分配工作。 

CVAT非常受到国内外知名的数据标注公司青睐,同时它也是我们主要使用的平台,基于CVAT的强大功能,我们开发了冰山标注平台,整合语音文本标注、录音采集和LiDar标注工具,并且在CVAT提供的工作流基础之上进行了改进,更加灵活地管理多个数据标注团队和众包团队,您可以联系我们以申请试用冰山标注平台。

5. IMAGETAGGER

ImageTagger是一个用于协作的图像标注的开源在线平台。该平台由汉堡大学信息学系的 Niklas Fiedler 专门针对机器人世界杯的需求而开发,旨在使标注数据的过程尽可能直观和快速。 

它支持使用包围框、多边形、线和关键点来标注图像集。它的一些功能对于数据标注项目管理十分有效,比如一些有助于管控质量的选项和功能,例如图像预加载、上传现有标注信息和标注验证。此外,由于它专注于多人协作标注,允许通过将标注员分成多个团队来对数据集进行大规模标注。

6. LABELME

LabelMe 被认为是最著名的数据标注工具之一。由麻省理工学院于2008 年发布,用以构建规范的 LabelMe 数据集,LabelMe 可以在线离线使用。它可以在 Windows、Ubuntu 和 Mac 等环境中运行。LabelMe 可标注包围框、多边形、关键点、折线以及图像分割,支持图像和视频标注,它可以导出 VOC 和 COCO 格式的语义和实例分割结果。但是缺点和LabelIMG一样不支持多人协同,所以不适用于大规模的标注项目。

7. VIA

VGG 图像标注工具也叫 VIA,由牛津大学的视觉几何小组开发。这是一个相当简单的标注工具,可以手动标注图像、音频和视频,非常易于使用和安装,它可以基于几乎任何web浏览器运行。

VIA 可以用来标注包围框、圆形、椭圆、多边形、关键点和线。VIA支持导出CSV和JSON,以及提供少量的项目管理功能,比如允许为标注员设置多个任务,并通过UI直观地监控项目进度。

8. MAKE SENSE

Make Sense 是一个相对年轻的开源数据标注平台。由 Piotr Skalski于 2019 年发布的
Make-sense 具有非常漂亮的 UI,并且在标注方面没有多余的装饰,并具有额外的目标检测和图像识别功能。如需试用请直接访问他们的网站,将您的原始图片拖拽进去就可以立即开始标注了,他们不存储任何用户数据,所以不会存在隐私隐患。
Make Sense 支持包围框、关键点、线和多边形标注,也支持使用 AI 模型进行预识别标注,例如在 COCO 数据集上预训练的 SSD 模型和 PoseNet 模型,可用于预测人的姿态和图像或视频中的关键主体。
比较遗憾的是,Make Sense 没有任何项目管理功能或 API。

9. COCO ANNOTATOR

COCO Annotator由 Justin Brooks 使用Vue.js开发,它是一个基于 Web 的图像分割工具,旨在帮助开发和训练目标检测、定位和关键点检测模型。 
标注数据集可以使用自由曲线、多边形和关键点以及其他特征来标注图像片段、追踪对象实例,甚至允许在单个实例中标注多个断开的可见部分,可存储为COCO数据集格式,因此得名COCO Annotator。
COCO Annotator还支持用半训练模型预标注图像,并拥有 DEXTR、MaskRCNN 和 Magic Wand 等高级选项。
最后,它还提供了一个用户身份验证系统来保证安全性。

10. DATATURKS

最后向您推荐的是一个已经停更的开源平台。Dataturks 曾经是一项付费服务​​,2018 年被沃尔玛收购,此后开发便停止了,现在可以在 GitHub 上免费使用。尽管在使用该软件时会多次提示用户可以为进阶功能付费,但实际上它可以完全免费使用。虽然已经有一段时间没有更新版本了,但仍然是一个可靠的开源数据标注工具。它允许团队协同处理各种数据标注类型,包括图像、视频、文本和 NER。 

它允许标注多边形和图像分割mask,也可以通过在标注元素添加子标签进行图像分类。它也支持目标追踪标注,可以在视频中的关键帧标注包围框,并且该工具将自动在这些关键帧之间进行补间。Dataturks 可以以 VOC、Tensorflow 和 Keras 格式导出标注结果。

结语

希望本文推荐的数据标注工具对您有所帮助,如果您需要大规模的人工标注服务,可以随时联系我们,我们可以支持各种类型的数据采集、数据清洗和数据标注工作。