对您有用的博客|Nextremer Co., Ltd.

决定数据集质量的要素

作者:株式会社Nextremer | Feb 13, 2023 5:40:00 AM

 

数据集是为了让AI进行学习而进行标记的数据。AI将根据这些数据集进行学习,并从规则和模式中分析新的数据。

数据集的品质直接影响AI的准确性,因此对于高度先进的AI来说,高质量的数据集是必不可少的。但是,实际上如何判断数据集的“高质量”呢?本文将介绍创建高质量数据集所需的要素。

 

 

提高标注规范的准确性的方法


标注是将标签和元数据等信息与大量数据相关联的过程。数据集的质量受到标注工作的影响,因此标注规范的准确性非常重要。

为了提高标注规范的准确性,需要注意以下几点:

① 明确工作内容
② 统一的标注规则
③ 利用人工智能的目的(检测目的)

 

下面对每个要点进行说明:

①作业内容的定义

为了使多个操作者能够以相同的方式进行标注,需要事先定义标注作业的内容。

标注作业的内容取决于数据集的创建目的。例如,如果要让图像识别为"这是一个苹果",则需要对图像数据进行"苹果"的标记。

此外,在用于图像识别的标注中,有以下各种方法:

● 对图像数据中包含的物体进行标记,以确定它们是什么,这称为"物体检测"。
● 确定图像中的目标物体的哪个部分,这称为"区域提取"。
● 对人体或动物的关节、手臂、脚、脸部等特定部位进行标记,这称为"关键点标注"。

明确定义数据集的创建目的,并确定使用何种方法,这对于标注作业至关重要。


②统一的标注规则

如果不统一标注作业的规则,就无法提高数据集的质量。通过统一规则,可以确保在相同的作业内容下按照相同的规则进行标注,从而提高数据质量。

需要明确的是,规定清楚使多个操作者能够做出相同判断的明确规则。以下是一些可能的规则设置示例:

●在进行分割等操作时,确定图像的放大程度和细节的填充范围。
●在边界框标注中,区分自行车和电动自行车。
●对于铁塔的锈蚀或褪色,确定哪种颜色以上属于严重级别。

由于可能存在主观因素,因此进行事先测试以尽量达成一致判断也非常重要。


③AI的使用目的(检测目的)

标注规则必须符合数据集的使用目的。如果目的是检测苹果的图像,但标注却是"水果"、"食物"或"红色物体",那就与使用目的不符合。在进行标注作业之前,需要将创建用于检测特定目标的数据集的目的进行规范化和共享,以确保无误且具有高精度的数据。

此外,根据AI的使用目的,标注数据的数量和范围等重要因素也会发生变化。



影响训练数据质量的标注数据元素有哪些


此外,根据AI的使用目的,标注数据的数量和范围等重要因素也会发生变化。

・数据量



标注数据的数量因领域而异,但通常至少需要1,000个以上、5,000至10,000个以上的数据作为一般的参考。在考虑使用目的和交付期的同时,需要确定要准备多少数据进行标注。



・数据的广度


AI在图像识别方面可以根据之前学习到的数据的颜色、纹理、形状等进行判断。然而,即使大量训练相似的红苹果图像,也有可能无法将青苹果识别为"苹果"。

此外,可能需要对与苹果相似的梨的图像进行标注,将其标记为"不是苹果"并标记为"梨",或从包含其他物体的图像中提取出仅包含苹果的部分。因此,根据使用目的,可能需要进行广泛的数据标注。

因此,根据使用目的预先确定需要多大范围的数据是必要的。




标注工作人员所需的技术水平


即使定义了标注作业内容并制定了规则,实际执行工作的是工作人员。数据集的质量也受到工作人员技术水平的影响。

如果工作人员之间存在差异,将导致检测结果的差异,因此制作具有一致性的标注数据非常重要。为了创建一致性的数据,工作人员需要具备以下能力:

① 能够忠实地遵守规则进行工作。
② 具备适合该工作的能力。
③ 能够进行良好的沟通和协作。
④ 是否具备领域知识的体制。


下面对每个要点进行说明:

①忠实遵守规则并进行作业

无论制定了多少规则,如果无法忠实遵守并执行,标注数据的准确性就会有所差异。制定标注作业的内容和规则是为了确保任何工作人员都能执行相同的作业。因此,只要每个人都能执行相同的作业,就应该能够产生一定水平的标注数据。

然而,如果无法忠实地执行规则,那就无法实现相同的作业。结果可能是产生具有准确性差异的标注数据。为了创建具有一致性的标注数据,工作人员需要具备理解规则并能够忠实遵守规则进行作业的技术能力。


②适合该工作的能力

标注作业需要对大量数据进行标签化。即使具备理解和执行规则的技能,也可能由于无法集中精力而无法遵守规则,特别是在处理大量数据时。

根据使用目的,可能需要进行细致的作业,但有些工作人员可能不擅长这种类型的作业。同时,审核人员也需要具备能够仔细检查工作人员作业结果的能力。根据使用目的确定可能出现的工作类型,并配置具备相应能力的人员也非常重要。


③能够进行良好的沟通和协作

即使按照规则进行标注,仍然有可能不符合目的。标注需要处理大量数据,如果没有注意到错误,就需要修正大量数据。

此外,即使制定了详细的规则,仍然可能遇到不明白或犹豫的情况。工作人员需要能够及时报告、联络和咨询管理者或其他工作人员,以便共享信息。


④是否具备领域知识的体制

领域知识是指对行业、业务的知识、见解以及与趋势相关的专业知识。在进行标注时,具备领域知识的人才,不仅仅需要标注一般信息,还需要标注特定行业的附加信息。

例如,在标注苹果的图像或类似水果的信息时,可能还需要学习苹果的多种品种和特征。通过这样做,可以根据个人喜好推荐适合的苹果,当用户拍照时,可以了解其品种和特征,作为购买决策的因素。此外,即使是相同品种的苹果,如果学习了不同成熟程度和颜色变化等多种状态,也可以实现在分选和发货时的自动分类。

除了在标注中明确定义规则之外,还可能需要进行培训,以使作业人员达到相同的水平。通过这样做,可以创建更高级的数据集。

为了节约人力成本,有时会将标注工作外包给海外公司,例如海外作业公司或个人等众包工作者,像这种外包的工作人员可能没有领域知识。如果选择存在内部拥有领域知识,并且具有专有经验的标注工作体制的公司,那么就可以提高质量,并创建具有高附加值的数据集。


作为进行标注的组织的管理方法


即使标注规范和标注人员准备充分,也并不足够。要持续提供高质量的标注工作,还需要注意以下几个方面:


①是否能够快速的与工作人员沟通

标注过程中的人为错误会直接影响AI的检测精度。尽管可以提高工作人员的技术水平和领域知识,进行负责人的管理以避免错误,但完全防止错误的发生是不可能的。为了创建高精度的数据集,重要的是在错误发生时能够迅速处理和解决。

通过组织的努力、经验和积累,可以了解错误的原因并制定应对方法,明确指导方针,从而能够迅速应对错误。


②当发生人为错误时,能否迅速处理和解决

注释中的人为错误与 AI 检测准确性的下降直接相关。 靠提高工人的技术水平、掌握领域知识、靠管理者管理是不可能完全杜绝错误发生的。 为了创建高度准确的训练数据,重要的是即使发生错误也能够快速响应和解决。
如果弄清楚了错误的原因,处理方法,明确了指挥链,积累了组织的努力和诀窍,一旦发生错误,就可以立即处理。

 

③有无确立品质管理,工作流程等管理体制

建立一个有效的质量管理体制对于创建高精度的数据集非常重要。不能直接使用作业人员创建的标注结果,而是应该建立一个能够由有能力的负责人进行必要检查的体制。这需要确保作业人员能够与负责人进行适当的沟通,并且需要负责人能够检查错误。

此外,为了检查大量的标注工作,确保有多个负责人进行检查也是非常重要的关键点。
关于负责人的安排和多人检查,请参考以下说明。



・负责人能否仔细审查工作结果




与操作员一样,负责人也必须仔细检查细微的注释。他们需要确保工作内容和规则的遵守情况,标注是否正确等。相比操作员,负责人需要更加仔细地进行检查。此外,还可以查看每个操作员的错误趋势,并进行指导,以提高数据的准确性。



・是否建立了多人审核的体制



标注工作通常需要多人合作完成,但如果只有一个负责人进行确认,可能因为任务量大而无法准确确认。此外,不同的视角可能会发现一个人无法察觉到的问题。

通过由多个负责人确认错误和标注是否遗漏,可以避免错误的发生。



总结

数据集对于AI来说是不可或缺的,其高准确度直接影响着AI的准确度。为了创建高准确度的数据集,需要考虑多个因素,如高技术的标注能力、丰富的专业知识以及健全的管理体制。

虽然标注工作看似简单,比如对大量数据进行标记,但有时候会将其外包给个人众包工作者或海外公司以降低人力成本。然而,在这种情况下,即使制定了工作内容和规则,由于工作者无法理解或缺乏相关知识,标注的准确度可能较低,从而需要花费额外的人力成本进行修正。除了具备高技术的工作者之外,还需要建立一个能够管理他们并实现项目目标和交付期限的组织。

此外,在创建数据集时,即使具备高技术和质量管理能力,完全消除人为错误也并非易事。然而,如果能够在错误发生时迅速、准确地做出应对,就能够创建可靠的数据。
通过满足以上要素,可以创建高质量的数据集,从而打造精准度高的AI。