AIを開発する上で、AIに判断基準を覚えさせるために作成する学習用のデータ、つまり教師データに対してラベルを付ける作業がアノテーションです。
AI開発を初めて行う、または初めて外注化する場合、アノテーション作業がAIシステムの性能を決めるためにたいへん重要であることに意外に気づきにくいといえます。
現時点では人間の力が必要となるアノテーション作業ですが、なぜ完全な自動化が難しいのでしょうか。
この記事では、アノテーション作業の自動化が難しい理由、ツールの弱点、自動化を実現するための代表的なアプローチ方法、手作業での対応がどのようにアノテーション作業において力を発揮するのかご紹介します。
こちらの記事で、アノテーション作業で具体的に何を行うか、なぜ重要か説明しています。
【目次】 |
アノテーションの完全な自動化は難しいといえます。アノテーションを行うためには、大きく人手によるものと、機械による自動化という2つの方法がありますが、現状では多くの領域において手作業でのアノテーションが必要です。
なぜアノテーションの自動化は難しいのでしょうか。アノテーション作業を自動で行うようなAIを開発することはできないのでしょうか。以下の2つの視点から解説します。
1. ツールを利用したアノテーションの完全自動化は難しい 2. 特定の製品や業界への適応性と品質管理 |
あわせて読みたい: アノテーション作業における手作業と自動化の使い分けについて |
現時点では、ツールによりアノテーション作業を完全に自動化することは難しいといえます。
たとえば、画像データのアノテーションであれば、画像のうちどの領域に、どのような名称の物体が存在するかをラベル付けしてあげる必要があります。また、テキストの感情分析を行う上では、テキストデータに対してネガティブ・ポジティブや「うれしい」「悲しい」といった情報を付与します。
しかし、ツールの自動検知精度は確実なものではなく、間違った判定が行われることもあります。また、例外的なケースにおいては対応が難しかったり、要件に合わせて正確にラベル付けを行うことが難しかったりと、制約も存在します。
このような理由から、ツールでアノテーション作業を完全に行うことは難しく、人の介在が必要となるのが現状です。
あわせて読みたい: なぜ人手でのアノテーション作業が必要なのか その強みと役割とは |
データアノテーションは、特定の製品や業界の特性を反映したデータを使う必要があります。一般的なデータセットや他の業界のデータセットではすべてをカバーできません。
一般的なデータには含まれない情報を扱うため、アノテーションのガイドラインを更新したり、新しいアノテーションルールを設定したりする必要があります。
また、自社のデータに置き換える際には、そのデータがAIシステムのパフォーマンスに影響を及ぼす可能性があります。データの品質を確保するために人間によるチェックや監視が必要となります。
これらのプロセスは、アノテーターを再教育する必要があり、これらの要因はアノテーションの自動化を難しくしています。
アノテーション作業効率化手法るために以下のような様々なアプローチが検討されています。
1. アクティブラーニング 2. アノテーション作業効率化手法 3. 半教師あり学習 |
それぞれのアプローチについて説明します。
アクティブラーニングという手法においては、まず一定量のアノテーションを実施したのち、それらをインプットとしてAIにより残りのデータに対してタグ付けのサジェストを行います。この際、精度が十分に担保できているものはAIが付与したタグを採用しつつ、精度が十分でないものは人手でアノテーションを実施することで精度を改善します。
これにより、アノテーション作業の効率化につながります。
少ない作業量でアノテーション作業を実施できるようにするアプローチもあります。たとえば、画像データに対するアノテーションにおいて、Bounding Boxにより物体検出を行う際に、対象物をクリックするだけで自動的に領域を予想する技術も検討されています※1。
また、特定の物体の領域を抽出するSegmentationをサポートするために、機械でも十分判断可能であるケースは機械が実施するような技術も研究もされています※2。
アノテーション作業自体のアプローチではありませんが、AI開発手法として半教師あり学習を用いるという方法もあります。半教師あり学習とは、少量の教師データを基に残りのデータにラベル付与することで、少量の教師データであったとしても高い精度で分類を行おうという手法です。
※1 Training object class detectors with click supervision
※2 Predicting Sufficient Annotation Strength for Interactive Foreground Segmentation
様々なアノテーション効率化のための手法が研究されているものの、あらゆるアノテーション作業を完全に自動化するところには至っていないのが現状です。特に、複雑なアノテーション作業には多く人手が必要となります。スキルを持ったアノテーターにより手動でアノテーション作業を実施しなければならない状況はまだ続くでしょう。
以下では、手動でアノテーションが必要となる具体的なケースをいくつか取り上げ、手作業によりどのような効果を発揮できるのかについて紹介します。
アノテーション作業において専門知識が必要となるケースにおいては、スキルを持ったアノテーターによる手作業が重要となります。
たとえば、医療において患者への聞き取り内容を基に診断を支援するようなAIを構築する場合には、アノテーションツールで自動化することは難しいといえます。専門的な判断能力を持たないツールでは、どのような条件においてどのような病気が疑われるかを判断することはできません。このようなアノテーション作業を行う上では、医療に関する一定の知識がないと実施は難しいといえます。
アクティブラーニングによるアノテーション作業の効率化を行う上でも、やはりそのベースとなる教師データが必要です。この教師データは手作業で実施することになります。
アクティブラーニングの元となる教師データを高い品質で作成することは、元データから作成される教師データの品質に影響します。どの程度の量・どのようなバリエーションで教師データを作成したらアクティブラーニングによる効率的なアノテーション作業が実現できるかといった知識を持ったうえで、作業を実施していく必要があります。
アノテーションのコストと工数を削減するために、多くの企業は自動化、またはアノテーション専門代行業者への外注の2つを検討します。
アノテーションには時間と人材を大量に必要とします。高精度のAIを開発するためには大量のデータが必要で、このデータを少なくすると作業効率は向上しますが、学習量が不足しAIの精度が低下します。
十分なデータとアノテーションの人材を確保すること自体が新たな課題となり、企業のコア業務に影響を及ぼす可能性があります。
解決策としてアノテーションの自動化ツールがありますが、これを自社用に完全にカスタマイズすることには限界があります。特に自社製品のデータに適応させる場合、新たな人材配置という問題が生じる可能性があります。
さらに、社内でアノテーションの全プロセスをカバーすることは現実的に難しいでしょう。アノテーターの作業だけでなく、トレーニング、チェック、そしてプロジェクト管理といった役割も必要となるからです。
これらの課題を解決し、アノテーションのコストと工数を削減するために、多くの企業は効果が読みにくいアノテーションの自動化に工数をつぎ込むより、アノテーション専門代行業者に依頼することを選択しています。
アノテーション代行業者はプロジェクトの初期段階から関わり、最も効果的な進行方法を提案します。結果としてアノテーションにかかるコストと工数を削減し、AI開発に集中することが可能となります。
この記事では、アノテーション作業の自動化の難しさや、手作業でのアノテーション作業の有効性についてご紹介しました。負荷の高いアノテーション作業の効率化のため、様々な研究開発が進んでいますが、当面の間は作業に人手が重要である状況が続くでしょう。実施内容に応じた専門性やスキルを持ったアノテーターによるアノテーション作業により、高い品質での教師データ作成を実現することができます。