AI構築を行う上で重要な作業となるアノテーション。アノテーションとは、テキスト・音声・画像などのデータに対してタグを付け、意味を付与する作業のことです。
アノテーションの品質は、構築するモデルの精度に影響します。利用するデータ量が多ければ多いほど、アノテーション作業のボリュームは増え、多くのメンバーでの対応が必要となるでしょう。アノテーションを外注するケースなどにおいて、作業を効率的かつ高品質に実施するためには、実施内容を整理し、アノテーションの品質管理を徹底しなければなりません。この記事では、アノテーションの品質管理のポイントについて解説します。
アノテーションが完了したデータは、AIの学習や評価に利用されるため、タグ付けの精度がAIの精度に大きく影響を与えます。
アノテーションによりデータにタグを付けることで、AIが学習可能な状態とします。アノテーションが完了したデータは、AIの学習や評価に利用されるため、タグ付けの精度が非常に重要です。多くの場合、アノテーションは人の手で行われるので、データ量次第では多くの人員と工数を要するでしょう。
言語処理学会の研究では、アノテーションを行った人が有識者か初心者かによって、AIの正答率に2倍以上の差が出たことが報告されています。そこで、自社内で行うアノテーションの精度を高めるために「アノテーションの品質管理」が重要となります。
アノテーションの品質管理を行うためには、明確な仕様とツールを決定し、アノテーションの作業者と評価者が特定可能であることが重要です。具体的には、以下の項目を実施することで、アノテーションの品質向上につながります。
① 品質管理を行うための仕様書(ルール)の作成 ② アノテーションのデータ量の決定 ③ アノテーションを行うためのツールの選定 |
アノテーションを正しく行うためには、明確に仕様を決定する必要があります。仕様を決定する上で最も重要となるのが「アノテーションの基準」です。
アノテーションの評価者は、構築するAIの目的を踏まえて、基準を決めていきます。たとえば、画像に写る人間を検知する物体検出のAIにおいて、作業者は人間の領域の四角形をタグ付けしていきますが、高さ方向は頭の天辺から足のつま先までにするか、上半身のみにするかなどを目的に合わせて決定しなければなりません。基準を明確にしなければ、有識者と初心者のアノテーションのように、精度に違いが生まれてしまうでしょう。つまり、仕様をどれだけ明確にできるかが、AIの精度に直結するのです。仕様が明確であれば、作業者が複数いる場合でも、精度に違いが生まれにくくなります。この仕様は、アノテーションに関わる全員が随時確認できるよう、仕様書に必ず記載しましょう。
アノテーション開始時は作業者が仕様に慣れておらず、タグの精度が下がりやすいため、最初は評価者がデータを細かくチェックし、間違いを指摘することが品質向上につながります。
アノテーションを進めていると、作業者がタグの付け方を判断できないようなデータが出てくる場合があります。たとえば、物体検出の物体位置をタグ付けする際に、物体同士が重なっているケースです。判断できないものについては、評価者が新たな基準を設け、仕様書を更新してください。
タグ付け完了後は、作業者と評価者によるアノテーションのダブルチェックを行い、問題がなければAIの構築と評価に進みます。評価者はAIの評価結果をもとに、アノテーションの基準の修正がないかを確認しましょう。
アノテーションで作成するデータはバリエーションが多く、タグの精度が高いほど目標とするAIの精度は高くなります。そのため、できる限り多くのデータに対してアノテーションを行うべきですが、データ量が多くなるほど作業者の負担が増え、タグ付けのミスにもつながるでしょう。そこで、評価者はデータの量を調整して作業者の負担を考慮し、品質の管理を行います。作業者のタグ付けスピードと学習データが必要な期日から1日のタグ付けを行うデータ量を調整したり、作業者の人数を調整したりすることで、アノテーションの品質を高められます。
アノテーションに利用するツールは、目標とするAIに合わせて用意する必要があります。備わっている機能や使いやすさが、アノテーションのスピードと正確さに関わってくるため、ツール選定は品質管理において非常に重要です。ツールを用意する方法としては、オープンソースから選定する、自作するなどが挙げられます。目標とするAIに合うオープンソースがあれば時間や費用をかけずに用意できますが、最適なツールが見つからなければ自作する場合もあります。自作する場合は、作業開始後に作業者からの要望を機能として追加できる、他のタグ付けの際に改良することで流用できるなどのメリットがあります。
アノテーションの方法は、大きく以下の2種類があります。
①アノテーションツールを用意し、自社で実施 ②他企業への外注 |
アノテーションを行う際は、作業効率化のために専用のツールを用意します。専用ツールでは直観的な操作が可能となるため、作業スピードが上がるほか、人為的なミスの防止にもつながるでしょう。専用ツールを用いて自社で実施する場合は、作業人員を確保することは当然ですが、ツールの選定などを行うため、アノテーションやAIに関する知識を持つ人員も必要となる点に注意してください。
アノテーション代行サービスを展開している企業も数多くあります。外注する場合は、仕様やルールの策定からツールの用意までをすべて任せられるため、構築するAIの目的を明確にさえすれば、学習データを用意できます。すべての作業を委託することで費用の負担が大きくなってしまう場合は、一部分のみ外注することも可能です。アノテーションの実施のみ依頼するなど、自社内でできることを検討しながら代行サービスを活用すれば、コストを下げつつ品質の良いアノテーションを実施できます。
アノテーションの概要と品質管理の方法について紹介しました。アノテーションの品質管理のポイントは、以下の3つになります。
① 品質管理を行うための仕様書(ルール)の作成
② アノテーションのデータ量の決定
③ アノテーションを行うためのツールの選定
これらのポイントを抑えておくことで、アノテーションの品質向上を図れます。アノテーションの品質管理は、構築するAIの精度に直結するため、必ず実行するようにしましょう。3つのポイントを自社で整えることが困難な場合は、アノテーションを他企業へ外注することも視野に入れましょう。