アノテーションの品質を高めるためには、アノテーションルールの整備が重要です。
アノテーションとは、AI開発において、テキスト・音声・画像などのデータに対してタグにより「意味」を付与する作業のことです。アノテーションによりタグ付けを行うことで、AIはそれぞれのデータの意味を認識でき、学習データとして活用できるようになります。
特に、多数のアノテーターがアノテーション作業を実施する際には、明確かつ分かりやすいルールを用意することで、アノテーターごとの作業内容のばらつきを避けることができます。
この記事では、アノテーションルールの必要性や具体例、ルール作成のポイントについて解説します。
それでは、アノテーション作業においてなぜルール整備が必要なのでしょうか。
たとえば良品と不良品を見分けるAIを開発する際には、良品・不良品それぞれの画像データが必要となります。一方で、工場内のカメラで撮影した画像や映像など、業務を行うなかで自然に得られるデータには、良品や不良品の区別がないことが一般的です。
このような場合には、人手で画像データや映像データに対して良品・不良品のタグをつける必要があります。この作業がアノテーションです。
アノテーションは機械的に行うケースもありますが、たとえば良品と不良品の境界が識別しにくい場合など、複雑な作業になると人手で実施せざるを得ないことも多いといえます。一方で、AIの性能はデータに依存するため、性能のよいAIを開発するためには多数のデータが必要です。よって、AIの開発を行うためにはアノテーション作業を多人数で実施する必要があります。
多数の作業者(アノテーター)が作業を行う場合、ルール整備をしないと品質の良いアノテーションは困難です。アノテーションルールが存在しない場合、アノテーターごとにタグ付けする際の名称が違ったり、判断基準が異なったりしてしまうなど、統一的な作業ができません。アノテーターが一定の品質でアノテーション作業を実施できるように、アノテーションルールの整備が必要となるのです。
それでは、アノテーションルールとしてどのような内容を定義する必要があるのでしょうか。
定義すべきルールは、対象となるデータや開発するAIにより異なります。そこで、ここでは自動運転AI開発用に撮影されたカメラ画像データを例に、アノテーションルールの設定方法について紹介します。
自動運転を実現するためには、車の周辺に存在する様々な物体を検知し、識別できなければなりません。道路内には、自動車や歩行者、信号、標識など様々な物体が存在しますが、これらをAIが認識できるようにアノテーション作業にてタグ付けします。具体的には、歩行者や信号などを境界線で区別したうえで、それぞれの名称を付与していきます。
アノテーションルールの例:「バス/トラック/乗用車/…」に対して境界線で区別し「自動車」というタグをつける。 |
当然ながら、車は車道しか走れません。よって、物体だけではなく車道や歩道などの領域についても同様に認識できるようにする必要があります。AIが車道や歩道を認識できるように、アノテーション作業として画像内の物体を塗り分けなどを行うことで、領域に対してタグ付けを行います。
アノテーションルールの例:ガードレール、縁石などで区別された歩行者領域を「歩道」として塗分ける。 |
撮影された画像自体の分類作業も必要です。たとえば、その画像が昼に撮影されたものか、夜に撮影されたものかなどにより、AIが学習する際の条件を切り替えるケースも考えられます。
アノテーションルールの例: 画像の明るさや照明の点灯有無などにより「昼」「夜」の区別を行う。 |
このようにアノテーション作業では画像データに対してそれぞれの観点でタグ付けを行いますが、このタグ付けをアノテーターに依存することなく共通的に行えるようにするために、アノテーションの行い方をルール化します。
ルールに基づいてアノテーション作業を正確に行うことで、AIの精度向上が期待できます。どのような形の信号機であっても同様に信号機としてAIが認識できるようにするためには、アノテーションルールにのっとった適切なアノテーション作業が必要です。
アノテーションルールを整備する際にはどのような点に注意すればよいのでしょうか。以下で紹介します。
アノテーターによってアノテーションの実施方法が異なることは避けなければなりません。
たとえば「信号」に対してアノテーションを行う際には、「信号」「信号機」といった表記ゆれが起こる可能性もあります。また、「歩行者用信号は区別するのか」「矢印式信号機の取り扱いは」など、様々なバリエーションを考慮する必要もあるでしょう。
このように、アノテーション作業において発生すると思われる様々なパターンを想定し、共通の内容でアノテーション作業ができるように、明確にルールを整備します。
アノテーション品質を向上させるためには、アノテーターにとって分かりやすい形でルールを整備するべきです。
たとえば、画像データに対するアノテーションであれば、実際のサンプル画像をルールブックに載せることで、アノテーターが判断を迷いにくくなります。この際、例えば矢印式信号と通常の信号を同様に扱うのであれば、両者の写真を掲載するなど、パターンを網羅できるようにサンプル画像を示してあげるとよいでしょう。
ルールの厳密さと同様に、ルールのわかりやすさはアノテーション品質を向上させることにつながります。
アノテーションルールを一度整備し、アノテーションを開始した後も、継続的にルールを改善します。
実際にアノテーションを実施してみた際に、当初想定していなかった分類基準が必要となったり、イレギュラーパターンが発生したりするケースは多いです。また、どうしてもアノテーション開始時は判断基準が明確に定められず、実際にデータを見ながらルールを改善した方が良いこともあります。
よって、一定量のアノテーションを実施したときに内容をレビューし、アノテーターが判断しにくいルールがないかや、ルールに定められていない条件はないかなどをチェックすることがポイントです。その結果を踏まえて、アノテーションルールを再定義することで、品質の高いアノテーションが可能となります。
この記事では、アノテーション作業におけるルール整備について、その必要性や具体例、ルール作成のポイントについて紹介しました。
アノテーション作業はAI開発において高頻度で発生する作業といえますが、その必要性や重要性について知らない方も多いのではないでしょうか。AI開発を実施する際には、アノテーション作業をどのように実施するかも併せて検討する必要があります。アノテーションルールの整備は重要なタスクではありますが、特にAI開発に慣れていない場合は自社での実施が難しいケースもあります。アノテーション作業の外部委託と合わせて、アノテーションルールの整備も外部へ委託することも検討できるでしょう。