教師データの品質はどう判断する?精度と質を上げるための方法、技術レベルとは?
教師データとは、AIに学習させるために正解のタグが付与されたデータです。この教師データをもとにAIは学習を行い、ルールやパターンから新たなデータを分析します。
教師データの品質はAIの精度に直結するものであるため、高精度なAIには質の高い教師データが必要不可欠です。しかし、教師データの「質の高さ」とは実際にはどのように判断すればよいのでしょうか?この記事では、質の高い教師データを作成するためにどういった要素が必要なのかを紹介していきます。
1. 教師データの品質を決めるポイントとは?
アノテーションは、膨大なデータに対して、タグやメタデータなどの情報を紐づけていく作業です。教師データの質はこのアノテーション作業に左右されますので、まずはアノテーション仕様の精度が重要になります。アノテーション仕様の精度を高めるためには、以下に留意しなければなりません。
① 品作業内容の定義 ② 統一されたアノテーションルール ③ AIの使用目的 |
それぞれのポイントについて説明します。
①作業内容の定義
複数の作業者でも同じようにアノテーションを行うために、アノテーション作業の内容を事前に定義する必要があります。
アノテーションの作業内容は、教師データを「何のために作成するのか」によって異なります。例えば、りんごの画像を「これはりんごだ」と認識させたいのであれば、画像データに「りんご」というタグ付け作業をする必要があります。
また、画像を認識するためのアノテーションの中でも以下のようなもなど様々な種類があります。
画像データに含まれる物体を特定する「物体検出」で用いられる「バウンディングボックス」
画像中の対象物の領域を特定する「セグメンテーション」で用いられる「マスク」
人間や動物の体の関節や手足の位置を特定する「姿勢推定」で用いられる「キーポイント」
どのような目的で教師データを作成し、そのためにどのような手法を用いるのかを明確に定義することが大切です。
②統一されたアノテーションルール
アノテーション作業のルールを統一しなければ、教師データの質を向上させることができません。ルールを統一することで、アノテーション担当者が異なる場合でもばらつきの少ない高品質なデータを作成することができます。
そのためには、複数の作業者が同一判断できるような明確なルールが必要です。例えば、以下のようなルール設定が考えられるでしょう。
セグメンテーション用のマスクデータを作成する際に、どこまで画像を拡大して、どこまで細部の塗りつぶしを行うか
物体検出に用いるバウンディングボックスを付与する際に、自転車と電動自転車を分けるか
鉄塔のサビや色落ちを検出する目的の場合は、どの程度の色以上であったら重大レベルとするか
主観が入ってきてしまうケースもあるため、事前にテストを行って極力同じ判断ができるようにすることも重要です。
③AIの利用目的(検出目的)
アノテーションのルールは、教師データの使用目的に合わせたものでなければなりません。りんごの画像を検出させることが目的であるのに、「果物」や「食べ物」、または「赤いもの」とアノテーションしては、使用目的に沿っていません。
アノテーション作業の前に、何を行うことを目的としたAIを構築するのかを明確にし、そのためにどのようなデータを作成するべきかを明確にして共有することで、誤りがなく精度の高いデータをつくることができます。
ネクストリーマーでは、高品質な教師データの作成において数多くの実績を持つAI専門技術者が
アノテーションサービスを提供しています。アノテーション外注を少しでもお考えの方は、
無料で相談可能ですので、いつでもご相談ください。
2. 教師データの品質を左右するアノテーションデータの要素とは
AIの利用目的によってアノテーションデータのデータ数と幅広さと言った重要なポイントも変わってきます。
・データ量
アノテーションのデータ量は構築するAIによって異なるため一般的な基準と言えるものはありませんが、画像認識であれば数百件程度以上、テキストデータであれば数百〜数千件程度以上は最低でも必要になることが多いと思われます。使用目的や納期を考慮しながら、どれくらいのデータを用意しタグ付けをするのかを決めておく必要があります。
・データの種類
AIは、画像認識であれば、これまで学習してきたデータの色や模様、形などから、判断することができます。しかし、同じような赤いりんごの画像を大量に学習させても、青りんごを「りんご」と判断できない可能性があります。
また、りんごと色が似ているイチゴの画像を「これはりんごではない」「イチゴである」というタグ付けや、りんご以外も存在する画像からりんごだけを抽出するなど幅広いデータをアノテーションすることが必要になるかもしれません。そのため、どういった種類のデータが必要かという点も、使用目的に応じてあらかじめ決めておく必要があります。
ネクストリーマーでは、高品質な教師データの作成において数多くの実績を持つAI専門技術者が
アノテーションサービスを提供しています。アノテーション外注を少しでもお考えの方は、
無料で相談可能ですので、いつでもご相談ください。
3. アノテーション人材に求められる技術レベル
アノテーション内容を定義してルールを作成しても、実際にアノテーションを行うのは人です。教師データの質は、作業する人の技術レベルによっても左右されます。
作業者によってルールの認識にばらつきがあると、作成されるデータにもばらつきが生じることになりますので、統一感のあるアノテーションデータを作ることが重要です。そのためには、作業者に以下のような能力が求められます。
① ルールを忠実に守って作業できる ② 作業の適性がある ③ 「報・連・相」のコミュニケーションをスムーズに行える ④ ドメイン知識を身につけられる体制である |
それぞれのポイントについて説明します。
①ルールを忠実に守って作業できる
いくらルールを定めても、忠実に守って実行できなければ精度にばらつきがあるアノテーションデータになってしまいます。アノテーション作業の内容やルールを定めるのは、どんな作業者でも同じ作業を行うことができるようにするためです。統一性のあるアノテーションデータを作成するためには、ルールを理解しそれを忠実に守って作業できる能力が必要になります。
②作業の適性がある
アノテーション作業は、膨大な数のデータのタグ付けをしなければなりません。ルールを理解し、実行できるスキルがあっても、大量の数をこなす中で集中力が欠けてルールを守れなくなる場合があります。
使用目的によっては細かい作業が必要な場合もありますが、作業者の性格によってはそういった作業が苦手な場合もあります。また、チェッカー側も、作業者の作業結果を細かくチェックできるかどうか適性が求められるでしょう。使用目的によってどのような作業が発生するかを明確にし、その作業に適性を持つ人員を配置できるかも重要になります。
③「報・連・相」のコミュニケーションをスムーズに行える
ルール通りアノテーションをしたつもりでも、目的に合ったものでない可能性もあります。アノテーションは膨大な量を処理する必要があり、間違いに気づかなかった場合は、大量のデータを修正する必要があります。
また、ルールを細かく決めていても、判断が難しいことや迷うことも出てくる可能性があります。管理者や他の作業者とこまめに報告・連絡・相談をして情報を共有できる能力が必要です。
④ドメイン知識を身につけられる体制である
ドメイン知識とは、業界や事業についての知識や知見、トレンドに関する専門的な知識のことです。アノテーションで一般的な情報だけでなく、業界特有の付加的情報をタグ付けするにはドメイン知識を持つ人材が必要になるでしょう。
例えば、りんごの画像や類似する果物の情報だけでなく、りんごの多様な品種やその特徴を学習させるケースもあるかもしれません。そうすることで個人の好みに合ったりんごをレコメンドしたり、ユーザーが写真を撮ればその品種と特徴がわかり購買の判断要素として活用できたりするようになります。また、同じ品種のりんごでも、熟し度合いや色づき具合など複数の状態を学習させておけば、選別時や出荷時に自動で仕分けすることも可能となります。
アノテーションの明確なルールを事前に定義することに加え、必要であれば研修を行って作業者のレベル感を合わせる必要があります。そうすることで、より高度な教師データをつくることができます。
人件費を抑えるために海外企業に委託するようなオフショアや個人などのクラウドワーカーではドメイン知識がない場合があります。社内ノウハウとしてドメイン知識を保有しているアノテーション作業体制があれば、質が格段に上がり付加価値の高い教師データを作ることができます。
4. アノテーションを行う組織としての管理方法
アノテーション仕様や、アノテーション作業人材が準備できたとしても、それで十分ではありません。継続的に品質の高いアノテーション作業を行うには、以下のような観点も気をつけなければなりません。
①作業者と密で素早いコミュニケーションを取れるか
作業者全員が理解して作業をするために、作業内容や方法、方針を伝えることが必要です。作業を始める前やルール・方針が変わったときでも、細かく丁寧に情報を共有し、ズレや誤りのない正確な作業ができるようコミュニケーションを取る事が必要になります。
また、伝えたことが理解できているのかを、作業者と充分に確認する必要があります。作業中でも迷っていることや目的に沿っているか常に気を配り、逐次作業者とコミュニケーションを取って正しくアノテーションを進めることができるように管理しなければなりません。
②万が一ヒューマンエラーが発生した場合に素早く対処・解決できるか
アノテーションにおけるヒューマンエラーはAIの精度の低下に直結します。作業者の技術レベルを向上させ、ドメイン知識を習得させ、責任者による管理をしてエラーが起こらないようにしても完全に防ぐことは不可能です。精度の高い教師データを作成するには、エラーが発生した場合でも、素早く対応し解決できるようにすることが大切です。
エラーの原因の把握や対応の手法、指示系統の明確化を組織に取り組み、ノウハウを蓄積しておけば、エラーが起きた場合にはすぐに対応できます。
③品質管理・作業工程の管理体制ができているか
精度の高い教師データをつくるためには品質を管理する体制ができていることも大切です。作業者の作成したアノテーションをそのまま使用せず、能力のある責任者が必ずチェックする体制ができていなければなりません。作業者と適切にコミュニケーションが取れることや、エラーをチェックできる責任者が必要になります。
また、膨大なアノテーションをチェックするために責任者を複数人確保することも重要なポイントです。
責任者の配置、及び複数人チェックについて、以下で説明します。
・責任者が作業結果を注意深く確認できるか
作業者同様に、責任者も細かいアノテーションを確認しなければなりません。作業内容やルールに沿って作業できているか?ラベリングが間違っていないか?など作業者以上に注意深く確認をする必要があります。また、作業者ごとの間違いの傾向も確認し、指導することができれば、よりデータの精度が高まります。
・複数人で確認できる体制であるか
アノテーションは、膨大な作業を行うため複数人で作業をしますが、それを確認する責任者が一人であれば、量をこなすあまりに正確に確認をすることができない場合があります。また、一人であれば気づかない点も違う視点から気づくことができる場合もあります。
複数人の責任者で誤りやタグ付けが漏れていないかを確認することで、エラーを防止することができます。
5. まとめ
教師データはAIにとって欠かせないものであり、その精度の高さがAIの精度の高さにつながります。質の高い教師データを作るためには、高い技術のアノテーションや専門知識の多さ、しっかりとした管理体制といった様々な要素があります。
アノテーション作業は、大量のデータをタグ付けするといった、一見すると単純な作業に見えるため、個人のクラウドワーカーや海外企業に委託するようなオフショアに依頼して人件費を安く抑える場合もあります。しかし、そのような場合、作業内容やルールを決めても、作業者が理解できなかったり知識がないために精度が低いアノテーションになったりするなどの問題が発生し、目的の沿った品質の教師データを得られなくなってしまいます。技術の高い作業者だけでなく、それを管理し、目的や納期を達成できる組織づくりも必要になります。
また、教師データを作成する上で、アノテーション技術が高く品質管理の体制が整っていたとしてもヒューマンエラーを完全になくすことは簡単ではありません。エラーが発生した時に的確に素早く対応していけば、信頼性のあるデータが作りあげられます。
このような要素をクリアすることで、質の高い教師データを作り、精度の高いAIを作ることができます。
ネクストリーマーでは、高品質な教師データの作成において数多くの実績を持つAI専門技術者が
アノテーションサービスを提供しています。アノテーション外注を少しでもお考えの方は、
無料で相談可能ですので、いつでもご相談ください。