アノテーションの費用は「案件ごとに見積もり」としているアノテーション代行会社が多く、相場の把握が難しいと感じる方が多いようです。それでも、見積チェックの助けになる一般的な内訳やだいたいの費用感を事前につかんでおきたい方も多いのではないでしょうか。
本記事では、画像・動画・音声・テキストなどの具体的なアノテーション費用や相場を紹介します。また、記事後半ではアノテーション費用を抑える方法も解説しています。
最後までお読みいただければ、大まかな料金相場感覚を掴んでいただける上に、アノテーションを安く抑えられる方法までお分かりいただけます。
【目次】 |
アノテーションを依頼する際には、主に以下の費用が生じます。
1. アノテーション業務委託費 2. ツール使用費 3. プロジェクト管理費 4. QA(品質保証)費 5. アフターサービス費 |
代行会社によって、見積書では異なる表記で表現されていることがあります。また、対象範囲が少しずつオーバーラップしていることもあるかもしれません。
それでも、費用見積の内容を正しく把握するのに役立つに違いありません。それぞれの内訳について説明します。
アノテーション業務委託費は、AIを開発するための教師データを作成する際に実際に作業としてかかる費用です。アノテーション業務にかかるメインの費用と言えるでしょう。主に、アノテーション作業者の人件費に充てられます。
アノテーション業務委託費は、どのデータをアノテーションするかや、作業品質によって価格が大きく変動します。ここでは、データごとの大まかな目安をご紹介します。
データの種類 | 価格 |
画像 | 1枚10円〜 |
動画 | 対象物1つ10円〜 |
テキスト | 1文章30円〜 |
音声 | 1分150円〜 |
ただし、アノテーションの種類や方法、求める精度によって業務委託費は大きく変動します。
画像を例とすると、タグ付けする対象物を矩形(長方形)で発注する場合と、多角形でアノテーションする場合を比較すると料金が2〜5倍程度に上がるのが一般的です。それだけ作業が複雑になるからです。
なお、アノテーション業務委託費はボリュームディスカウントが発生しやすい項目です。大量のデータを一括で委託することで、全体の費用を抑えることが可能かもしれません。
アノテーションを行う際に特別なツールやソフトウェアが必要な場合、その使用料が発生します。これは、特に専門的なアノテーション作業において重要なポイントとなります。
アノテーション業務委託費に一括で含まれているケースもあるので、見積取得時に確認しましょう。
プロジェクト管理費は、アノテーション作業者のアサインやスケジューリング、コミュニケーション等の管理にかかる費用です。アノテーションが予定通りに行われているかや、品質が保たれているかを管理するために用いられます。
プロジェクト管理費に関わる業務量は、アノテーション作業を行う期間の長さや要求する精度により変化します。契約金額の1〜2割程度がプロジェクト管理費として見積もられるケースが多いです。
QA費は、アノテーションが正確に行われ、高い品質が維持されるための費用です。主に、アノテーションが正確に行われているかを確認するために用いられます。
QA費は、アノテーションの品質を確認し維持するために行われるチェック体制に大きく影響されます。以下に、アノテーションの主なチェック体制を紹介します。
チェック種類 | 作業方法 | 品質 | 単価 |
シングルチェック | アノテーションと品質管理を1人で行う | 低 | 低 |
ダブルチェック | アノテーションと品質管理を別の人が行う | 中 | 中 |
コンセンサス | アノテーションを複数人で行い、結果を複数人で決める | 高 | 高 |
品質が要求されるほど、これらのチェック体制に必要とされる人員は増え、それに伴いQA費も高くなります。特に、自動運転や薬剤研究など精度が特に必要とされる領域では、ダブルチェックなどの高品質なチェック体制が求められるでしょう。
コンセンサスと呼ばれるチェックは、アノテーション対象に対しての作業にゆらぎが発生しやすい作業などで用いられることが多いです。例えば、人の映像を見て、笑っているかどうか、を判断する分類アノテーションなどです。
アノテーション作業が完了した後に何か問題が発生した場合に備えて、アフターサービスを提供してくれるアノテーション会社もあります。その際に発生するアフターサービス費用も考慮に入れるべきです。
画像には、主に以下のアノテーションが行われます。
・画像分類 ・バウンディングボックス(矩形) ・ポリゴン(多角形) ・セグメンテーション ・ランドマーク |
それぞれの作業内容と相場をご紹介します。
画像分類は、画像全体に対してタグ付けを行う作業のことです。例えば動物であれば、種類や色をタグ付けすることで、AIがそれらの属性を判別できるようになります。分類の相場は、1枚当たり5〜10円程度となっています。
バウンディングボックスは、画像内の特定のオブジェクトを矩形(四角形)でマークするアノテーション手法を指します。
バウンディングボックスの単価相場は、対象物1つ当たり10円程度です。ただし、1枚の画像内に多数の対象物が含まれる場合は、ボリュームディスカウントが適用されることがあり、その結果、単価は低下する可能性があります。
ポリゴンは、画像内の特定のオブジェクトを多角形(ポリゴン)でマークするアノテーション手法を指します。バウンディングボックスよりも高精度で対象物の形状を捉えることが可能となります。
ポリゴンの相場は、対象物1つ当たり20〜50円程度です。しかし、この価格はアノテーションの要求精度によって大きく変動します。たとえば、対象物の複雑な形状を詳細に捉えるために、多角形の頂点数が多くなる場合などは、単価は上昇する傾向にあります。
セグメンテーションは、画像内の対象物をピクセル単位でタグ付けする作業を指します。画像中の各オブジェクトの境界線に従って、非常に詳細なタグ付けを行う手法です。上記画像であれば、山や木、道路などの輪郭に沿ってタグ付けしています。
セグメンテーションの単価相場は、画像1枚当たり100〜300円程度です。ただし、ポリゴン同様、セグメンテーションも要求精度によって単価が変動します。
特に、対象物が多数かつ複雑な形状を持つ画像を高精度でアノテーションする場合、単価は数倍に上昇する可能性があります。場合によっては1,000円を超えることも十分にあり得ます。
ランドマークは、特定の対象物のキーポイントをマークするアノテーション作業を指します。例えば、顔認識で、目、鼻、口といった特徴的な位置をタグ付けすることで、顔の形状や表情を解析するのに役立ちます。
顔だけでなく他の部分にも活用されています。たとえば、人体の関節部分にタグ付けを行うことで、骨格の動きを解析したり、スポーツのフォームのチェックなどにも使われます。
ランドマークの相場は、1点当たり5〜10円程度です。
動画の場合、コマ送りしながら対象物に合わせてアノテーションしていく必要があります。そのため、動画内の動きが複雑であったり、動画の時間が長ければ料金が上がる傾向があります。
動画内の対象物には、主に以下のようなアノテーションが行われます。
・分類 ・バウンディングボックス(矩形) |
それぞれの作業内容と相場を解説します。
動画分類は、動画全体に対してアノテーションする作業です。例えば、天候の識別が必要な場合、その動画全体が「晴れ」、「雨」などといった条件に該当するかをマークすることで、AIが天候を自動で判別するための訓練データを作成できます。
動画分類の作業単価は要件によって大きく変更します。単純な属性指定であれば20円程度から行えますが、複雑で多数の分類属性がある場合や長時間の動画では1,000円を超える場合もあります。
バウンディングボックスは、画像アノテーションと同様、動画内の対象物を矩形(長方形)でタグ付けする作業です。対象物が動いている場合には、動きに合わせて矩形を動かしていく必要があります。
動画のバウンディングボックスの単価相場は、だいたい20円からが目安です。動画の長さや対象物の動きによって価格が変動します。
音声データをアノテーションすることで、話し手の会話内容のほか、感情や話者分類が可能です。
音声データの内容をアノテーションするには、初めに音声をテキストに変換してから、テキスト上の文章や単語にタグ付けするのが一般的です。
ここでは、音声データをテキストデータに変換する手法とその料金をご紹介します。
ケバ取りとは、音声データから「あー」や「ええと」のようなフィラー(意味のない言葉)を除去する作業を指します。ケバ取りにより、音声データはよりクリアで理解しやすい形になります。
ケバ取りの単価は、一般的に音声1分当たり約120円程度ですが、音声のクリアさや話者の話し方により変動します。
文字起こしは音声データをテキストデータに変換する作業を指します。文字起こしにより、AIの音声認識システムが読み取りやすい形のデータを得ることができます。
文字起こしの単価は、音声1分当たり約250円とされています。音声の品質や話者の話し方、話す速度により変動することがあります。
整文は、話し言葉を書き言葉に変換する作業です。特定の話者の話し方のクセや倒置表現などを整え、一般的に理解しやすい形式の文章に直します。
整文の単価は、音声1分当たり約350円とされています。ただし、要求される文章の複雑さや専門性が高い場合、単価が高くなる可能性があります。
テキストアノテーションでは、テキスト全体やテキスト内の単語に対してタグ付けします。
テキスト全体に対するアノテーションでは、そのテキストが疑問文か肯定文かなどを判別できます。また、単語に対するアノテーションでは、参考画像のように単語ごとに意味づけを行うなど、詳細なタグ付けが可能です。
テキストアノテーションの費用は、精度によって大きく変動します。テキスト全体に対するアノテーションであれば1文(150文字程度)当たり10円程度ですが、単語毎にアノテーションする場合は、1文当たり30円程度〜となります。
アノテーション費用を抑える方法には、主に以下があります。
・必要な項目のみ依頼する ・まとめて発注する ・海外に外注(オフショア)する ・クラウドソーシングを活用する |
必ずしも、上記の方法がすべての企業におすすめとは言えません。それぞれのメリットや注意点を解説します。
アノテーションを依頼すると、それぞれの作業に対して「アノテーション委託費」が発生します。
不必要なアノテーション作業を依頼すると、そのぶん余計な費用となります。そのため、AIの学習に必要な項目のみに絞ってアノテーション作業を依頼することが賢明です。
アノテーション作業は、発注数が数千~数万件単位になることも少なくありません。まとめて発注するとボリュームディスカウントが発生する可能性もあります。これにより、全体のコストを抑えることができます。
また、アノテーションを別々の会社に発注すると、品質に差が出てしまいます。品質にばらつきがあると精度が悪くなる可能性があるため、なるべく同じ会社にアノテーションを依頼するようにしましょう。
人件費の低い国に外注することで、アノテーションのコストを削減できることがあります。
ただし、この方法は、高度なアノテーションを必要とする場合や、音声やテキストの日本語のアノテーションを必要とする場合には適していないかもしれません。コミュニケーションの問題や、日本語の理解の問題が原因で、誤ったアノテーションがなされる可能性があります。
クラウドソーシングを利用することで、アノテーション費用を安く抑えられることがあります。ただし、クラウドソーシングの利用は、費用を安く抑えられる可能性がある反面、リスクが多くあります。
まず、セキュリティ面の課題があります。クラウドソーシングで外注した場合、社外の方に作業を任せることとなるため、情報漏洩リスクが高まります。特に、機密情報にアノテーションを行う場合は避けた方が良いでしょう。
次に、品質の問題があります。クラウドソーシングで外注する場合、作業者のスキルを正確に把握できないことが少なくありません。作業レベルの低い方に外注してしまった場合、精度の低いデータが納品される可能性があります。
こういった場合は、品質の管理に見えない管理コストが発生していることが多くありますので注意が必要です。
まれに、アノテーション代行企業であっても作業をクラウドワーカーに依頼していることもあります。代行企業にアノテーションを依頼する際にも、誰がアノテーションを行っているのかを確認するようにしてみてください。
本記事では、アノテーションの費用や相場について紹介しました。
アノテーションは、要件によって工数や作業量が大きく異なるため、一概に料金がいくらと言い切ることは難しいケースがほとんどでしょう。ですから、アノテーション作業の外注を検討する際は、複数のアノテーション会社に見積もりを取ってもらうと良いでしょう。
ただし、表面的な費用だけでアノテーション会社を選定するのは危険です。アノテーションの品質はAIシステムの精度に直結します。