ブログ記事一覧|株式会社Nextremer

AI構築のデータセットを購入するメリットとデメリット

作成者: 株式会社Nextremer|Apr 5, 2023 12:37:00 PM


AIの構築にあたり、データセットは欠かせない存在です。データセットは、AIが判断するための学習や、学習させた後の精度を評価するために使われ、膨大なデータ量が必要となります。無料のオープンデータも利用できますが、収集する手間を考えると購入するほうが効率良く、精度の高いAIの構築が可能です。

本記事では、自作を含めたAIに利用するデータセットの入手方法と、購入時のメリットや注意事項を紹介します。



【目次】
  1. AI構築におけるデータセットとは
  2. AI学習用のデータセットを入手する方法
  3. AIのデータセットを購入するメリット
  4. データセット購入時の注意点
  5. まとめ



1. AI構築におけるデータセットとは

 

AIの構築を行う際に利用されるデータセットは、大きく以下の3種類に分けられます。

  • トレーニングセット
  • バリデーションセット
  • テストセット

 

・トレーニングセット

トレーニングセットは、AIの学習を行う際に利用するデータです。トレーニングセットの品質がAIの精度に直結するため、できる限り品質の高いデータセットを用意しなければなりません。品質の高いデータセットを構築するためには、データのバリエーションを豊かにしつつ、正確な正解ラベルが必要となります。自作するとかなりの工数を要するため、購入を検討する方も多いです。


・バリデーションセット

AIの学習を行う際に手動でパラメータを調整する部分があり、このパラメータの値を評価するデータがバリデーションセットです。トレーニングセットの一部分を学習に利用せず、バリデーションセットとして利用する場合もあります。


・テストセット

テストセットは、トレーニングセットを用いて学習したAIの評価を行うデータセットです。実環境を想定する必要があるため、構築するAIの実行環境や目標を定めたうえで、作成する必要があります。

 


2. AI学習用のデータセットを入手する方法


データセットを入手する方法は、「自作する」もしくは「購入する」の2種類です。

1. 自作について

データセットを自作する際は以下の手順で進めます。

① オープンデータの調査、目的に適したものが無ければ自社で収集
② アノテーションツールの選定もしくは自作
③ アノテーションの実施

オープンデータとは、営利目的でも無償で利用できるデータです。これから構築するAIの目的と一致するオープンデータが存在すれば、すぐにAIの開発に移行できます。
以下のサイトでは、オープンデータが多数公開されています。

DATA GO JP
https://www.data.go.jp/

日本統計局
https://www.stat.go.jp/

オープンデータが見つからない場合は、データを自社で収集する必要があります。また、オープンデータは見つかったものの、欲しい正解ラベルがついていない場合は「アノテーション」という作業を行います。アノテーションは人間の手で、データに対して正解ラベルを付ける作業です。アノテーション作業を行う際はツールが必要となるため、githubのようなオープンソースが公開されているサイトを参照するか、自社で作成します。


2. 購入について

データセットを購入する場合は、購入先の企業を選定し、依頼したい作業を決めます。データ収集から行うのか、アノテーションから行うかなど、購入先の企業と相談しながら進めましょう。要件定義から相談できる企業も多く、AIに関する専門的な知識がなくても品質の高いデータセットを作成できます。





3. AIのデータセットを購入するメリット



データセットを購入するメリットは、とくに工数がかかるデータの収集とアノテーションが不要でありながら、高品質で目的に適したデータを得られる点です。

①データの収集が不要

データ収集の際はオープンソースを探す作業から始めますが、商用利用不可なものも多いです。見つからない場合は自社で収集しなければなりませんが、データセットに偏りが発生しやすく、バリエーションが少ないデータセットになってしまうおそれがあります。購入する場合は、収集から依頼できるため、バリエーションが豊富なデータを作ることができます。


②アノテーションが不要

データセットの収集後に行うアノテーション作業では、正解ラベルを付ける際の基準も決める必要があります。例えば、人間の位置を検出するAIを学習させたい場合に、頭からつま先までの四角形を正解とするか、上半身のみの四角形を正解とするかを、目標とするAIの機能から決めなければなりません。また、人同士が重なった場合など、想定できるアノテーションが難しいパターンについての基準も考えておく必要があり、専門的な知識を要します。購入する場合は、目標とするAIに合わせたアノテーションを相談できるため、専門的な知識が無くてもデータセットの作成が可能です。


③高品質で目的に適したデータ

データ収集やアノテーションは膨大な量のデータを扱うため、慣れない人が作業すると、正解ラベルの間違いなどが発生しやすくなります。購入する場合は、作業を専門の方に任せることができるため、偏りが少なく、正解ラベルに誤りの無い高品質なデータを得られるでしょう。データ納品に関しても相談でき、社内で扱いやすい目的に適したデータをもらうことが可能です。


4. データセット購入時の注意点

 



データセットを購入する際は、依頼内容に合わせて相応の料金が発生します。購入前には、以下の調査を綿密に行いましょう。

① オープンデータの調査
② 購入できるデータが目的に適しているかどうか


①オープンデータの調査

当然ですが、目的に適したオープンデータがあれば購入する必要はないため、調査を綿密に行いましょう。日本語サイトだけではなく、海外企業のサイトや論文もできる限り確認してください。論文には使用したデータが記載されており、参考にすることができます。ただし、論文では商用利用ができない学術用のデータセットも多いため、必ず商用利用が可能かどうかを確認してください。メールや電話などでデータセットの公開先に確認するのもよいでしょう。

②購入できるデータが目的に適しているか

購入先の企業が、すべてのデータ収集やアノテーションを行えるとは限りません。企業によっては音声のみ、日本人の画像のみなど、サービスが限定的な場合もあります。人を検出するAIを学習させる際に日本人だけで問題ないかなど、目的と購入先のサービスが合致しているかを確認してください。

また、アノテーションに関して基準を決める際には、目的のAIとの齟齬が起こらないよう注意しましょう。アノテーション作業の手戻りが発生すると、追加料金がかかることがあります。長期間の依頼になる場合は、定期的に成果物の確認を行える環境づくりを心がけてください。



5. まとめ


自作を含めたAIに利用するデータセットの入手方法と、購入時のメリットや注意事項を紹介しました。

データセットを自作する際は

① オープンデータの調査、目的に適したものが無ければ自社で収集
② アノテーションツールの選定もしくは自作
③ アノテーションの実施

という手順で進めますが、各工程で専門の知識や人員が必要となります。

データセットの購入は、自作の手順をすべて任せることができ、目的に適した高品質なデータを得られる点がメリットです。ただし、企業によって購入できるデータが異なるため、目的に合うデータを作成してもらえるかを事前に確認しましょう。