AIの構築にあたり、データセットは欠かせない存在です。データセットは、AIが判断するための学習や、学習させた後の精度を評価するために使われ、膨大なデータ量が必要となります。無料のオープンデータも利用できますが、収集する手間を考えると購入するほうが効率良く、精度の高いAIの構築が可能です。
本記事では、自作を含めたAIに利用するデータセットの入手方法と、購入時のメリットや注意事項を紹介します。
AIの構築を行う際に利用されるデータセットは、大きく以下の3種類に分けられます。
|
トレーニングセットは、AIの学習を行う際に利用するデータです。トレーニングセットの品質がAIの精度に直結するため、できる限り品質の高いデータセットを用意しなければなりません。品質の高いデータセットを構築するためには、データのバリエーションを豊かにしつつ、正確な正解ラベルが必要となります。自作するとかなりの工数を要するため、購入を検討する方も多いです。
AIの学習を行う際に手動でパラメータを調整する部分があり、このパラメータの値を評価するデータがバリデーションセットです。トレーニングセットの一部分を学習に利用せず、バリデーションセットとして利用する場合もあります。
テストセットは、トレーニングセットを用いて学習したAIの評価を行うデータセットです。実環境を想定する必要があるため、構築するAIの実行環境や目標を定めたうえで、作成する必要があります。
データセットを入手する方法は、「自作する」もしくは「購入する」の2種類です。
データセットを自作する際は以下の手順で進めます。
① オープンデータの調査、目的に適したものが無ければ自社で収集
② アノテーションツールの選定もしくは自作
③ アノテーションの実施
オープンデータとは、営利目的でも無償で利用できるデータです。これから構築するAIの目的と一致するオープンデータが存在すれば、すぐにAIの開発に移行できます。
以下のサイトでは、オープンデータが多数公開されています。
DATA GO JP
https://www.data.go.jp/
日本統計局
https://www.stat.go.jp/
オープンデータが見つからない場合は、データを自社で収集する必要があります。また、オープンデータは見つかったものの、欲しい正解ラベルがついていない場合は「アノテーション」という作業を行います。アノテーションは人間の手で、データに対して正解ラベルを付ける作業です。アノテーション作業を行う際はツールが必要となるため、githubのようなオープンソースが公開されているサイトを参照するか、自社で作成します。
データセットを購入する場合は、購入先の企業を選定し、依頼したい作業を決めます。データ収集から行うのか、アノテーションから行うかなど、購入先の企業と相談しながら進めましょう。要件定義から相談できる企業も多く、AIに関する専門的な知識がなくても品質の高いデータセットを作成できます。
データセットを購入するメリットは、とくに工数がかかるデータの収集とアノテーションが不要でありながら、高品質で目的に適したデータを得られる点です。
データ収集の際はオープンソースを探す作業から始めますが、商用利用不可なものも多いです。見つからない場合は自社で収集しなければなりませんが、データセットに偏りが発生しやすく、バリエーションが少ないデータセットになってしまうおそれがあります。購入する場合は、収集から依頼できるため、バリエーションが豊富なデータを作ることができます。
データセットの収集後に行うアノテーション作業では、正解ラベルを付ける際の基準も決める必要があります。例えば、人間の位置を検出するAIを学習させたい場合に、頭からつま先までの四角形を正解とするか、上半身のみの四角形を正解とするかを、目標とするAIの機能から決めなければなりません。また、人同士が重なった場合など、想定できるアノテーションが難しいパターンについての基準も考えておく必要があり、専門的な知識を要します。購入する場合は、目標とするAIに合わせたアノテーションを相談できるため、専門的な知識が無くてもデータセットの作成が可能です。
データ収集やアノテーションは膨大な量のデータを扱うため、慣れない人が作業すると、正解ラベルの間違いなどが発生しやすくなります。購入する場合は、作業を専門の方に任せることができるため、偏りが少なく、正解ラベルに誤りの無い高品質なデータを得られるでしょう。データ納品に関しても相談でき、社内で扱いやすい目的に適したデータをもらうことが可能です。
データセットを購入する際は、依頼内容に合わせて相応の料金が発生します。購入前には、以下の調査を綿密に行いましょう。
① オープンデータの調査 ② 購入できるデータが目的に適しているかどうか |
当然ですが、目的に適したオープンデータがあれば購入する必要はないため、調査を綿密に行いましょう。日本語サイトだけではなく、海外企業のサイトや論文もできる限り確認してください。論文には使用したデータが記載されており、参考にすることができます。ただし、論文では商用利用ができない学術用のデータセットも多いため、必ず商用利用が可能かどうかを確認してください。メールや電話などでデータセットの公開先に確認するのもよいでしょう。
購入先の企業が、すべてのデータ収集やアノテーションを行えるとは限りません。企業によっては音声のみ、日本人の画像のみなど、サービスが限定的な場合もあります。人を検出するAIを学習させる際に日本人だけで問題ないかなど、目的と購入先のサービスが合致しているかを確認してください。
また、アノテーションに関して基準を決める際には、目的のAIとの齟齬が起こらないよう注意しましょう。アノテーション作業の手戻りが発生すると、追加料金がかかることがあります。長期間の依頼になる場合は、定期的に成果物の確認を行える環境づくりを心がけてください。
自作を含めたAIに利用するデータセットの入手方法と、購入時のメリットや注意事項を紹介しました。
データセットを自作する際は
① オープンデータの調査、目的に適したものが無ければ自社で収集
② アノテーションツールの選定もしくは自作
③ アノテーションの実施
という手順で進めますが、各工程で専門の知識や人員が必要となります。
データセットの購入は、自作の手順をすべて任せることができ、目的に適した高品質なデータを得られる点がメリットです。ただし、企業によって購入できるデータが異なるため、目的に合うデータを作成してもらえるかを事前に確認しましょう。