2023/12/20

画像認識とは？種類・仕組み・AI開発の流れ・事例・問題点を解説！

ほんの10年前までは、バーコードや綺麗な文字しか読み取ることができなかったコンピューターによる画像認識。しかし、AI、そのなかでも深層学習（ディープラーニング）の活用により精度が大きく向上し、今では目視よりも詳細な認識ができるまでになっています。

しかし、画像認識の概要や、どのような場面で活用できるのかをはっきりとつかめていない方も多いのではないでしょうか。本記事では、画像認識の仕組みやAIによる画像認識の代表的な種類、実際に活用されている最新の事例を紹介します。

記事後半では、システム開発のやり方や注意点まで解説しておりますので、どのような手順を踏めば利用し始められるのかまでお分かりいただけます。

ネクストリーマーは、高精度な画像認識を実現するアノテーションサービスを提供しています。
アノテーションやデータ収集の外注を少しでもお考えの方は、無料で相談可能ですので、いつでもご相談ください。

お問い合わせ（無料相談受付中）

【目次】

画像認識とは？
画像認識の種類
画像認識の活用例
画像認識モデルを構築する方法
画像認識の問題点
まとめ

1. 画像認識とは？

画像認識（画像判定）とは、画像に写る対象物が何であるかを認識する機械技術です。近年の技術発達により、モノや動物の種類を見分けられるだけでなく、「この人は喜んでいるAさん」というように、同種間の区別もできるようになっています。

画像認識は100年以上前からある技術で、10年ほど前までは主にバーコードやOCR（文字の読み取り）などで利用されていました。しかし、コンピューターには人間のような物の見た目に関する学習記憶が存在しないため、何が写っているか判断することは難しい作業でした。

しかし、AIを活用することで、人や物の特徴を学習できるようになり、画像に写っている人や物の識別を行えるようになっています。特に、2012年に深層学習（ディープラーニング）が画像認識に利用されてから精度が大きく向上し、高度な認識が可能になりました。

お問い合わせ（無料相談受付中）

2. 画像認識の種類

画像の認識の仕方によって、画像認識は一般的に主なものとしては以下の6つに分けることができます。

① 画像分類（画像全体の種類や状況を識別）
② 物体検出（画像内の一部を認識）
③ 異常検知（画像内の異常を検知）
④ 画像キャプション生成（画像の状態を説明）
⑤ セグメンテーション（ピクセル単位で識別）
⑥ 顔認証（個人の特徴を識別）

それぞれについて解説します。

① 画像分類（画像全体の種類や状況を識別）

分類は、画像全体がどのような状況にあるのかを判断します。画像認識分類では、画像内の一部を認識するのではなく、画像全体の状況を分類します。そのためシーン認識と呼ばれることもあり、画像内の物体を認識する画像認識とは別にカテゴライズされることもあります。

たとえば、空が暗く、歩行者のほとんどが傘をさしている画像があるとしましょう。その画像を天気で分類すれば、「雨が降っている」ということが容易にわかります。

② 物体検出（画像内の一部を認識）

物体検出は、画像内の特定の物体を認識し、その位置を特定するタスクです。物体検出では、物体の種類だけでなく、その物体が画像内のどこに存在するのかという情報も提供します。もし画像内に複数の認識対象が存在すれば、それら全てを同時に検出することが可能です。

たとえば、都市の風景写真を物体検出の対象とした場合、人々、車、樹木などの様々な要素を同時に検出し、それぞれの物体が画像の中のどの位置に存在するのかを特定します。これにより、画像が持つ情報をより具体的かつ詳細に把握することが可能となります。

③ 異常検知（画像内の異常を検知）

異常検知は、画像内の通常とは異なる、つまり「異常」な状況を検知する技術です。この技術は通常の状態を学習し、それから逸脱した動きや状況が発生した場合に、その異常を捉える能力を持ちます。

予め設定された異常状況が起こったときや、学習データには存在しないような状況が発生したときに、それを異常と判断します。

防犯や安全管理の分野でよく利用されるこの技術は、特定のシナリオを効果的に捉える能力があります。たとえば、不審者が金庫に接近し、それを破壊しようとしているといった状況を異常と判断し、適切な警報を発することができます。そのため、異常検知は防犯カメラや監視システムと組み合わせて使用されることが多いです。

④ 画像キャプション生成（画像の状態を説明）

画像キャプション生成は、AIが画像の内容を認識し、それを人間が理解できる言葉、つまりキャプション（テキスト）に変換する技術です。画像キャプション生成は、画像の特徴を捉えるための画像認識技術と、その特徴を自然言語で表現するための自然言語処理（NLP）技術の融合によって実現されています。

画像キャプション生成の用途は幅広く、視覚障害者へのアクセシビリティ向上の一環として、画像や動画の内容を説明するツールとして活用されたり、インターネット上の大量の画像にテキストラベルを付けるための手段として開発が進められています。これにより、検索エンジンが画像の内容を理解し、それに基づいた検索結果をユーザーに提供することが可能になります。

⑤ セグメンテーション（ピクセル単位で識別）

画像セグメンテーションは、画像の各ピクセルを個別に識別し、それぞれが何を表すかを判定する技術です。これにより、画像内のすべての物体が詳細に認識されます。

セグメンテーションでは、物体の種類を識別する分類だけでなく、その具体的な形状や位置も判定できます。この精密さから、自動運転や医療画像解析など、高度な精度が要求される分野で活用されています。

なお、セマンティックセグメンテーションとは？種類や手法、画像処理活用事例を解説！では、セグメンテーションの種類や仕組み、活用事例などについて詳しく解説しています。あわせてお読みいただくことで本記事の理解をさらに深められるでしょう。

⑥ 顔認証（個人の特徴を識別）

顔認証は、個々の人の顔の特徴を識別し、その人が誰であるかを判定する技術です。スマートフォンのロック解除やビルの入退室管理など、様々な場面で用いられています。

顔認証では、目、口、鼻、耳などの位置関係や各パーツの大きさ、形状などを分析し、それぞれの人の独特な特徴を抽出して識別します。

3. 画像認識の活用例

ここでは、画像認識が実際に用いられている例を紹介します。

① 手書き文字をAIで認識し帳票登録時間を自動化（みずほ銀行）
② 作業員の安全装備のつけ忘れをAIが検知（日立）
③ 検温時の顔認識で客層を把握（和音珈琲）

① 手書き文字をAIで認識し帳票登録を自動化（みずほ銀行）

みずほ銀行は、手書き文字を画像として抽出し、AIのOCR（文字認識）技術を用いて文字情報として読み取ることで帳票登録の8割を自動化することに成功しました。

みずほ銀行は、機械での読み取りが困難な「手書き」かつ「非定型」の帳票を用いていたため、人手を用いて入力作業を行っていました。そこで、AI技術を用いたOCRを導入することで、手書き文字を画像抽出して認識し、各データが何を表しているかを正確に認識できるようになりました。

その結果、帳票入力作業の8割を自動化できるようになりました。また、帳票登録にかかる時間は10分の1に、コストは半分程度に削減できると期待されています。

② 作業員の安全装備つけ忘れをAIが検知（日立）

日立は、長年自社で培った画像認識技術を用いて、自動で作業員の安全装置チェックを行うシステムを開発し、事故防止に役立てています。

従来は、管理者が目視で作業員の安全装備チェックを行う点検のやり方しかありませんでした。しかし、この方法では、工場内全ての作業員を常時監視するのは現実的ではありません。そこで、映像データから安全装備を正しく着用しているかを判断するシステムを導入することにより、点検の自動化が可能になりました。

このシステムでは、作業場のエントランスなどに設置したカメラ映像から、AIが作業員の安全装備をチェックして異常状態がないか画像判定します。ヘルメットの顎ひもが外れていないかや、ズボンのすそを長靴に入れているか、といった細かい確認も可能です。このように、目視でも見落としてしまうような危険も、AIでは高精度で発見できます。

③ 検温時の顔認識で客層を把握（和音珈琲）

栃木県でお土産の販売を行う和音は、検温機能付きの顔認証AIを用いて客層を分析し、マーケティングや商品配置などに役立てています。

これまでは、長年の勘と経験から、来店者の大半は女性という前提に基づいて商品の仕入れや配置を行っていました。しかし、AIによる客層分析によって、男性の来店頻度が半分を占めることが分かりました。同店ではこのデータを活かして、今後の仕入れ商品を決めているそうです。

このように工夫次第では、検温で安全管理を行えるだけでなく、性別や年齢などの幅広い顧客データを収集し、顧客満足度の高い店づくりに役立てることができます。

お問い合わせ（無料相談受付中）

4. 画像認識モデルを構築する方法

① 問題の特定
② 必要なデータの特定
③ 必要な精度の設定
④ 目的に応じた画像データを収集する
⑤ AIに学習させてシステムを構築する
⑥ 必要に応じてメンテナンスする

各手順について解説します。

① 問題の特定

まず何を解決したいのかを特定します。言い換えれば、画像認識を実施する目的を明確にするステップです。

例えば、工場での製品不良の自動検出、医療画像からの病状診断、あるいは自動運転車のための障害物検出など、具体的な問題を明確にします。

目的が明確になることで、次の「どのようなデータを集めれば良いか」と「必要な精度」が出てきます。

② 必要なデータの特定

問題解決のためにはどのようなデータが必要かを特定します。この段階では、利用可能なデータ源を探すとともに、必要なデータを収集するための戦略を立てます。
また、ラベル付けのためのリソースや、専門的な知識が必要な場合はそれらの確保も考えます。

③ 必要な精度の設定

問題解決に必要な最低限の精度を設定します。たとえば、不良品検出の場合、ミスを最小限に抑えつつ、全ての不良品を検出することが目標になります。

この精度は、ビジネス要件や技術的な制約によって変わるため、関係者との詳細な議論が必要です。

もちろん、予算によっては高精度なシステムが開発できない場合もありますが、最低限必要な精度が出せなければ無意味なシステムとなってしまいます。そのような事態にならないよう、ここまでの段階でシステムの「目的」「収集データ」「必要な精度」を明確にしてから、システム開発に移るようにしましょう。

④ 目的に応じた画像データを収集する

考慮するポイント	内容
データのバリエーション	一定の種類や条件の画像データだけを集めると、モデルはそれらの特定の状況に過度に適応してしまい、他の状況に対してはうまく機能しなくなる可能性があります。モデルが広範囲の状況に対応できるよう、異なる角度や照明条件からの画像、様々な背景やコンテキストでの画像を含めた多様なデータを収集します。
データの量	AIモデルの学習には大量のデータが必要です。データが少なすぎると、モデルは学習不足になります。データ収集は時間とコストを要しますが、適切な量のデータを用意することでモデルの性能を向上させることができます。
データのクオリティ	ぼやけた画像や、被写体が不明確な画像は、モデルが適切に学習するのを妨げる可能性があります。
ラベル付け	教師あり学習では、データに正確なラベルを付けることが重要です。誤ったラベルはモデルの学習を阻害し、性能を低下させる可能性があります。

上記の観点から、適切なデータ収集と整理は非常に重要です。これには専門的な知識が必要であるため、データアナリストやAIエンジニアの専門家の意見を求めることが推奨されます。

⑤ AIに学習させてシステムを構築する

データが集めれば、それらをAIに学習させてシステムを構築します。具体的には、以下のより詳細なステップに細分化されます。

モデルの選択と学習

画像認識タスクに最適なモデル（例：畳み込みニューラルネットワーク）を選択し、収集したデータを使用して学習します。このプロセスは時間と計算リソースを大量に消費する可能性があります。

性能評価とチューニング

初期モデルの学習が完了したら、その性能を評価します。モデルが期待した通りの結果を出さない場合、パラメータの調整やモデルのアーキテクチャの修正を行います。

繰り返しの改良

AIモデルの開発は反復的なプロセスです。モデルの性能を改善するためには、データの追加収集や新たな特徴の導入、別のモデルの試用などが必要になるかもしれません。

一度で完璧なシステムが完成するとは限りません。システムの精度を確認しながら、必要に応じてデータを足したり抜いたりして精度を高めていきます。

⑥ 必要に応じてメンテナンスする

データの調整で必要な精度まで到達すれば、画像認識システムとして利用し始められます。

利用開始後もシステムの性能を定期的に監視し、予期しない振る舞いや精度の低下を早期に捉えます。また、新たなデータや改善策が得られた場合、新たなデータでの再学習や、新しい技術を導入してシステムを更新します。

AIシステムは定期的なメンテナンスが必要です。精度が保たれているかや、システムに異常がないかのモニタリングを行い、システムの効果を最大限に保てるようにしましょう。

お問い合わせ（無料相談受付中）

5. 画像認識の問題点

画像認識は正しく利用すれば事業に大きなメリットをもたらしますが、以下の点に注意しなければ損害を受けてしまうこともあります。

① プライバシーを侵害しないよう注意する必要がある
② モデル構築後に精度が落ちる可能性がある
③ 質の良いデータを大量に集めなければならない

それぞれの手法について説明します。

① プライバシーを侵害しないよう注意する必要がある

データ収集で得られた情報には、顔や車のナンバーなど、プライバシーに関する情報が含まれていることがあります。仮にセキュリティが破られて情報が漏洩してしまうと、個人のプライバシーを侵害してしまうことに繋がります。

プライバシー情報が含まれる可能性のあるデータを扱う際には、個人を特定できる情報を削除するか、特定できないように変更します。これには、顔情報や車のナンバープレートなどをぼかすなどの匿名化や擬似匿名化技術が使用されます。

また、内製する場合は自社ネットワークのセキュリティが整っているかを、外注する場合は外注先のセキュリティが整っているかを確認してください。

② モデル構築後に精度が落ちる可能性がある

AIモデルの精度は、システム構築後に低下することがあります。精度の低下は、外部環境の変化や、新たな学習（再学習）によるデータバランスの崩れなどが起こった場合に起こります。

しかし実際、これらの要因はある程度避けようがありません。ですから、モデルの性能を定期的に評価し、精度が低下した場合には対策を講じましょう。そして、新たに収集したデータや変化した環境に合わせて、定期的にモデルを再学習する工数を計画しましょう。

③ 質の良いデータを大量に集めなければならない

AIシステムは、土台となるデータの質と量を確保できなければ精度が落ちてしまいます。また、画像一つ一つの質が高くても、データのバランスが悪ければ、未知のデータに対して予測精度の低い（汎化性能が低い）システムとなってしまいます。

高品質なデータを大量に集めることは、時間と費用を必要とします。予算と目標精度のバランスを取りながら、同じデータを色々な方法で変換することで、データ量を増やすデータ拡張手法を検討できるかもしれません。また、大量のデータを用いて予め学習された事前学習済みモデルを活用できるか検討するといいでしょう。

これらの検討や調整を行うには、データに関する高い知見やノウハウが必要です。もし社内に専門家がいなければ、データ収集は専門会社に依頼するようにした方が良いでしょう。

6. まとめ

本記事では、画像認識の種類や活用例、導入の手法などを解説しました。画像認識には多くの手法があり、目的に応じて使い分けられるため、業界を問わず様々な用途に利用されています。

画像認識の歴史は古いですが、深層学習を利用して高度な認識ができるようになったのは最近です。ここで競合に後れを取らないためにも、ご自身の会社で活用できそうな方法がないか、専門会社に相談してみてはいかがでしょうか。

お問い合わせ（無料相談受付中）