セマンティックセグメンテーションとは？種類や手法、画像処理活用事例を解説

セマンティックセグメンテーションは、画像内の各ピクセルをクラスごとに分類する画像認識技術です。画像全体を「道路」「空」「建物」「人」などの意味単位で分けられるため、シーン理解が必要なAIで活用されています。

セマンティック・セグメンテーションとは？

セマンティック・セグメンテーションとは、ピクセル単位でクラスラベルを割り当てる画像認識方法です。画像中の各物体が何なのか、つまりどのクラスに属するか、境界がどこかを詳細に把握することが可能となります。

例えば、画像内の自動車、樹木、道路標示、地形、影などをピクセルレベルで認識し分割することが可能です。

セマンティック・セグメンテーションの主な用途としては、自動運転、医療、セキュリティ、ロボットビジョンがあります。これらの分野では、精緻な物体認識が重要であり、物体の「種類」、「位置」だけでなく、「形状」や「範囲」まで詳細に理解することが求められます。

一方で、セマンティック・セグメンテーションでは個別の物体の区別はしません。特に、同じクラスの物体が画像内に複数存在し、それらが重なり合っている場合、各物体を個別に識別できません。

例えば、複数の人間が集まっている群集の画像において、各人間を個別に識別することはセマンティック・セグメンテーションでは困難です。このような問題を解決するためには、インスタンス・セグメンテーションが用いられます。

セグメンテーションとアノテーションの関係

高精度なセグメンテーションを行うためには、正確なアノテーションが欠かせません。セグメンテーションを行うためには、各ピクセルが何を表しているのか（例えば「犬」、「猫」、「背景」など）を事前にアノテーション作業で教える必要があります。

画像ごとにピクセルレベルでのアノテーションを行うのは大変な作業で、時間とコストがかかります。さらに、難解な形状の物体や微妙な色彩の違いなど、細かい部分で正確さが求められる場合も多いです。

そのため、アノテーションは難易度の高い技術であり、専門の知識や経験が必要です。アノテーションはセグメンテーションにおいて重要な工程であり、その精度が結果に直結します。プロジェクトによっては、専門のアノテーション会社に依頼することもあります。

セマンティック・セグメンテーション以外のセグメンテーション手法

セグメンテーションには、セマンティック・セグメンテーション以外にも2つの手法があります。

インスタンス・セグメンテーション
パノプティック・セグメンテーション

これらの手法はそれぞれ異なる目的や要求に応じて適用され、その適切な選択と使用が、高品質な画像認識システムを構築する鍵となります。ここでは、それぞれの手法の特徴を解説します。

①インスタンス・セグメンテーション

インスタンス・セグメンテーションは、物体を個別に認識できるセグメンテーション方法です。セマンティック・セグメンテーションが同一クラスの物体を一つとして扱うのに対し、インスタンス・セグメンテーションでは同一クラスでもそれぞれの物体を別々に識別します。

例えば、運転支援システムでは、道路上の車を個々に認識するためにインスタンス・セグメンテーションが使用されます。画像内にあるすべての車を「車」クラスで認識するだけでなく、インスタンス・セグメンテーションによってそれぞれの車が異なる要素として識別されます。これにより、それぞれの車の位置、方向、速度などを追跡することが可能になります。

インスタンス・セグメンテーションは特に物体が重なっている場合や、特定の物体の数を数えたい場合に有用です。

②パノプティック・セグメンテーション

パノプティック・セグメンテーションは、全てのピクセルに対してラベル付けを行いつつ、同一物体の個体も識別するセグメンテーション方法です。セマンティック・セグメンテーションとインスタンス・セグメンテーションを合わせたような特徴を持っています。

例えば、自動運転車の視覚システムでは、インスタンス・セグメンテーション的な手法で路上の物体（車、歩行者、自転車など）を個々に認識しなければなりません。同時に、セマンティック・セグメンテーション的な手法で道路、歩道、樹木などの背景要素をクラスごとにラベル付けする必要があります。これら両方のタスクを一度に達成できるのがパノプティック・セグメンテーションです。

セマンティック・セグメンテーションやインスタンス・セグメンテーションに比べて高度な画像認識が行えるため、自動運転や医療など、高い技術が求められる際に有効です。

セマンティック・セグメンテーションの手法と仕組み

セマンティック・セグメンテーションには、数多くの手法が用いられています。以下が、主な手法です。

FCN（全層畳み込みネットワーク）
SegNet
FPN（特徴ピラミッドネットワーク）
R-CNN（領域ベースの畳み込みニューラルネットワーク）
CNN（畳み込みニューラルネットワーク）

特にセマンティック・セグメンテーションに関連するものはFCNとSegNetです。一方、R-CNN系の手法やFPNは、インスタンス・セグメンテーションや物体検出タスクに一般的に使用されます。ここでは、これらの手法とその仕組みを簡単に解説します。

①FCN（全層畳み込みネットワーク）

FCNは、画像の特徴を抽出する「畳み込み層」のみでセグメンテーションを行う画像認識手法です。FCNには「全結合層」が不要で、すべてを「畳み込み層」のみで構成されている特徴があります。

画像全体に対して一度の処理でセマンティック・セグメンテーションを行える点が重要な特徴であり、ピクセル単位でのラベリングを可能にしました。

全結合層では、画像の2次元データを1次元に並べ替えて結果を出力します。しかし、FCNは全結合層を用いないため、位置情報を損なうことなく結果の出力が可能です。これらの特徴からFCNは、セマンティック・セグメンテーションに適合したCNNと言えるでしょう。

②SegNet

SegNetはFCNをさらに発展させたモデルで、エンコーダーとデコーダーの構造を持った画像認識方法です。エンコーダー部分では「畳み込み層」によって画像の特徴を抽出し、デコーダー部分では抽出した特徴の位置情報を保持したまま、データを元のサイズへ戻します。

エンコーダー・デコーダー型には、デコーダー部分により高解像度な画像を再現できるメリットがあります。しかし、ピクセル単位の情報は失われるため、精度は多少落ちてしまうのがデメリットです。

③FPN（特徴ピラミッドネットワーク）

FPNは、異なる倍率で物体を予測するピラミッド構造を特徴とする画像認識方法です。従来から、画像内の物体の大小に対応するためにスケール（倍率）を変更して予測する手法が使用されていました。しかし、重い計算コストが大きな欠点でした。

しかし、FPNでは、ピラミッドのトップダウンの過程でスキップ接続を採用しています。このようにして、FPNは計算量の少ないピラミッド構造を実現しています。

④R-CNN（領域ベースの畳み込みニューラルネットワーク）

R-CNNは、対象物体がある位置をあらかじめ予測してから畳み込みを行うことで、計算をできるだけ少なくした画像認識方法です。特徴がありそうな部分をバウンディングボックスで囲み、その範囲内の解析を行います。

R-CNNには多くの派生形があり、代表的なものにはFaster R-CNNやMask R-CNNなどがあります。

⑤CNN（畳み込みニューラルネットワーク）

物体の識別に特化したCNNは、画像処理全般にわたって頻繁に用いられる手法です。ただし、セグメンテーションで用いられることは基本的にありません。

CNNでは、まず「畳み込み層」で画像の特徴を抽出します。次に、その画像データを「プーリング層」で小さくして特徴マップを作り出します。最後に、データ統合を行う「全結合層」で再帰的に処理（繰り返し処理）することにより、最終的な出力結果を得られます。

セマンティックセグメンテーションの活用事例

セマンティックセグメンテーションは、ITや医療など、多くの業界で活用されています。特に、精緻な物体認識が重要となり、物体の「種類」「位置」だけでなく「形状」や「範囲」まで詳細に理解しなければならない分野で活用されています。

ここでは、以下の3つの活用事例をご紹介します。

コンクリート表面のひび割れや型枠跡などの検出
自動運転システムでの対象物予測
医療分野における臓器領域の自動抽出

①コンクリート表面のひび割れや型枠跡などの検出

セマンティック・セグメンテーションにより、コンクリート表面のひび割れや型枠の跡を区別して検出できるシステムが開発されています。従来は点検作業員がひび割れを目視で確認しスケッチする方法が用いられていました。しかし、コンクリート構造物の数は膨大で、手作業による点検ではとても対応できません。

加えて、近い将来、高度経済成長期に建てられたトンネルやコンクリート建造物の老朽化が進み、一斉に更新しなければならない時期に入ると予測されています。しかし、少子高齢化による生産力低下や、熟練技術者の退職により、メンテナンス分野で専門技術者の不足が懸念されています。

そこで、機械学習によりコンクリートの画像解析を行い、素早く異常を検知するシステム開発が行われてきました。特に、セマンティック・セグメンテーションにより、ひび割れと混同されやすいPコン跡（締め付け金具によるへこみ）や型枠跡を正確に判別する技術が進んでいます。

同様にセマンティック・セグメンテーションを用いて鉄筋の露出やコンクリートの剥離の検出にも適用する研究が進められています。

②自動運転システムでの対象物予測

自動運転の性能を効率よく向上させるため、昼に撮影した画像データを夜に撮影したデータに変換する技術が開発されています。その過程でセマンティック・セグメンテーションを利用することにより、従来よりも高精度で夜間画像を生成できるようになりました。

これまでは、CycleGANという画像変換技術を用いて夜間画像が作成されていましたが、テールランプが点灯していなかったり、空中に信号機のライトが現れたりと、精度が良いとは言えませんでした。

そこで、ピクセル単位で予測を行うセマンティック・セグメンテーションを活用することにより、画像内の物体をより正確にラベル付けできるようになりました。これにより、画像内の物体が光るものなのか、夜間でも状態が変わらないものなのかを正確に判断できるようになり、夜間画像を精度よく生成できるようになったとのことです。

③医療分野における臓器領域の自動抽出

医療分野の画像解析では、セグメンテーションが活用されています。CT画像から臓器領域を自動抽出したり、他の手法と組み合わせることで血管へのラベル付けができるようになったりしています。

ここで用いられているCNNは、畳み込み層の後に「逆畳み込み層」を実装することで、出力結果を画像として表すことが可能です。そのため、画像上にラベル付けすることができます。

このようにセマンティック・セグメンテーションは、ピクセル単位でラベル付けするので、正確性が求められる医療分野でも活用され始めています。

セマンティックセグメンテーションに関するよくある質問

セグメンテーションと物体検出の違いは何ですか？

物体検出とセグメンテーションは共に画像分析の重要な部分ですが、それぞれ異なる目的と手法を持っています。

物体検出は特定の物体のみを検出し、その位置とカテゴリーを特定します。具体的には、物体の存在を示す矩形のバウンディングボックスと、その物体のクラス（例えば犬、猫、自動車など）を出力します。

一方、セグメンテーションは画像上のすべてのピクセルを特定のクラスに分類します。つまり、セマンティック・セグメンテーションは画像全体にわたる物体の精確な形状と位置を理解するのに役立ちます。

インスタンス・セグメンテーションは、これら二つの手法の一部を組み合わせ、各個別の物体インスタンスを特定し、その形状と位置を理解します。

セマンティックセグメンテーションの欠点は何ですか？

セマンティック・セグメンテーションは画像解析における強力な手法である一方で、物体が重なっている場合にそれぞれの物体を個別に識別できない欠点があります。例えば、人々が群集を形成している画像では個々の人々を区別できず、一つの「人間」の領域としてのみ認識します。

また、セマンティック・セグメンテーションは、各ピクセルに対する正確なラベル付けが必要となるため、アノテーションに大量の時間と労力が必要となります。精度高く予測できるメリットはありますが、初期投資は大きくなる傾向にあります。

まとめ｜セマンティック・セグメンテーションはピクセルレベルでラベル付け

セマンティック・セグメンテーションには様々な手法があり、活用方法も変わってきます。

深く理解するには難易度の高い技術ですが、導入して成果を得られれば、他社より一歩進んだシステムを一早く手に入れられます。

それぞれの手法には独自の特性を持つため、使用する場面や目的によって最適な手法が異なります。活用目的に応じた最適な手法を設定できなければ、AIシステムの精度を左右するアノテーションの工数や費用も大きく変わってきます。

画像解析分野で広く用いられる重要な手法であるからこそ、セマンティック・セグメンテーションの利点と欠点を理解することで、より効率的に利用することが可能です。

ネクストリーマーでは、セグメンテーション向けの教師データ作成を支援しています。詳しくはアノテーション統合ソリューションをご覧ください。

セマンティックセグメンテーションとは？種類や手法、画像処理活用事例を解説