5種類の画像注釈の紹介

[[341366]]

[51CTO.com クイック翻訳] 画像内のさまざまなグラフィック領域の注釈情報を見つけるように求められたことはありませんか? 人工知能 (AI) と機械学習 (ML) が普及している今日の環境では、さまざまな AI 開発者や研究者は、プロジェクトの目標を達成するために大量の高品質データにアクセスする必要があります。同時に、「データは王様」という概念が人々の心に深く根付いており、「データがなければ、いわゆるデータサイエンスは存在しない」とも言えます。現在、機械学習の主な応用分野の一つは、コンピュータービジョンで大量の画像に注釈を付けて実用的な画像データにする必要性です。

この記事では、画像注釈の概念と種類について、次の観点から説明します。

コンピュータービジョンとは何ですか?
画像注釈とは何ですか?
2D バウンディングボックス
3D 境界ボックス/直方体
ポリゴン
線とスプライン
セマンティックセグメンテーション

コンピュータービジョンとは何ですか?

AI研究開発の重要な分野であるコンピュータービジョンは、コンピューターが環境や状態を「見て」解釈できるようにすることを目的としています。自動運転車からドローン調査、医療診断、顔認識や識別まで、コンピュータービジョンは実際のアプリケーションで大きな役割を果たしています。

人間の視覚機能をうまく模倣または上回るためには、コンピュータービジョンは、対象デバイスの開発および処理中に、画像注釈を実現するための多数のモデルをトレーニングする必要があります。

画像注釈とは何ですか?

画像注釈は、画像にラベルを追加するプロセスです。目標は、画像全体に 1 つのラベルのみを使用することから、画像内のピクセルのグループに複数のラベルを割り当てることまで多岐にわたります。簡単な例としては、さまざまな動物の電子画像を幼児に提供するとき、各画像に正しい動物の名前を記入しておけば、幼児は画像に触れたときにその名前を覚えることができます。もちろん、具体的な注釈方法は、実際のプロジェクトで使用される画像注釈の種類によって異なります。場合によっては、マップアプリを通じて収集されたグラウンドトゥルースデータを、注釈付き画像として対応するコンピュータービジョンアルゴリズムに取り込むことができます。繰り返しトレーニングを行うことで、モデルはラベル付きのエンティティとラベルなしの画像を区別できるようになります。

最も一般的な画像注釈の種類

上記の例は非常に単純です。自動運転などの分野では、より複雑な画像注釈やコンピュータービジョンテクノロジが使用されます。では、どの画像注釈タイプが現在のプロジェクトに適しているかは、どうすればわかるのでしょうか。以下では、一般的な 5 つの画像注釈タイプと、それらの関連アプリケーションを紹介します。

1.2D バウンディングボックス

2D 境界ボックス注釈では、人間の注釈者に画像が与えられ、画像内の特定のオブジェクトの周囲にボックスを描画するタスクが与えられます。境界線はオブジェクトの各端にできるだけ近づける必要があります。この作業は、さまざまな企業のカスタムプラットフォーム上で実行されることがよくあります。プロジェクトに固有の要件がある場合、サービス会社は既存のプラットフォームを適応させてそれらのニーズを満たすことができます。

バウンディングボックスの典型的な用途は、自動車の自動運転の開発です。注釈者は、キャプチャされた交通画像内の車両、歩行者、自転車などのエンティティを識別し、それらの周囲に境界ボックスを描画する必要があります。そのため、開発者は、境界ボックスで注釈が付けられた画像を機械学習モデルに提供し、自律走行車がさまざまなエンティティを区別し、リアルタイムで接触を回避できるようにします。

2.3D 直方体

境界ボックスと同様に、3D 直方体注釈はステレオ画像内のオブジェクトを識別し、その周囲に境界ボックスを描画します。長さと幅のみを表す 2D 境界ボックスとは異なり、3D 直方体はオブジェクトの長さ、幅、およびおおよその深さを注釈します。

3D 直方体注釈を使用すると、注釈者は対象のオブジェクトを囲むボックスを描画し、オブジェクトの各エッジにアンカーポイントを配置できます。オブジェクトのエッジが見えない場合、または画像内の別のオブジェクトによって隠されている場合、アノテーターはオブジェクトのサイズと高さ、および画像の角度に基づいてエッジの位置を推定します。

3. ポリゴン

場合によっては、照明や角度などの理由により、画像内のオブジェクトの形、サイズ、または向きが 2D 境界ボックスや 3D 直方体にうまく適合しないことがあります。同時に、開発者は、交通画像内の車や航空画像内のランドマークとなる建物など、画像内のオブジェクトに、より正確に注釈を付けたいと考えています。このような場合、注釈用のポリゴンを選択する必要がある場合があります。

ポリゴンを使用する場合、注釈者は注釈を付けるオブジェクトの外縁の周囲に複数の点を配置して線を描きます。このプロセスは、子供の頃に遊んだ「点をつなげて輪郭を描く」練習に少し似ています。これに基づいて、事前に決定されたエンティティカテゴリ (車、自転車、トラックなど) のセットを使用して、これらの点と線で囲まれた領域内の空間に注釈を付けます。さらに、複数のクラスを割り当てる場合、マルチクラスアノテーションと呼ばれます。

4. 線とスプライン

線とスプラインはさまざまな目的に使用できますが、ここでは主に、車線とその境界を認識できるように運転システムをトレーニングするために使用されます。名前が示すように、タグ付け機能は、確立された機械学習パスに沿って境界線を描画するだけです。道路と歩道をマークすることで、自動運転システムが境界線を理解し、車線を越えたり車線を逸れたりしないように車線内に留まるように訓練することができます。

線とスプラインは、倉庫内のロボットが箱をきれいに積み重ねたり、コンベアベルトにアイテムを正確に置いたりできるようにトレーニングするためにも使用できます。

5. セマンティックセグメンテーション

描画されたオブジェクトの外縁（または境界）に主に焦点を当てた上記の分類とは異なり、セマンティックセグメンテーションはより正確で具体的です。これは、画像全体のすべてのピクセルにラベルを関連付けるプロセスです。セマンティックセグメンテーションを必要とするプロジェクトでは、通常、人間の注釈者に定義済みのラベルのセットを提供して、ラベルを付ける対象を選択できるようにします。

セマンティックセグメンテーションはポリゴン注釈と同様のプラットフォームを使用し、注釈者がラベルを付ける必要があるピクセルのグループの周囲に線を描くことを可能にします。もちろん、これらの操作は AI 支援プラットフォームで完了できます。たとえば、プロセッサは車の輪郭の境界を大まかに描画できますが、エラーを回避するために、セグメンテーションプロセス中に車の下の影の部分を削除する必要があります。

実際のアプリケーションでは、アノテーターが自動運転のトレーニングデータを受け取ると、画像内のすべてのコンテンツを道路、建物、自転車、歩行者、障害物、木、歩道、車両に応じて分類およびセグメント化する必要があります。さらに、人間の注釈者は別のツールを使用して、被写体に属さないピクセルを切り取ります。

セマンティックセグメンテーションのもう 1 つの一般的な応用シナリオは、医療用画像処理です。提供された患者の写真に対して、注釈者は解剖学的な観点から、さまざまな体の部位に正しい部位名をラベル付けします。したがって、セマンティックセグメンテーションは、「CTスキャン画像で脳病変をマークする」などのより困難な特殊なタスクを処理するために使用できます。

原題: 5 種類の画像注釈の紹介、著者: Limarc Ambalina

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: Python 機械学習チュートリアル

>>: 顔認識の応用シナリオは拡大し続けています。顔スキャンは便利で安全である必要があります。