5種類の画像注釈の紹介

5種類の画像注釈の紹介

[[341366]]

[51CTO.com クイック翻訳] 画像内のさまざまなグラフィック領域の注釈情報を見つけるように求められたことはありませんか? 人工知能 (AI) と機械学習 (ML) が普及している今日の環境では、さまざまな AI 開発者や研究者は、プロジェクトの目標を達成するために大量の高品質データにアクセスする必要があります。同時に、「データは王様」という概念が人々の心に深く根付いており、「データがなければ、いわゆるデータサイエンスは存在しない」とも言えます。現在、機械学習の主な応用分野の一つは、コンピュータービジョンで大量の画像に注釈を付けて実用的な画像データにする必要性です。

この記事では、画像注釈の概念と種類について、次の観点から説明します。

  • コンピュータービジョンとは何ですか?
  • 画像注釈とは何ですか?
  • 2D バウンディング ボックス
  • 3D 境界ボックス/直方体
  • ポリゴン
  • 線とスプライン
  • セマンティックセグメンテーション

コンピュータービジョンとは何ですか?

AI研究開発の重要な分野であるコンピュータービジョンは、コンピューターが環境や状態を「見て」解釈できるようにすることを目的としています。自動運転車からドローン調査、医療診断、顔認識や識別まで、コンピューター ビジョンは実際のアプリケーションで大きな役割を果たしています。

人間の視覚機能をうまく模倣または上回るためには、コンピューター ビジョンは、対象デバイスの開発および処理中に、画像注釈を実現するための多数のモデルをトレーニングする必要があります。

画像注釈とは何ですか?

画像注釈は、画像にラベルを追加するプロセスです。目標は、画像全体に 1 つのラベルのみを使用することから、画像内のピクセルのグループに複数のラベルを割り当てることまで多岐にわたります。簡単な例としては、さまざまな動物の電子画像を幼児に提供するとき、各画像に正しい動物の名前を記入しておけば、幼児は画像に触れたときにその名前を覚えることができます。もちろん、具体的な注釈方法は、実際のプロジェクトで使用される画像注釈の種類によって異なります。場合によっては、マップ アプリを通じて収集されたグラウンド トゥルース データを、注釈付き画像として対応するコンピューター ビジョン アルゴリズムに取り込むことができます。繰り返しトレーニングを行うことで、モデルはラベル付きのエンティティとラベルなしの画像を区別できるようになります。

最も一般的な画像注釈の種類

上記の例は非常に単純です。自動運転などの分野では、より複雑な画像注釈やコンピューター ビジョン テクノロジが使用されます。では、どの画像注釈タイプが現在のプロジェクトに適しているかは、どうすればわかるのでしょうか。以下では、一般的な 5 つの画像注釈タイプと、それらの関連アプリケーションを紹介します。

1.2D バウンディングボックス

2D 境界ボックス注釈では、人間の注釈者に画像が与えられ、画像内の特定のオブジェクトの周囲にボックスを描画するタスクが与えられます。境界線はオブジェクトの各端にできるだけ近づける必要があります。この作業は、さまざまな企業のカスタム プラットフォーム上で実行されることがよくあります。プロジェクトに固有の要件がある場合、サービス会社は既存のプラットフォームを適応させてそれらのニーズを満たすことができます。

バウンディング ボックスの典型的な用途は、自動車の自動運転の開発です。注釈者は、キャプチャされた交通画像内の車両、歩行者、自転車などのエンティティを識別し、それらの周囲に境界ボックスを描画する必要があります。そのため、開発者は、境界ボックスで注釈が付けられた画像を機械学習モデルに提供し、自律走行車がさまざまなエンティティを区別し、リアルタイムで接触を回避できるようにします。

2.3D 直方体

境界ボックスと同様に、3D 直方体注釈はステレオ画像内のオブジェクトを識別し、その周囲に境界ボックスを描画します。長さと幅のみを表す 2D 境界ボックスとは異なり、3D 直方体はオブジェクトの長さ、幅、およびおおよその深さを注釈します。

3D 直方体注釈を使用すると、注釈者は対象のオブジェクトを囲むボックスを描画し、オブジェクトの各エッジにアンカー ポイントを配置できます。オブジェクトのエッジが見えない場合、または画像内の別のオブジェクトによって隠されている場合、アノテーターはオブジェクトのサイズと高さ、および画像の角度に基づいてエッジの位置を推定します。

3. ポリゴン

場合によっては、照明や角度などの理由により、画像内のオブジェクトの形、サイズ、または向きが 2D 境界ボックスや 3D 直方体にうまく適合しないことがあります。同時に、開発者は、交通画像内の車や航空画像内のランドマークとなる建物など、画像内のオブジェクトに、より正確に注釈を付けたいと考えています。このような場合、注釈用のポリゴンを選択する必要がある場合があります。

ポリゴンを使用する場合、注釈者は注釈を付けるオブジェクトの外縁の周囲に複数の点を配置​​して線を描きます。このプロセスは、子供の頃に遊んだ「点をつなげて輪郭を描く」練習に少し似ています。これに基づいて、事前に決定されたエンティティ カテゴリ (車、自転車、トラックなど) のセットを使用して、これらの点と線で囲まれた領域内の空間に注釈を付けます。さらに、複数のクラスを割り当てる場合、マルチクラスアノテーションと呼ばれます。

4. 線とスプライン

線とスプラインはさまざまな目的に使用できますが、ここでは主に、車線とその境界を認識できるように運転システムをトレーニングするために使用されます。名前が示すように、タグ付け機能は、確立された機械学習パスに沿って境界線を描画するだけです。道路と歩道をマークすることで、自動運転システムが境界線を理解し、車線を越えたり車線を逸れたりしないように車線内に留まるように訓練することができます。

線とスプラインは、倉庫内のロボットが箱をきれいに積み重ねたり、コンベアベルトにアイテムを正確に置いたりできるようにトレーニングするためにも使用できます。

5. セマンティックセグメンテーション

描画されたオブジェクトの外縁(または境界)に主に焦点を当てた上記の分類とは異なり、セマンティックセグメンテーションはより正確で具体的です。これは、画像全体のすべてのピクセルにラベルを関連付けるプロセスです。セマンティックセグメンテーションを必要とするプロジェクトでは、通常、人間の注釈者に定義済みのラベルのセットを提供して、ラベルを付ける対象を選択できるようにします。

セマンティック セグメンテーションはポリゴン注釈と同様のプラットフォームを使用し、注釈者がラベルを付ける必要があるピクセルのグループの周囲に線を描くことを可能にします。もちろん、これらの操作は AI 支援プラットフォームで完了できます。たとえば、プロセッサは車の輪郭の境界を大まかに描画できますが、エラーを回避するために、セグメンテーション プロセス中に車の下の影の部分を削除する必要があります。

実際のアプリケーションでは、アノテーターが自動運転のトレーニング データを受け取ると、画像内のすべてのコンテンツを道路、建物、自転車、歩行者、障害物、木、歩道、車両に応じて分類およびセグメント化する必要があります。さらに、人間の注釈者は別のツールを使用して、被写体に属さないピクセルを切り取ります。

セマンティックセグメンテーションのもう 1 つの一般的な応用シナリオは、医療用画像処理です。提供された患者の写真に対して、注釈者は解剖学的な観点から、さまざまな体の部位に正しい部位名をラベル付けします。したがって、セマンティックセグメンテーションは、「CTスキャン画像で脳病変をマークする」などのより困難な特殊なタスクを処理するために使用できます。

原題: 5 種類の画像注釈の紹介、著者: Limarc Ambalina

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  Python 機械学習チュートリアル

>>:  顔認識の応用シナリオは拡大し続けています。顔スキャンは便利で安全である必要があります。

ブログ    
ブログ    

推薦する

Baidu Brainは、顔をスキャンしてWeChat Momentsで拡散できるAIベースの春節連句をサポート

大晦日、家族が集まる夜。 1月28日、オンライン春節祝賀会(略称オンライン春節祝賀会)が予定通り開催...

デジタルツインの成功事例4つ

[[419123]] [51CTO.com クイック翻訳]人間は物理的な世界をよりよく理解するために...

企業で文明的な AI を推進するための 6 つのヒント

「文明化された AI」への期待が高まるにつれ、コンサルタントは公平で偏見のないアルゴリズムを作成する...

Alibaba DAMO Academyが2019年のトップ10テクノロジートレンドを発表:AI、ブロックチェーンなど

Alibaba DAMO Academy は、2019 年のトップ 10 テクノロジー トレンド予測...

Microsoft XiaoIceが第7世代にアップグレードされ、ユーザーの権限を強化するアバターフレームワークがリリースされました

[51CTO.comよりオリジナル記事] 8月15日、マイクロソフト(アジア)インターネットエンジニ...

AI を使って AI を修正しますか?これらの検出ツールを理解する

生成型AI作成ロボットの登場以来、各界はロボットを使って記事や学術論文を書くようになりました。この状...

生成AIにおける新たな高収入の仕事

クラウドプロバイダーのサービスの需要は2024年まで増加すると予測しています。また、 AI生成技術と...

IDCは、年平均成長率31.4%で、世界のAIソフトウェアの収益は2027年に2,790億ドルに達すると予測している。

11月2日、市場調査会社IDCが発表した最新の予測レポートによると、世界のAIソフトウェア市場規模...

...

Googleはプライバシーポリシーを更新し、インターネット上の公開情報をAIモデルのトレーニングに利用することを許可した。

検索エンジン大手のGoogleは7月4日、プライバシーポリシーを更新し、インターネット上の公開情報を...

スマートホームデバイスにおける自然言語生成の応用

スマートホームデバイスへの自然言語生成 (NLG) の統合により、テクノロジーとのやり取りの方法に革...

...

自動運転における機械学習の核となるのはモデルではなくパイプラインである

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

MySQLインデックスの背後にあるデータ構造とアルゴリズムの原理

序文プログラミングの分野では、「プログラム = データ構造 + アルゴリズム」というよく知られたルー...