コンピュータビジョンプロジェクトのためのオブジェクト検出の初心者向けガイド

コンピュータビジョンプロジェクトのためのオブジェクト検出の初心者向けガイド

[51CTO.com クイック翻訳]近年、人工知能技術の発展と進歩に伴い、コンピュータービジョンとディープラーニングが業界で広く注目を集めています。私たちの功績として、以前は非常に困難であると考えられていた物体検出アプリケーションが、今でははるかに簡単に作成できるようになりました。

オブジェクト検出は、画像やビデオ内のオブジェクトを識別して位置を特定することを目的としたコンピューター ビジョン技術として定義できます。一般的に、コンピュータは人間よりも速く情報を処理できますが、画像やビデオ上のさまざまなオブジェクトを検出することは依然として困難です。これは、コンピューターがほとんどの出力をバイナリ言語でしか解釈できないためです。

この記事では、以下の点について簡単に説明します。

  • 物体検出の基礎
  • 物体検出モデル
  • 物体検出の利点
  • 課題と解決策

これらの点について説明する前に、画像分類とオブジェクト検出の違いを理解することが重要です。初心者は混乱しやすいです。

物体検出と画像分類の違い

まず、物体検出と画像分類を分析して、その違いを理解しましょう。 AI システムは犬の写真を見ると、それが動物の画像であることをすぐに指摘し、その画像が何に関するものかを伝えることができます。画像分類についてはこれですべてです。

物体があれば、画像分類技術を使用することができます。しかし、物体が複数ある場合は、物体検出技術が役立ちます。関心のあるオブジェクトの周囲に長方形のボックスを構築することで、AI システムが各ボックスに含まれるオブジェクトを識別するのに役立ちます。この方法を使用して、オブジェクトの正確な位置を示すこともできます。ただし、画像には複数のオブジェクトが含まれている場合があり、複数の境界ボックスが表示されることがあります。

物体検出の用途は無限ですが、一般的には人間、建物、車などの実際の物体を識別して検出します。さらに、AI システムが将来的にオブジェクトを認識するためには、さまざまな種類のオブジェクトのラベル付きデータが大量に必要になります。つまり、ラベル付けされたデータセットでトレーニングされた機械学習モデルは、より正確な予測を行う可能性が高くなります。

一部の業界ベンダーはデータ注釈サービスを提供しており、ユーザーは要件に基づいて適切なサービスを選択するだけで済みます。この技術は、人物や物体の追跡やビデオ監視カメラなどのアプリケーションで広く使用されており、以下でさらに詳しく説明します。

物体検出モデル

オブジェクト検出とは何かが明確になったので、次に一般的なオブジェクト検出モデルをいくつか見てみましょう。

(1)R-CNN、高速R-CNN、マスクR-CNN

最も人気のあるオブジェクト検出モデルは、領域ベースの CNN モデル ファミリーに属します。このモデルは、これまでの物体検出の方法に革命をもたらします。ここ数年で、精度が増しただけでなく、効率も向上しました。

(2)SSDとYOLO

2016年に発売されたシングルショット検出器シリーズには多くのモデルがあります。シングルショットマルチボックス検出 (SSD) モデルは CNN モデルよりも高速ですが、精度は CNN よりもはるかに低くなります。

YOLO モデルは、領域ベースのアルゴリズムとは大きく異なります。 SDD モデルと同様に、YOLO モデルは R-CNN モデルよりも高速ですが、精度が低いため、若干遅れをとります。モバイルデバイスや組み込みデバイスの場合、SDD モデルが適しています。

(3)センターネット

これらのオブジェクト検出モデルは近年ますます人気が高まっています。 CentreNet は、オブジェクト検出にキーポイントベースのアプローチを採用しています。

SSD モデルや R-CNN モデルと比較して、このモデルはより効率的で正確であることが証明されています。この方法の唯一の欠点は、トレーニング プロセスが遅いことです。

物体検出の現実的なメリット

オブジェクト検出は、画像セグメンテーションや画像認識などの他の同様のコンピューター ビジョン技術と完全に相互に関連しており、ビデオや画像内のシーンを理解して分析するのに役立ちます。現在、物体検出市場には、さまざまな業界分野に大きな影響を与える実際の使用例がいくつかあります。

(1)自動運転車

自動運転車の成功の最大の理由は、リアルタイム物体検出 AI をベースにしたモデルです。これらのシステムにより、人々は周囲の物体の位置を特定し、識別し、追跡して、安全性と効率性を確保することができます。

(2)ビデオ監視

リアルタイムの物体検出と物体の動きの追跡により、ビデオ監視カメラは空港などの特定の場所でのシーン録画を追跡できます。この最先端の技術により、ビデオ内の特定のオブジェクトの複数のインスタンスを正確に識別し、その位置を特定できます。オブジェクトが特定のシーンまたは特定のフレームをリアルタイムで移動すると、ビデオ監視システムはリアルタイム追跡フィードとともに情報を保存します。

(3)群衆カウント

このアプリは、ショッピングモール、空港、市街地の広場、テーマパークなどの人口密集エリアで非常に効果的に機能します。この物体検出アプリケーションは、大企業や自治体が特定の時間枠内で道路交通、違反、車両数を追跡するのに有用であることが証明されています。

(4)異常検出

さまざまな業界で、オブジェクト検出を使用したさまざまな異常検出アプリケーションが利用可能です。たとえば、農業分野では、物体検出モデルによって植物病害の潜在的な事例を正確に特定し、発見することができます。これらの技術の助けにより、農家は情報を得て、作物が病気に脅かされることを防ぐことができるようになります。

別の例として、このモデルは皮膚感染症や症状のある病変を特定するために使用されています。いくつかのアプリケーションでは、スキンケアやニキビ治療にオブジェクト検出モデルを使用しています。

どのようなタイプのオブジェクト検出モデルを作成する場合でも、問題が発生する可能性があることを覚えておくことが重要です。しかし、これらの課題に対処するための解決策は存在します。

物体検出モデリングの課題と解決策

(1)物体の配置

物体検出の最初の課題は、物体の画像と位置を分類することであり、これを物体位置特定と呼びます。この問題に対処するために、ほとんどの開発者は、ローカリゼーション エラーと分類エラーの両方にペナルティを課すマルチタスク損失関数を使用することが多いです。

ソリューション: 領域ベースの畳み込みニューラル ネットワークは、オブジェクトが配置される領域生成スキームと、それに続く CNN モデル処理によってオブジェクトの位置を分類および修正するオブジェクト検出フレームワークのクラスを示します。 Fast-RCNN モデルは、R-CNN の初期結果を改善できます。名前が示すように、FastR-CNN モデルは、位置特定およびオブジェクト分類タスクがマルチタスク損失関数を使用して最適化されるため、驚異的な速度と向上した精度を実現します。

(2)リアルタイム検出速度

高速オブジェクト検出アルゴリズムは、リアルタイムのビデオ処理のニーズを満たすために、主要なターゲットを同時に正確に分類および位置特定するという大きな課題でした。長年にわたり、いくつかのアルゴリズムはテスト時間を 0.02 フレーム/秒から 155 フレーム/秒に改善してきました。

解決策: Faster R-CNN および Fast R-CNN モデルは、元の R-CNN アプローチを高速化することを目的としています。 R-CNN は選択的検索を使用して 2000 個の候補 ROI を生成し、各 CNN ベースのモデルを個別に通過するため、モデルが失敗した後に深刻なボトルネックが発生する可能性があります。 Fast R-CNN モデルは、画像を CNN ベースに一度通してから、選択検索によって作成された ROI を特徴マップに一致させ、処理時間を 20 分の 1 に短縮します。

(3)多様なアスペクト比とサイズ

多くのオブジェクト検出アプリケーションでは、関心対象のアイテムが複数のアスペクト比と異なるサイズで表示される場合があります。研究者らは、検出アルゴリズムがさまざまな視点やサイズのさまざまな物体を認識できるようにするさまざまな方法を実証しました。

解決策: 選択的検索を使用する代わりに、画像の畳み込み特徴マップ上の小さなスライディング ウィンドウを使用して関心領域の候補を生成する、Region Proposal Network を使用して Faster R-CNN を更新します。複数の関心領域を異なる場所で予測し、参照アンカー ボックスを基準にして記述できます。これらのアンカー ボックスのサイズと形状は、さまざまなアスペクト比とさまざまなサイズに対応するように選択されます。これにより、位置特定タスク中に境界ボックスの座標を調整する必要なく、複数の種類のオブジェクトを認識できるようになります。

(4)注釈データの量は限られている

考慮する必要がある否定できない事実の 1 つは、注釈付きデータの量が限られていることです。これは、アプリケーションの構築の障害になります。これらのデータセットには、具体的には数十から数百の実際のオブジェクトの例が含まれており、画像分類データセットには約 100,000 の異なるクラスが含まれています。

解決策: 現在、Microsoft が提供する COCO データセットなど、いくつかのオブジェクト検出注釈データを使用している画像データセットが市場で入手可能です。データセットには、正確な位置ラベルに基づいて 80 種類のオブジェクト カテゴリに分類された 300,000 枚のセグメント化された画像が含まれています。各画像には平均 7 個のオブジェクトとアイテムが含まれており、非常に大きな割合で表示されます。データ不足を軽減するための最も顕著なアプローチの 1 つは、YOLO9000 (YOLO の 2 番目のバージョン) です。 YOLO9000 は YOLO の重要なアップデートの多くに対応していますが、画像分類とオブジェクト検出の間のデータセットのギャップを埋めることも目的としています。さらに、数万のオブジェクト クラスを含む画像分類データセットである ImageNet と COCO で同時にトレーニングされます。 結論

情報源によると、物体検出は、特に上記の問題を解決する上で、画像分類よりもはるかに難しいと考えられています。研究者たちはこれらの障壁を減らすために研究を続けており、時には驚くべき結果が得られていますが、依然として重大な問題が残っています。もちろん、すべてのオブジェクト検出モデルは、特に部分的な遮蔽によって集められた小さなオブジェクトの検出に苦労します。物体の分類と位置特定精度の両方を備えたリアルタイム検出は依然として大きな問題であり、研究者は設計上の決定を行う際にどちらか一方を優先することがよくあります。楽観的な観点から見ると、ビデオ追跡技術は将来、他のアプリケーションシナリオでも進歩する可能性があります。

原題: コンピュータビジョンプロジェクトのためのオブジェクト検出の初心者向けガイド、著者: Analytics Insight

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  Rainbow のトレーニングには 1425 GPU 日が必要ですか? Googleは強化学習がコンピューティングコストを削減できると述べている

>>:  nn.Module クラスに基づく線形回帰モデルの実装

ブログ    
ブログ    

推薦する

バーチャル試着室テクノロジーの仕組み

[51CTO.com クイック翻訳]テクノロジーの進歩と発展により、バーチャル試着室が人々の生活に入...

...

注釈付きビデオの 1 フレームでセグメント機能を学習し、完全な監視パフォーマンスを実現できます。 Huake、時系列行動検出における新たなSOTAを達成

ビデオ内の興味深い部分を見つけるにはどうすればいいですか?時間的アクションローカリゼーション (TA...

マルチモーダル生成AIの深掘り

マルチモーダル生成型人工知能 (GenAI) は、汎用人工知能の実現に向けた次の大きな進歩と言えます...

Claude3 が GPT4 に教訓を与えました!オープンAI最強の対戦相手の深夜爆弾、全貌解析付き!

制作:51CTO テクノロジースタック(WeChat ID:blog)深夜、OpenAI の最大のラ...

固有値分解から共分散行列へ: PCA アルゴリズムの詳細な分析と実装

この記事では、まず固有ベクトルと行列との関係を簡潔かつ明確に紹介し、次にそれを基に共分散行列と主成分...

1000ステップ未満の微調整で、LLaMAコンテキストは32Kに拡張されました。これは、Tian Yuandongチームの最新の研究です。

誰もが独自の大規模モデルをアップグレードして反復し続けるにつれて、コンテキスト ウィンドウを処理する...

DeepMindは、一般のプログラマーに匹敵するAlphaCodeをリリースしました。同日、OpenAIが数学オリンピックで優勝しました。

カールしすぎ!中国が春節を祝っている間、2つの有名なAI研究機関であるDeepMindとOpenAI...

自動運転:「乗っ取り」という言葉を恐れるのをやめよう

編集者注:過去2年間、ロボタクシーの公共運行は中国の多くの場所で開花しました。これらのロボタクシーに...

GPT-4はMITの学位を取得できない、MITの研究チームは「不正行為」と反応したが、ネットユーザーはそれを信じない

数日前、「大規模言語モデルを使用した MIT 数学および EECS カリキュラムの調査」と題された論...

...

ディープラーニングを超える新しいAIプログラミング言語Genについて1つの記事で学びましょう

AI の急速な発展は多くの人々の学習意欲をかき立てていますが、初心者にとっては大量の手動プログラミン...

人工知能が世界を席巻し、人類はサイボーグへと向かう必要がある

テスラのCEOイーロン・マスク氏はドバイでのイベントで人工知能の将来について語った。同氏は、人間より...

政府における人工知能の積極的な役割

近年、政府の間ではAIへの関心が高まっており、さまざまなAIベースのアプリケーションのパイロットプロ...

人事戦略と人材開発の形成における AI の役割

AI の力を活用することで、人事チームは複雑な課題に対処し、効率性を向上させ、前向きな職場環境を育む...