YOLOはまだ死んでいません! YOLOv9がリリースされました:パフォーマンスと速度SOTA〜

YOLOはまだ死んでいません! YOLOv9がリリースされました:パフォーマンスと速度SOTA〜

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

今日のディープラーニング手法は、モデルの予測結果が実際の状況に最も近くなるように、最も適切な目的関数を設計することに重点を置いています。同時に、予測に十分な情報を取得できる適切なアーキテクチャを設計する必要があります。既存の方法では、入力データがレイヤーごとに特徴抽出および空間変換されると、多くの情報が失われるという事実が無視されています。この記事では、ディープ ネットワークを介してデータを転送する際の重要な問題、つまり情報のボトルネックと可逆機能について詳しく説明します。これに基づいて、ディープ ネットワークが複数の目的を達成するために必要なさまざまな変更に対応するために、プログラム可能な勾配情報 (PGI) の概念が提案されています。 PGI は、目的関数を計算するための対象タスクの完全な入力情報を提供し、ネットワークの重みを更新するための信頼性の高い勾配情報を取得します。さらに、勾配パス計画に基づく新しい軽量ネットワーク アーキテクチャである Generalized Efficient Layer Aggregation Network (GELAN) が設計されました。

GELAN のアーキテクチャは、軽量モデルで PGI を使用することで優れた結果を示します。提案された GELAN と PGI は MS COCO データセットで検証され、その結果、GELAN は従来の畳み込み演算子のみを使用した深さ方向の畳み込みに基づく最先端の方法よりも優れたパラメータ利用を実現できることがわかりました。 PGIは軽量モデルから大型モデルまで、さまざまなモデルに使用できます。これを使用すると完全な情報を取得できるため、ゼロからトレーニングされたモデルは、大規模なデータセットを使用して事前にトレーニングされた最先端のモデルよりも優れた結果を達成できます。

論文アドレス: https://arxiv.org/pdf/2402.13616

コードリンク: https://github.com/WongKinYiu/yolov9

優れたパフォーマンス

下の図に示すように、MS COCO データセットでのリアルタイム オブジェクト検出器の比較では、GELAN および PGI ベースのオブジェクト検出方法は、オブジェクト検出パフォーマンスの点で、ゼロからトレーニングされたこれまでのすべての方法を上回っています。精度の点では、この新しい方法は、大規模なデータセットで事前トレーニングされた RT DETR よりも優れており、パラメータの利用の点では、深層畳み込み設計に基づく YOLO MS よりも優れています。

貢献

  1. 既存のディープニューラルネットワークのアーキテクチャを可逆関数の観点から理論的に分析し、これまで説明が困難であった多くの現象を説明することに成功しました。この解析に基づいてPGIと補助可逆分岐も設計され、優れた結果が得られました。
  2. 設計された PGI は、ディープ スーパービジョンが極めてディープなニューラル ネットワーク アーキテクチャにしか使用できないという問題を解決し、新しい軽量アーキテクチャを日常業務に実際に適用できるようにします。
  3. 設計された GELAN は、従来の畳み込みのみを使用して、最先端の技術に基づく深層畳み込み設計よりも高いパラメータ利用率を実現できると同時に、軽量、高速、正確という大きな利点を示します。
  4. 提案された PGI と GELAN を組み合わせると、MS COCO データセットにおける YOLOv9 のオブジェクト検出パフォーマンスは、あらゆる面で既存のリアルタイム オブジェクト検出器を大幅に上回ります。

方法

PGI および関連するネットワーク アーキテクチャと方法

下の図に示すように、YOLOv9 で提案された (a) パス集約ネットワーク (PAN)、(b) 可逆列 (RevCol)、(c) 従来の深層監視、および (d) プログラム可能な勾配情報 (PGI)。

PGI は 3 つの主要コンポーネントで構成されています。

  1. メインブランチ: 推論のためのアーキテクチャ。
  2. 補助可逆ブランチ: メインブランチが後方に転送するための信頼性の高い勾配を生成します。
  3. マルチレベルの補助情報: メイン ブランチを制御して、計画可能なマルチレベルのセマンティック情報を学習します。

GELANアーキテクチャ

下図に示すように、YOLOv9で提案された(a)CSPNet、(b)ELAN、(c)GELAN。これは CSPNet を模倣し、ELAN を GELAN に拡張して、あらゆるコンピューティング ブロックをサポートできるようにします。

結果の比較

既存技術との比較

次の表は、YOLOv9 と、最初からトレーニングされた他のリアルタイム オブジェクト検出器との比較を示しています。全体的に、既存の方法の中で最もパフォーマンスが良い方法は、軽量モデルの場合は YOLO MS-S、中型モデルの場合は YOLO MS、一般モデルの場合は YOLOv7 AF、大型モデルの場合は YOLOv8-X です。軽量モデルと中規模モデルのYOLO MSと比較すると、YOLOv9はパラメータが約10%少なく、計算量が5〜15%少ないですが、それでもAPは0.4〜0.6%向上しています。 YOLOv7 AF と比較すると、YOLOv9-C はパラメータが 42% 少なく、計算量が 21% 少ないですが、AP は同じ (53%) です。 YOLOv8-X と比較すると、YOLOv9-X はパラメータが 15% 少なく、計算が 25% 少なく、AP が 1.7% 大幅に向上しています。上記の比較結果は、YOLOv9 があらゆる面で既存の方法よりも大幅な改善を達成したことを示しています。

最先端のリアルタイム物体検出器との比較

比較対象のすべての方法では、RT DETR、RTMDet、PP-YOLOE など、ImageNet を事前トレーニング済みの重みとして使用します。ゼロからのトレーニングアプローチを使用する YOLOv9 は、明らかに他の方法のパフォーマンスを上回ります。

結果を視覚化する

特徴マップ(可視化結果):   PlainNet、ResNet、CSPNet、GELAN によって異なる深度で出力されるランダムな初期重み。 100 層を超えると、ResNet はターゲット情報を含めるのに十分に難読化されたフィードフォワード出力を生成し始めます。ここで提案されている GELAN は、150 番目の層でもかなり完全な情報を保持でき、200 番目の層でも十分な識別能力を備えています。

GELAN および YOLOv9 (GELAN + PGI) の PAN 特徴マップ (視覚化結果):バイアスウォームアップ 1 ラウンド後。 GELAN は当初、ある程度の分岐がありましたが、PGI の可逆分岐を追加した後、ターゲット オブジェクトに焦点を合わせることができるようになりました。

さまざまなネットワーク アーキテクチャのランダム初期重み出力特徴マップの視覚化結果:   (a) 入力画像、(b) PlainNet、(c) ResNet、(d) CSPNet、(e) 提案された GELAN。図からわかるように、異なるアーキテクチャでは、損失を計算するために目的関数に提供される情報の程度が異なりますが、私たちのアーキテクチャは最も完全な情報を保持し、目的関数を計算するための最も信頼性の高い勾配情報を提供できます。

結論は

この論文では、情報ボトルネック問題と、軽量ニューラル ネットワークには深い監視メカニズムが適していないという問題を解決するために PGI を使用することを提案します。効率的で軽量なニューラル ネットワークである GELAN を設計しました。物体検出に関しては、GELAN はさまざまなコンピューティング モジュールと深度設定で強力かつ安定したパフォーマンスを示します。実際、さまざまな推論デバイスに適したモデルに幅広く拡張できます。上記の 2 つの問題に対処するために、PGI を導入することで、軽量モデルとディープ モデルの両方で精度の大幅な向上を実現できます。 PGIとGELANを組み合わせて設計されたYOLOv9は、強力な競争力を示しています。その優れた設計により、YOLOv8 と比較して、ディープ モデルのパラメータ数が 49%、計算量が 43% 削減され、MS COCO データセットで 0.6% の AP 改善が達成されます。

オリジナルリンク: https://mp.weixin.qq.com/s/nP4JzVwn1S-MeKAzbf97uw

<<: 

>>: 

ブログ    

推薦する

Boyaのディープラーニング製品がHuman Horizo​​nsの自動運転実現に貢献

ヒューマンホライゾンズテクノロジーズ株式会社は、新エネルギー車、インテリジェントネットワーク、共同交...

スマートロボットが顧客サービスに革命を起こす

カスタマー サービスにおけるインテリジェント ボットは顧客データを収集して分析し、消費者の行動や好み...

スーパー暗号解読:自動運転はこうして実現される

[[336217]]多くの新製品と同様に、自動運転に対する人々の態度は、過度の信頼から過少な信頼まで...

...

人工知能が「人工知能」にならないようにするための鍵は、まだ人間の脳にあるかもしれない

ペンシルベニア州立大学の研究チームによると、脳内のアストロサイトと呼ばれる細胞の機能を解明し、それを...

...

ディープラーニングを使用してPythonコードを自動的に補完するこのオープンソースプロジェクトは非常に素晴らしい

コード補完機能は IDE では非常に一般的です。優れたコード自動補完機能により、作業効率が大幅に向上...

「中東のシリコンバレー」として知られるイスラエルはスーパーチップを開発している

「中東のシリコンバレー」と呼ばれるイスラエルはハイテク産業が発達しており、特にチップ産業や半導体技術...

新しいことを学び、古いものを見直す: ナレッジグラフからグラフデータベースへ

人工知能技術といえば、まずディープラーニングや機械学習技術が思い浮かびます。人工知能の応用といえば、...

CUDA と TensorRT モデルの展開の最適化: 重要な考慮事項と実践的な戦略

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

OpenVINOの新バージョンがリリースされ、視覚を超えた音声をサポートし、よりインテリジェントなエッジ開発者の力を高める

本日、インテルとその開発者エコシステム パートナーは、「インテリジェント エッジに焦点を当て、開発者...

Meta が 128 言語をサポートする新しい音声モデルをリリース: Metaverse での言語間コミュニケーションを示唆

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Alibaba の軽量オープンソース Web サーバー Tengine 負荷分散アルゴリズム

序文Alibaba レイヤー 7 トラフィック エントリ アクセス レイヤー (アプリケーション ゲ...