YOLOはまだ死んでいません！ YOLOv9がリリースされました：パフォーマンスと速度SOTA〜

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

今日のディープラーニング手法は、モデルの予測結果が実際の状況に最も近くなるように、最も適切な目的関数を設計することに重点を置いています。同時に、予測に十分な情報を取得できる適切なアーキテクチャを設計する必要があります。既存の方法では、入力データがレイヤーごとに特徴抽出および空間変換されると、多くの情報が失われるという事実が無視されています。この記事では、ディープネットワークを介してデータを転送する際の重要な問題、つまり情報のボトルネックと可逆機能について詳しく説明します。これに基づいて、ディープネットワークが複数の目的を達成するために必要なさまざまな変更に対応するために、プログラム可能な勾配情報 (PGI) の概念が提案されています。 PGI は、目的関数を計算するための対象タスクの完全な入力情報を提供し、ネットワークの重みを更新するための信頼性の高い勾配情報を取得します。さらに、勾配パス計画に基づく新しい軽量ネットワークアーキテクチャである Generalized Efficient Layer Aggregation Network (GELAN) が設計されました。

GELAN のアーキテクチャは、軽量モデルで PGI を使用することで優れた結果を示します。提案された GELAN と PGI は MS COCO データセットで検証され、その結果、GELAN は従来の畳み込み演算子のみを使用した深さ方向の畳み込みに基づく最先端の方法よりも優れたパラメータ利用を実現できることがわかりました。 PGIは軽量モデルから大型モデルまで、さまざまなモデルに使用できます。これを使用すると完全な情報を取得できるため、ゼロからトレーニングされたモデルは、大規模なデータセットを使用して事前にトレーニングされた最先端のモデルよりも優れた結果を達成できます。

論文アドレス: https://arxiv.org/pdf/2402.13616

コードリンク: https://github.com/WongKinYiu/yolov9

優れたパフォーマンス

下の図に示すように、MS COCO データセットでのリアルタイムオブジェクト検出器の比較では、GELAN および PGI ベースのオブジェクト検出方法は、オブジェクト検出パフォーマンスの点で、ゼロからトレーニングされたこれまでのすべての方法を上回っています。精度の点では、この新しい方法は、大規模なデータセットで事前トレーニングされた RT DETR よりも優れており、パラメータの利用の点では、深層畳み込み設計に基づく YOLO MS よりも優れています。

貢献

既存のディープニューラルネットワークのアーキテクチャを可逆関数の観点から理論的に分析し、これまで説明が困難であった多くの現象を説明することに成功しました。この解析に基づいてPGIと補助可逆分岐も設計され、優れた結果が得られました。
設計された PGI は、ディープスーパービジョンが極めてディープなニューラルネットワークアーキテクチャにしか使用できないという問題を解決し、新しい軽量アーキテクチャを日常業務に実際に適用できるようにします。
設計された GELAN は、従来の畳み込みのみを使用して、最先端の技術に基づく深層畳み込み設計よりも高いパラメータ利用率を実現できると同時に、軽量、高速、正確という大きな利点を示します。
提案された PGI と GELAN を組み合わせると、MS COCO データセットにおける YOLOv9 のオブジェクト検出パフォーマンスは、あらゆる面で既存のリアルタイムオブジェクト検出器を大幅に上回ります。

方法

PGI および関連するネットワークアーキテクチャと方法

下の図に示すように、YOLOv9 で提案された (a) パス集約ネットワーク (PAN)、(b) 可逆列 (RevCol)、(c) 従来の深層監視、および (d) プログラム可能な勾配情報 (PGI)。

PGI は 3 つの主要コンポーネントで構成されています。

メインブランチ: 推論のためのアーキテクチャ。
補助可逆ブランチ: メインブランチが後方に転送するための信頼性の高い勾配を生成します。
マルチレベルの補助情報: メインブランチを制御して、計画可能なマルチレベルのセマンティック情報を学習します。

GELANアーキテクチャ

下図に示すように、YOLOv9で提案された(a)CSPNet、(b)ELAN、(c)GELAN。これは CSPNet を模倣し、ELAN を GELAN に拡張して、あらゆるコンピューティングブロックをサポートできるようにします。

結果の比較

既存技術との比較

次の表は、YOLOv9 と、最初からトレーニングされた他のリアルタイムオブジェクト検出器との比較を示しています。全体的に、既存の方法の中で最もパフォーマンスが良い方法は、軽量モデルの場合は YOLO MS-S、中型モデルの場合は YOLO MS、一般モデルの場合は YOLOv7 AF、大型モデルの場合は YOLOv8-X です。軽量モデルと中規模モデルのYOLO MSと比較すると、YOLOv9はパラメータが約10%少なく、計算量が5〜15%少ないですが、それでもAPは0.4〜0.6%向上しています。 YOLOv7 AF と比較すると、YOLOv9-C はパラメータが 42% 少なく、計算量が 21% 少ないですが、AP は同じ (53%) です。 YOLOv8-X と比較すると、YOLOv9-X はパラメータが 15% 少なく、計算が 25% 少なく、AP が 1.7% 大幅に向上しています。上記の比較結果は、YOLOv9 があらゆる面で既存の方法よりも大幅な改善を達成したことを示しています。

最先端のリアルタイム物体検出器との比較

比較対象のすべての方法では、RT DETR、RTMDet、PP-YOLOE など、ImageNet を事前トレーニング済みの重みとして使用します。ゼロからのトレーニングアプローチを使用する YOLOv9 は、明らかに他の方法のパフォーマンスを上回ります。

結果を視覚化する

特徴マップ（可視化結果）: PlainNet、ResNet、CSPNet、GELAN によって異なる深度で出力されるランダムな初期重み。 100 層を超えると、ResNet はターゲット情報を含めるのに十分に難読化されたフィードフォワード出力を生成し始めます。ここで提案されている GELAN は、150 番目の層でもかなり完全な情報を保持でき、200 番目の層でも十分な識別能力を備えています。

GELAN および YOLOv9 (GELAN + PGI) の PAN 特徴マップ (視覚化結果):バイアスウォームアップ 1 ラウンド後。 GELAN は当初、ある程度の分岐がありましたが、PGI の可逆分岐を追加した後、ターゲットオブジェクトに焦点を合わせることができるようになりました。

さまざまなネットワークアーキテクチャのランダム初期重み出力特徴マップの視覚化結果: (a) 入力画像、(b) PlainNet、(c) ResNet、(d) CSPNet、(e) 提案された GELAN。図からわかるように、異なるアーキテクチャでは、損失を計算するために目的関数に提供される情報の程度が異なりますが、私たちのアーキテクチャは最も完全な情報を保持し、目的関数を計算するための最も信頼性の高い勾配情報を提供できます。

結論は

この論文では、情報ボトルネック問題と、軽量ニューラルネットワークには深い監視メカニズムが適していないという問題を解決するために PGI を使用することを提案します。効率的で軽量なニューラルネットワークである GELAN を設計しました。物体検出に関しては、GELAN はさまざまなコンピューティングモジュールと深度設定で強力かつ安定したパフォーマンスを示します。実際、さまざまな推論デバイスに適したモデルに幅広く拡張できます。上記の 2 つの問題に対処するために、PGI を導入することで、軽量モデルとディープモデルの両方で精度の大幅な向上を実現できます。 PGIとGELANを組み合わせて設計されたYOLOv9は、強力な競争力を示しています。その優れた設計により、YOLOv8 と比較して、ディープモデルのパラメータ数が 49%、計算量が 43% 削減され、MS COCO データセットで 0.6% の AP 改善が達成されます。

オリジナルリンク: https://mp.weixin.qq.com/s/nP4JzVwn1S-MeKAzbf97uw

<<:

>>: