この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 今日のディープラーニング手法は、モデルの予測結果が実際の状況に最も近くなるように、最も適切な目的関数を設計することに重点を置いています。同時に、予測に十分な情報を取得できる適切なアーキテクチャを設計する必要があります。既存の方法では、入力データがレイヤーごとに特徴抽出および空間変換されると、多くの情報が失われるという事実が無視されています。この記事では、ディープ ネットワークを介してデータを転送する際の重要な問題、つまり情報のボトルネックと可逆機能について詳しく説明します。これに基づいて、ディープ ネットワークが複数の目的を達成するために必要なさまざまな変更に対応するために、プログラム可能な勾配情報 (PGI) の概念が提案されています。 PGI は、目的関数を計算するための対象タスクの完全な入力情報を提供し、ネットワークの重みを更新するための信頼性の高い勾配情報を取得します。さらに、勾配パス計画に基づく新しい軽量ネットワーク アーキテクチャである Generalized Efficient Layer Aggregation Network (GELAN) が設計されました。 GELAN のアーキテクチャは、軽量モデルで PGI を使用することで優れた結果を示します。提案された GELAN と PGI は MS COCO データセットで検証され、その結果、GELAN は従来の畳み込み演算子のみを使用した深さ方向の畳み込みに基づく最先端の方法よりも優れたパラメータ利用を実現できることがわかりました。 PGIは軽量モデルから大型モデルまで、さまざまなモデルに使用できます。これを使用すると完全な情報を取得できるため、ゼロからトレーニングされたモデルは、大規模なデータセットを使用して事前にトレーニングされた最先端のモデルよりも優れた結果を達成できます。 論文アドレス: https://arxiv.org/pdf/2402.13616 コードリンク: https://github.com/WongKinYiu/yolov9 優れたパフォーマンス下の図に示すように、MS COCO データセットでのリアルタイム オブジェクト検出器の比較では、GELAN および PGI ベースのオブジェクト検出方法は、オブジェクト検出パフォーマンスの点で、ゼロからトレーニングされたこれまでのすべての方法を上回っています。精度の点では、この新しい方法は、大規模なデータセットで事前トレーニングされた RT DETR よりも優れており、パラメータの利用の点では、深層畳み込み設計に基づく YOLO MS よりも優れています。 貢献
方法PGI および関連するネットワーク アーキテクチャと方法下の図に示すように、YOLOv9 で提案された (a) パス集約ネットワーク (PAN)、(b) 可逆列 (RevCol)、(c) 従来の深層監視、および (d) プログラム可能な勾配情報 (PGI)。 PGI は 3 つの主要コンポーネントで構成されています。
GELANアーキテクチャ下図に示すように、YOLOv9で提案された(a)CSPNet、(b)ELAN、(c)GELAN。これは CSPNet を模倣し、ELAN を GELAN に拡張して、あらゆるコンピューティング ブロックをサポートできるようにします。 結果の比較既存技術との比較次の表は、YOLOv9 と、最初からトレーニングされた他のリアルタイム オブジェクト検出器との比較を示しています。全体的に、既存の方法の中で最もパフォーマンスが良い方法は、軽量モデルの場合は YOLO MS-S、中型モデルの場合は YOLO MS、一般モデルの場合は YOLOv7 AF、大型モデルの場合は YOLOv8-X です。軽量モデルと中規模モデルのYOLO MSと比較すると、YOLOv9はパラメータが約10%少なく、計算量が5〜15%少ないですが、それでもAPは0.4〜0.6%向上しています。 YOLOv7 AF と比較すると、YOLOv9-C はパラメータが 42% 少なく、計算量が 21% 少ないですが、AP は同じ (53%) です。 YOLOv8-X と比較すると、YOLOv9-X はパラメータが 15% 少なく、計算が 25% 少なく、AP が 1.7% 大幅に向上しています。上記の比較結果は、YOLOv9 があらゆる面で既存の方法よりも大幅な改善を達成したことを示しています。 最先端のリアルタイム物体検出器との比較比較対象のすべての方法では、RT DETR、RTMDet、PP-YOLOE など、ImageNet を事前トレーニング済みの重みとして使用します。ゼロからのトレーニングアプローチを使用する YOLOv9 は、明らかに他の方法のパフォーマンスを上回ります。 結果を視覚化する特徴マップ(可視化結果): PlainNet、ResNet、CSPNet、GELAN によって異なる深度で出力されるランダムな初期重み。 100 層を超えると、ResNet はターゲット情報を含めるのに十分に難読化されたフィードフォワード出力を生成し始めます。ここで提案されている GELAN は、150 番目の層でもかなり完全な情報を保持でき、200 番目の層でも十分な識別能力を備えています。 GELAN および YOLOv9 (GELAN + PGI) の PAN 特徴マップ (視覚化結果):バイアスウォームアップ 1 ラウンド後。 GELAN は当初、ある程度の分岐がありましたが、PGI の可逆分岐を追加した後、ターゲット オブジェクトに焦点を合わせることができるようになりました。 さまざまなネットワーク アーキテクチャのランダム初期重み出力特徴マップの視覚化結果: (a) 入力画像、(b) PlainNet、(c) ResNet、(d) CSPNet、(e) 提案された GELAN。図からわかるように、異なるアーキテクチャでは、損失を計算するために目的関数に提供される情報の程度が異なりますが、私たちのアーキテクチャは最も完全な情報を保持し、目的関数を計算するための最も信頼性の高い勾配情報を提供できます。 結論はこの論文では、情報ボトルネック問題と、軽量ニューラル ネットワークには深い監視メカニズムが適していないという問題を解決するために PGI を使用することを提案します。効率的で軽量なニューラル ネットワークである GELAN を設計しました。物体検出に関しては、GELAN はさまざまなコンピューティング モジュールと深度設定で強力かつ安定したパフォーマンスを示します。実際、さまざまな推論デバイスに適したモデルに幅広く拡張できます。上記の 2 つの問題に対処するために、PGI を導入することで、軽量モデルとディープ モデルの両方で精度の大幅な向上を実現できます。 PGIとGELANを組み合わせて設計されたYOLOv9は、強力な競争力を示しています。その優れた設計により、YOLOv8 と比較して、ディープ モデルのパラメータ数が 49%、計算量が 43% 削減され、MS COCO データセットで 0.6% の AP 改善が達成されます。 オリジナルリンク: https://mp.weixin.qq.com/s/nP4JzVwn1S-MeKAzbf97uw |
ヒューマンホライゾンズテクノロジーズ株式会社は、新エネルギー車、インテリジェントネットワーク、共同交...
カスタマー サービスにおけるインテリジェント ボットは顧客データを収集して分析し、消費者の行動や好み...
[[336217]]多くの新製品と同様に、自動運転に対する人々の態度は、過度の信頼から過少な信頼まで...
IT Homeは11月7日、マイクロソフトリサーチアジアが北京大学、西安交通大学などの大学と共同で...
ペンシルベニア州立大学の研究チームによると、脳内のアストロサイトと呼ばれる細胞の機能を解明し、それを...
コード補完機能は IDE では非常に一般的です。優れたコード自動補完機能により、作業効率が大幅に向上...
「中東のシリコンバレー」と呼ばれるイスラエルはハイテク産業が発達しており、特にチップ産業や半導体技術...
人工知能技術といえば、まずディープラーニングや機械学習技術が思い浮かびます。人工知能の応用といえば、...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
本日、インテルとその開発者エコシステム パートナーは、「インテリジェント エッジに焦点を当て、開発者...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
序文Alibaba レイヤー 7 トラフィック エントリ アクセス レイヤー (アプリケーション ゲ...