ターゲット検出のための新しいSOTA:YOLOv9がリリースされ、新しいアーキテクチャが従来の畳み込みに新たな命を吹き込む

ターゲット検出のための新しいSOTA:YOLOv9がリリースされ、新しいアーキテクチャが従来の畳み込みに新たな命を吹き込む

YOLOv8 が 2023 年 1 月に正式にリリースされてから 1 年以上経ち、ついに YOLOv9 が登場しました。

YOLO は、画像の全体的な情報に基づいて予測を行うオブジェクト検出システムであることがわかっています。ジョセフ・レドモン、アリ・ファルハディらが2015年に第一世代のモデルを提案して以来、この分野の研究者らはYOLOを何度も更新・反復し、モデルのパフォーマンスはますます強力になってきました。

今回、YOLOv9は中国・台湾の中央研究院、台北理工大学などにより共同開発され、関連論文「プログラム可能な勾配情報を用いて学びたいことを学ぶ」が公開されました。

論文アドレス: https://arxiv.org/pdf/2402.13616.pdf

GitHub アドレス: https://github.com/WongKinYiu/yolov9

今日のディープラーニング手法は、モデルの予測結果が実際の状況に最も近くなるように、最も適切な目的関数をどのように設計するかに重点を置いています。同時に、予測に十分な情報を取得できる適切なアーキテクチャを設計する必要があります。しかし、既存の方法では、入力データがレイヤーごとに特徴抽出および空間変換されると、多くの情報が失われるという事実が無視されています。

したがって、YOLOv9 は、ディープ ネットワークを介してデータが送信されるときにデータ損失が発生する重要な問題、つまり情報のボトルネックと可逆機能について詳しく調べます。

研究者らは、ディープネットワークが複数の目標を達成するために必要なさまざまな変化に対処するために、プログラム可能な勾配情報 (PGI)の概念を提案しました。 PGI は、対象タスクの目的関数を計算するための完全な入力情報を提供できるため、ネットワークの重みを更新するための信頼性の高い勾配情報を取得できます。

さらに、研究者らは、勾配経路計画に基づく新しい軽量ネットワーク アーキテクチャ、つまりGeneralized Efficient Layer Aggregation Network (GELAN)を設計しました。このアーキテクチャは、PGI が軽量モデルで優れた結果を達成できることを示しています。

研究者らは、MS COCO データセットに基づく物体検出タスクで提案された GELAN と PGI を検証しました。結果は、GELAN が、深層畳み込みに基づいて開発された SOTA 方式と比較して、従来の畳み込み演算子のみを使用して、より優れたパラメータ利用を達成することを示しています。

PGIの場合、適応性が非常に高く、軽量モデルから大型モデルまで様々なモデルに使用できます。これを使用して完全な情報を取得できるため、ゼロからトレーニングされたモデルは、大規模なデータセットを使用して事前トレーニングされた SOTA モデルよりも優れた結果を達成できます。下の図 1 にいくつかの比較結果を示します。

YOLOv7、YOLOv4、Scaled-YOLOv4、DPTの開発に参加したAlexey Bochkovskiy氏は、新しくリリースされたYOLOv9を高く評価し、YOLOv9は畳み込みベースやトランスフォーマーベースのターゲット検出器よりも優れていると述べました。

写真

出典: https://twitter.com/alexeyab84/status/1760685626247250342

別のネットユーザーは、YOLOv9 は新しい SOTA リアルタイムターゲット検出器のように見え、独自のカスタムトレーニングチュートリアルが進行中であると述べました。


出典: https://twitter.com/skalskip92/status/1760717291593834648

一部の「勤勉な」ネットユーザーは、すでに YOLOv9 モデルに pip サポートを追加しています。

出典: https://twitter.com/kadirnar_ai/status/1760716187896283635

次にYOLOv9の詳細を見てみましょう。

問題の説明

通常、ディープ ニューラル ネットワークの収束の難しさは、勾配消失や勾配飽和などの従来のディープ ニューラル ネットワークに存在する要因によるものと考えられています。しかし、現代のディープニューラルネットワークは、さまざまな正規化関数と活性化関数を設計することで、上記の問題を根本的に解決しました。しかし、それでも、ディープニューラルネットワークでは収束が遅い、または収束効果が乏しいという問題が残っています。では、この問題の本質は何でしょうか?

研究者らは、情報ボトルネックの詳細な分析を通じて、問題の根本的な原因を推測しました。非常に深いネットワークから勾配が最初に渡された直後に、目標を達成するために必要な大量の情報が失われるのです。この推論を検証するために、研究者らは、初期重みを持つ異なるアーキテクチャを持つ深層ネットワーク上でフィードフォワード処理を実行しました。図 2 はこれを視覚的に示しています。明らかに、PlainNet は深層層での物体検出に必要な重要な情報を多く失っています。 ResNet、CSPNet、GELAN が保持できる重要な情報の割合に関しては、トレーニング後に得られる精度と確かに正の相関関係があります。研究者らはさらに、上記の問題の原因に対処するために可逆的なネットワークベースの方法を設計しました。

方法の紹介

プログラム可能な勾配情報 (PGI)

この研究では、図3(d)に示すように、新しい補助監視フレームワークであるProgrammable Gradient Information (PGI)を提案しました。

PGIは主に(1)主枝、(2)補助可逆枝、(3)多段階補助情報の3つの部分から構成されます。

  • PGI の推論プロセスではメイン ブランチのみが使用されるため、追加の推論コストは必要ありません。
  • 補助的な可逆ブランチは、ニューラル ネットワークの深化によって発生する問題に対処するためのものです。ネットワークの深化により情報のボトルネックが発生し、損失関数が信頼性の高い勾配を生成できなくなります。
  • マルチレベル補助情報は、特に複数の予測ブランチと軽量モデルを備えたアーキテクチャにおいて、深い監視によってもたらされるエラー蓄積の問題に対処することを目的としています。

GELANネットワーク

さらに、この研究では、新しいネットワーク アーキテクチャ GELAN も提案されました (下図参照)。具体的には、研究者らは、2 つのニューラル ネットワーク アーキテクチャ CSPNet と ELAN を組み合わせて、軽量、推論速度、精度を考慮した一般化効率的レイヤー集約ネットワーク (GELAN) を設計しました。研究者らは、もともと畳み込み層のスタックのみを使用していた ELAN の機能を、任意の計算ブロックを使用できる新しいアーキテクチャに一般化しました。

実験結果

YOLOv9 の性能を評価するために、本研究ではまず YOLOv9 をゼロからトレーニングした他のリアルタイム物体検出器と総合的に比較しました。結果を以下の表 1 に示します。

この研究では、ImageNet の事前トレーニング済みモデルも比較に含められており、その結果が下の図 5 に示されています。注目すべきは、従来の畳み込みを使用する YOLOv9 が、パラメータ利用の点では、深い畳み込みを使用する YOLO MS よりも優れていることです。

アブレーション実験

YOLOv9 の各コンポーネントの役割を探るために、本研究では一連のアブレーション実験を実施しました。

この研究では、まずGELANの計算ブロックに対してアブレーション実験を実施しました。以下の表 2 に示すように、この研究では、ELAN の畳み込み層を異なる計算ブロックに置き換えることで、システムが良好なパフォーマンスを維持できることがわかりました。

次に、異なるサイズの GELAN の ELAN ブロック深度と CSP ブロック深度に関するアブレーション実験を実施しました。結果を以下の表 3 に示します。

PGIに関しては、研究者らはそれぞれ、バックボーンネットワークとネック上の補助可逆枝とマルチレベル補助情報の除去研究を実施しました。表4にすべての実験の結果を示します。表 4 からわかるように、PFH はディープ モデルにのみ効果的ですが、本論文で提案されている PGI はさまざまな組み合わせで精度を向上させることができます。

研究者らはさらに、異なるサイズのモデルに PGI と深い監督を実装し、結果を比較しました。その結果は表 5 に示されています。

図6は、ベースラインYOLOv7からYOLOv9-Eまでコンポーネントを徐々に追加した結果を示しています。

視覚化

研究者らは情報ボトルネックの問題を調査し、それを視覚化しました。図 6 は、さまざまなアーキテクチャでランダムな初期重みをフィードフォワードとして使用して得られた特徴マップの視覚化結果を示しています。

図 7 は、PGI がトレーニング中により信頼性の高い勾配を提供でき、更新に使用されるパラメータが入力データとターゲットの関係を効果的に捉えられるかどうかを示しています。

より技術的な詳細については、元の記事をお読みください。

<<:  ソフトウェア開発に GenAI モデルを安全に使用する手順

>>:  安定した拡散3がリリースされ、ソラと同じ技術を使用して、テキストがついに文字化けしなくなりました

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Nature サブジャーナル: 機械学習を使用してヒトの遺伝子制御の背後にある「文法」を明らかにする

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

ビッグモデル実装の最後の一歩: ビッグモデル評価の 111 ページに及ぶ包括的なレビュー

現在、ビッグモデルは強力な機能と無限の可能性で新たな技術革命をリードしています。多くのテクノロジー大...

幾何学を利用してディープラーニングモデルのパフォーマンスを向上させることは、コンピュータービジョン研究の未来です。

[[189965]]ディープラーニングはコンピュータービジョンを変革しました。現在、ほとんどの問題...

アップルが従業員を解雇し調整、好景気の時代とは真逆! Apple AI の堀とは何でしょうか?

ウォール・ストリート・ジャーナルによると、アップルは最近、経営陣の再編と人事異動を行う措置を講じたと...

クローズドループへ! DriveMLM: LLM と自動運転行動計画の完璧な組み合わせ!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

...

商品化への探究を深めよう!ジェネレーティブAIが1兆ドル市場への道を開く

2023年10月17日(本日)、百度のシンプル検索はアップグレードを発表し、大規模モデルを通じて再構...

...

...

製造業における人工知能の活用事例トップ 5

製造業は大きなデジタル変革を遂げています。従来のモデルはインダストリー 4.0 へと進化しています。...

ChatGPTは人間よりも優れているか? - チューリングテストの観点からの議論

翻訳者|朱 仙中レビュー | Chonglou概要:機械は考えることができるか?この論文では、この問...

人工知能は視覚効果アーティストの役割に取って代わるでしょうか?

視覚効果 (VFX) の分野における AI の統合は、シームレスでデータ主導のアプローチを導入するこ...