YOLOv8 が 2023 年 1 月に正式にリリースされてから 1 年以上経ち、ついに YOLOv9 が登場しました。 YOLO は、画像の全体的な情報に基づいて予測を行うオブジェクト検出システムであることがわかっています。ジョセフ・レドモン、アリ・ファルハディらが2015年に第一世代のモデルを提案して以来、この分野の研究者らはYOLOを何度も更新・反復し、モデルのパフォーマンスはますます強力になってきました。 今回、YOLOv9は中国・台湾の中央研究院、台北理工大学などにより共同開発され、関連論文「プログラム可能な勾配情報を用いて学びたいことを学ぶ」が公開されました。 論文アドレス: https://arxiv.org/pdf/2402.13616.pdf GitHub アドレス: https://github.com/WongKinYiu/yolov9 今日のディープラーニング手法は、モデルの予測結果が実際の状況に最も近くなるように、最も適切な目的関数をどのように設計するかに重点を置いています。同時に、予測に十分な情報を取得できる適切なアーキテクチャを設計する必要があります。しかし、既存の方法では、入力データがレイヤーごとに特徴抽出および空間変換されると、多くの情報が失われるという事実が無視されています。 したがって、YOLOv9 は、ディープ ネットワークを介してデータが送信されるときにデータ損失が発生する重要な問題、つまり情報のボトルネックと可逆機能について詳しく調べます。 研究者らは、ディープネットワークが複数の目標を達成するために必要なさまざまな変化に対処するために、プログラム可能な勾配情報 (PGI)の概念を提案しました。 PGI は、対象タスクの目的関数を計算するための完全な入力情報を提供できるため、ネットワークの重みを更新するための信頼性の高い勾配情報を取得できます。 さらに、研究者らは、勾配経路計画に基づく新しい軽量ネットワーク アーキテクチャ、つまりGeneralized Efficient Layer Aggregation Network (GELAN)を設計しました。このアーキテクチャは、PGI が軽量モデルで優れた結果を達成できることを示しています。 研究者らは、MS COCO データセットに基づく物体検出タスクで提案された GELAN と PGI を検証しました。結果は、GELAN が、深層畳み込みに基づいて開発された SOTA 方式と比較して、従来の畳み込み演算子のみを使用して、より優れたパラメータ利用を達成することを示しています。 PGIの場合、適応性が非常に高く、軽量モデルから大型モデルまで様々なモデルに使用できます。これを使用して完全な情報を取得できるため、ゼロからトレーニングされたモデルは、大規模なデータセットを使用して事前トレーニングされた SOTA モデルよりも優れた結果を達成できます。下の図 1 にいくつかの比較結果を示します。 YOLOv7、YOLOv4、Scaled-YOLOv4、DPTの開発に参加したAlexey Bochkovskiy氏は、新しくリリースされたYOLOv9を高く評価し、YOLOv9は畳み込みベースやトランスフォーマーベースのターゲット検出器よりも優れていると述べました。 写真 出典: https://twitter.com/alexeyab84/status/1760685626247250342 別のネットユーザーは、YOLOv9 は新しい SOTA リアルタイムターゲット検出器のように見え、独自のカスタムトレーニングチュートリアルが進行中であると述べました。 出典: https://twitter.com/skalskip92/status/1760717291593834648 一部の「勤勉な」ネットユーザーは、すでに YOLOv9 モデルに pip サポートを追加しています。 出典: https://twitter.com/kadirnar_ai/status/1760716187896283635 次にYOLOv9の詳細を見てみましょう。 問題の説明通常、ディープ ニューラル ネットワークの収束の難しさは、勾配消失や勾配飽和などの従来のディープ ニューラル ネットワークに存在する要因によるものと考えられています。しかし、現代のディープニューラルネットワークは、さまざまな正規化関数と活性化関数を設計することで、上記の問題を根本的に解決しました。しかし、それでも、ディープニューラルネットワークでは収束が遅い、または収束効果が乏しいという問題が残っています。では、この問題の本質は何でしょうか? 研究者らは、情報ボトルネックの詳細な分析を通じて、問題の根本的な原因を推測しました。非常に深いネットワークから勾配が最初に渡された直後に、目標を達成するために必要な大量の情報が失われるのです。この推論を検証するために、研究者らは、初期重みを持つ異なるアーキテクチャを持つ深層ネットワーク上でフィードフォワード処理を実行しました。図 2 はこれを視覚的に示しています。明らかに、PlainNet は深層層での物体検出に必要な重要な情報を多く失っています。 ResNet、CSPNet、GELAN が保持できる重要な情報の割合に関しては、トレーニング後に得られる精度と確かに正の相関関係があります。研究者らはさらに、上記の問題の原因に対処するために可逆的なネットワークベースの方法を設計しました。 方法の紹介プログラム可能な勾配情報 (PGI) この研究では、図3(d)に示すように、新しい補助監視フレームワークであるProgrammable Gradient Information (PGI)を提案しました。 PGIは主に(1)主枝、(2)補助可逆枝、(3)多段階補助情報の3つの部分から構成されます。
GELANネットワーク さらに、この研究では、新しいネットワーク アーキテクチャ GELAN も提案されました (下図参照)。具体的には、研究者らは、2 つのニューラル ネットワーク アーキテクチャ CSPNet と ELAN を組み合わせて、軽量、推論速度、精度を考慮した一般化効率的レイヤー集約ネットワーク (GELAN) を設計しました。研究者らは、もともと畳み込み層のスタックのみを使用していた ELAN の機能を、任意の計算ブロックを使用できる新しいアーキテクチャに一般化しました。 実験結果YOLOv9 の性能を評価するために、本研究ではまず YOLOv9 をゼロからトレーニングした他のリアルタイム物体検出器と総合的に比較しました。結果を以下の表 1 に示します。 この研究では、ImageNet の事前トレーニング済みモデルも比較に含められており、その結果が下の図 5 に示されています。注目すべきは、従来の畳み込みを使用する YOLOv9 が、パラメータ利用の点では、深い畳み込みを使用する YOLO MS よりも優れていることです。 アブレーション実験 YOLOv9 の各コンポーネントの役割を探るために、本研究では一連のアブレーション実験を実施しました。 この研究では、まずGELANの計算ブロックに対してアブレーション実験を実施しました。以下の表 2 に示すように、この研究では、ELAN の畳み込み層を異なる計算ブロックに置き換えることで、システムが良好なパフォーマンスを維持できることがわかりました。 次に、異なるサイズの GELAN の ELAN ブロック深度と CSP ブロック深度に関するアブレーション実験を実施しました。結果を以下の表 3 に示します。 PGIに関しては、研究者らはそれぞれ、バックボーンネットワークとネック上の補助可逆枝とマルチレベル補助情報の除去研究を実施しました。表4にすべての実験の結果を示します。表 4 からわかるように、PFH はディープ モデルにのみ効果的ですが、本論文で提案されている PGI はさまざまな組み合わせで精度を向上させることができます。 研究者らはさらに、異なるサイズのモデルに PGI と深い監督を実装し、結果を比較しました。その結果は表 5 に示されています。 図6は、ベースラインYOLOv7からYOLOv9-Eまでコンポーネントを徐々に追加した結果を示しています。 視覚化研究者らは情報ボトルネックの問題を調査し、それを視覚化しました。図 6 は、さまざまなアーキテクチャでランダムな初期重みをフィードフォワードとして使用して得られた特徴マップの視覚化結果を示しています。 図 7 は、PGI がトレーニング中により信頼性の高い勾配を提供でき、更新に使用されるパラメータが入力データとターゲットの関係を効果的に捉えられるかどうかを示しています。 より技術的な詳細については、元の記事をお読みください。 |
<<: ソフトウェア開発に GenAI モデルを安全に使用する手順
>>: 安定した拡散3がリリースされ、ソラと同じ技術を使用して、テキストがついに文字化けしなくなりました
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
現在、ビッグモデルは強力な機能と無限の可能性で新たな技術革命をリードしています。多くのテクノロジー大...
[[189965]]ディープラーニングはコンピュータービジョンを変革しました。現在、ほとんどの問題...
ウォール・ストリート・ジャーナルによると、アップルは最近、経営陣の再編と人事異動を行う措置を講じたと...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
2023年10月17日(本日)、百度のシンプル検索はアップグレードを発表し、大規模モデルを通じて再構...
10月20日、スタンフォード大学の公式プレスリリースによると、研究者らは最近、OpenCapと呼ばれ...
製造業は大きなデジタル変革を遂げています。従来のモデルはインダストリー 4.0 へと進化しています。...
翻訳者|朱 仙中レビュー | Chonglou概要:機械は考えることができるか?この論文では、この問...
視覚効果 (VFX) の分野における AI の統合は、シームレスでデータ主導のアプローチを導入するこ...