YOLOv7の速度と精度は他のバリアントを上回っている、とマスターABがツイート、ネットユーザー:それはあなたでなければならない

YOLOv7の速度と精度は他のバリアントを上回っている、とマスターABがツイート、ネットユーザー:それはあなたでなければならない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

MeituanがYOLOv6をリリースしたのと同じように、YOLO公式チームも新しいバージョンをリリースしました。

YOLOプロジェクトの保守に参加したアレクセイ・ボチコフスキー氏はツイッターで次のように主張した。

YOLOv7 の公式バージョンは、以下のバージョンよりも精度と速度が優れています。

論文では、研究チームはYOLOv7と他のバリアントのパフォーマンスを詳細に比較し、バージョンv7の新しい変更点を紹介しました。

では早速、YOLOv7 がいかに強力であるかを実験結果で見てみましょう。

スピードと精度は他のバリアントを上回ります

この論文では、YOLO の以前のバージョンと最先端の物体検出モデルをベンチマークとして使用して実験が行われました。

次の表は、同じパラメータ設定での YOLOv7 モデルと他のバージョンの比較を示しています。

緑色でマークされたデータは、以前のバージョンと比較してパフォーマンスが向上したことを示しています。以前のバージョンと比較してパラメータ数と計算量が削減され、APも改善されました。

クラウド GPU モデルでも、最新モデルは以前のモデルに比べて計算量とパラメータが削減されながらも、高い AP を維持できます。

YOLOv7 は速度と精度のバランスをうまく取ることができます。

既存の汎用 GPU およびモバイル GPU オブジェクト検出モデルとの比較:

YOLOv7 は、速度(FPS)と精度(AP)の両方において他の物体検出モデルよりも優れています。

例えば、入力解像度が1280の場合、YOLOv7とYOLORを比較すると、YOLOv7-W6の推論速度はYOLOR-P6よりも8fps速く、検出率も1%AP向上しています。

パフォーマンスはどのように向上しますか?

リアルタイム オブジェクト検出モデルのパフォーマンスを向上させるには、多くの場合、次の点から始めます。

1. より高速で強力なネットワーク アーキテクチャ。

2. より効果的な機能統合方法。

3. より正確な検出方法

4. より正確な損失関数

5. より効率的なラベル割り当て方法。

6. より効果的なトレーニング方法。

YOLOv7 は主に 4、5、6 から開始して、より優れたパフォーマンスの検出モデルを設計します。

まず、YOLOv7 は、Extended-ELAN (略して E-ELAN)と呼ばれる効率的な長距離注意ネットワークを拡張します。

大規模 ELAN では、勾配パスの長さやブロック数に関係なく、ネットワークは安定した状態に到達できます。

ただし、計算ブロックが無限に積み重ねられると、この安定した状態が破壊され、パラメータの使用率が低下する可能性があります。

E-ELAN はカーディナリティを拡張シャッフル、マージすることで、元の勾配パスを破壊することなくネットワークの学習能力を向上させることができます。

アーキテクチャの面では、E-ELAN は、遷移層のアーキテクチャを変更せずに、コンピューティング ブロック内のアーキテクチャのみを変更します。

E-ELAN は、元の ELAN 設計アーキテクチャを維持するだけでなく、さまざまなコンピューティング ブロックのグループをガイドして、より多様な機能を学習することもできます。

次に、YOLOv7 はカスケードベースのモデルスケーリング方式を採用します。

モデルのスケーリングとは、モデルのいくつかの属性を調整して、さまざまな推論速度のニーズを満たすさまざまなスケールのモデルを生成することを指します。

ただし、モデル スケーリングを接続ベースのアーキテクチャに適用すると、実行深度が拡大または縮小されると、接続ベースの変換レイヤーの計算ブロックが減少または増加します。

このことから、カスケードベースのモデルでは、異なるスケーリング係数を個別に分析することはできず、一緒に考慮する必要があることが推測できます。

カスケードベースのモデル スケーリング方法は、複合モデル スケーリング方法です。計算ブロックの深度係数をスケーリングするときに、ブロックの出力チャネルの変化も計算されます。

次に、遷移レイヤーは同じ幅係数でスケーリングされ、モデルの初期設計特性が保持され、最適な構造が維持されます。

論文研究では、著者らは計画的に再パラメータ化された畳み込みも設計しました。

RepConv は VGG では優れたパフォーマンスを発揮しますが、ResNet、DenseNet などのアーキテクチャに直接適用すると、精度が大幅に低下します。

これは、RepConv の直接接続(Identity 接続)によって、ResNet の残差と DenseNet の接続が破壊されるためです。

そこで本稿では、直接接続のないRepConv (RepConvN)を使用してネットワーク構造を設計します。

YOLOv7 のラベル割り当てメカニズムでは、ネットワーク予測結果とベンチマークの両方を考慮した上で、ソフトラベル(総合的に考慮して最適化されたラベル)を「ラベルアサイナー」メカニズムに割り当てる必要があります。

次のステップは、「ソフト ラベルを補助ヘッドに割り当てるべきか、それともリード ヘッドに割り当てるべきか」です。

本論文では、次の図の(d)(e)に示すように、リードヘッド予測に基づいて粗いものから細かいものまで階層的なラベルを生成する新しいラベル割り当て方法を提案しており、それぞれリードヘッドと補助ヘッドの学習に使用されます。

図 (d) では、浅い補助ヘッドがリードヘッドがすでに学習した情報を学習し、リードヘッドは学習した残りの情報にさらに集中することができます。

図 e では、粗いラベルと細かいラベルという 2 セットのソフト ラベルが生成されます。補助ヘッドは学習能力が主ヘッドほど優れていないため、学習する必要がある情報を失わないように、補助ヘッドのリコール率を最適化することに重点を置くことが重要です。

現在、YOLOv7 は正式にオープンソース化されています。ご興味のあるパートナーは、以下のリンクをクリックしてください。

<<:  脳コンピューターインターフェースでケーキを食べる

>>:  歯を磨くのが面倒ですか?マイクロロボットは自動的にそれを手伝ってくれ、いつでも歯ブラシとデンタルフロスを交換することもできます。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIは自動車でも加速しており、メルセデス・ベンツは車載音声アシスタントをChatGPTチャットボットに接続すると発表した。

6月16日のニュースによると、メルセデス・ベンツは木曜日、6月16日にテストプログラムを開始し、ア...

...

わかりやすい! 「高校数学」勾配降下法の数学的原理を理解する

「時期尚早な最適化は諸悪の根源である。」 —ドナルド・アーヴィン・クヌース、コンピュータ科学者、数...

業界初のAIリアルタイムステルス技術、ステルスの超能力を手に入れるために快手へ

先ほど終わった快手千夜一夜パーティで、ディルラバ・ディルムラトの突然の登場に、司会者と観客から「かっ...

人工知能ブームの背景にある産業チェーンのレイアウト分析

「新世代人工知能発展計画」の発表に伴い、国務院は我が国の人工知能発展計画を全体的に展開し始めました。...

...

研究者はディープラーニングモデルを使って交通事故を予測する

[51CTO.com クイック翻訳]現在の世界は、コンクリートやアスファルトでできた巨大な迷路のよう...

...

...

音声インターフェース:私たちはインタラクションの次の時代の瀬戸際にいる

[[185877]]コンピュータ処理、音声認識、モバイル通信、クラウドコンピューティング、ニューラル...

...

DALL·Eの超進化により、写真の品質と芸術性が大幅に向上し、写真をシームレスに修正することもできるようになりました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

独占インタビュー | 独立系開発者 Li Xiaoyu: AI ツールを使用して作業効率を向上

パートナーシップ、会社登録、資金調達なしで、独立系開発者の Li Xiaoyu は継続的に実践と反復...

2018 年の人工知能の商業化に関する 5 つの洞察

[[252389]]人工知能囲碁プログラム「AlphaGo」が囲碁の世界チャンピオンを破って以来、人...