YOLOv7の速度と精度は他のバリアントを上回っている、とマスターABがツイート、ネットユーザー:それはあなたでなければならない

YOLOv7の速度と精度は他のバリアントを上回っている、とマスターABがツイート、ネットユーザー:それはあなたでなければならない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

MeituanがYOLOv6をリリースしたのと同じように、YOLO公式チームも新しいバージョンをリリースしました。

YOLOプロジェクトの保守に参加したアレクセイ・ボチコフスキー氏はツイッターで次のように主張した。

YOLOv7 の公式バージョンは、以下のバージョンよりも精度と速度が優れています。

論文では、研究チームはYOLOv7と他のバリアントのパフォーマンスを詳細に比較し、バージョンv7の新しい変更点を紹介しました。

では早速、YOLOv7 がいかに強力であるかを実験結果で見てみましょう。

スピードと精度は他のバリアントを上回ります

この論文では、YOLO の以前のバージョンと最先端の物体検出モデルをベンチマークとして使用して実験が行われました。

次の表は、同じパラメータ設定での YOLOv7 モデルと他のバージョンの比較を示しています。

緑色でマークされたデータは、以前のバージョンと比較してパフォーマンスが向上したことを示しています。以前のバージョンと比較してパラメータ数と計算量が削減され、APも改善されました。

クラウド GPU モデルでも、最新モデルは以前のモデルに比べて計算量とパラメータが削減されながらも、高い AP を維持できます。

YOLOv7 は速度と精度のバランスをうまく取ることができます。

既存の汎用 GPU およびモバイル GPU オブジェクト検出モデルとの比較:

YOLOv7 は、速度(FPS)と精度(AP)の両方において他の物体検出モデルよりも優れています。

例えば、入力解像度が1280の場合、YOLOv7とYOLORを比較すると、YOLOv7-W6の推論速度はYOLOR-P6よりも8fps速く、検出率も1%AP向上しています。

パフォーマンスはどのように向上しますか?

リアルタイム オブジェクト検出モデルのパフォーマンスを向上させるには、多くの場合、次の点から始めます。

1. より高速で強力なネットワーク アーキテクチャ。

2. より効果的な機能統合方法。

3. より正確な検出方法

4. より正確な損失関数

5. より効率的なラベル割り当て方法。

6. より効果的なトレーニング方法。

YOLOv7 は主に 4、5、6 から開始して、より優れたパフォーマンスの検出モデルを設計します。

まず、YOLOv7 は、Extended-ELAN (略して E-ELAN)と呼ばれる効率的な長距離注意ネットワークを拡張します。

大規模 ELAN では、勾配パスの長さやブロック数に関係なく、ネットワークは安定した状態に到達できます。

ただし、計算ブロックが無限に積み重ねられると、この安定した状態が破壊され、パラメータの使用率が低下する可能性があります。

E-ELAN はカーディナリティを拡張シャッフル、マージすることで、元の勾配パスを破壊することなくネットワークの学習能力を向上させることができます。

アーキテクチャの面では、E-ELAN は、遷移層のアーキテクチャを変更せずに、コンピューティング ブロック内のアーキテクチャのみを変更します。

E-ELAN は、元の ELAN 設計アーキテクチャを維持するだけでなく、さまざまなコンピューティング ブロックのグループをガイドして、より多様な機能を学習することもできます。

次に、YOLOv7 はカスケードベースのモデルスケーリング方式を採用します。

モデルのスケーリングとは、モデルのいくつかの属性を調整して、さまざまな推論速度のニーズを満たすさまざまなスケールのモデルを生成することを指します。

ただし、モデル スケーリングを接続ベースのアーキテクチャに適用すると、実行深度が拡大または縮小されると、接続ベースの変換レイヤーの計算ブロックが減少または増加します。

このことから、カスケードベースのモデルでは、異なるスケーリング係数を個別に分析することはできず、一緒に考慮する必要があることが推測できます。

カスケードベースのモデル スケーリング方法は、複合モデル スケーリング方法です。計算ブロックの深度係数をスケーリングするときに、ブロックの出力チャネルの変化も計算されます。

次に、遷移レイヤーは同じ幅係数でスケーリングされ、モデルの初期設計特性が保持され、最適な構造が維持されます。

論文研究では、著者らは計画的に再パラメータ化された畳み込みも設計しました。

RepConv は VGG では優れたパフォーマンスを発揮しますが、ResNet、DenseNet などのアーキテクチャに直接適用すると、精度が大幅に低下します。

これは、RepConv の直接接続(Identity 接続)によって、ResNet の残差と DenseNet の接続が破壊されるためです。

そこで本稿では、直接接続のないRepConv (RepConvN)を使用してネットワーク構造を設計します。

YOLOv7 のラベル割り当てメカニズムでは、ネットワーク予測結果とベンチマークの両方を考慮した上で、ソフトラベル(総合的に考慮して最適化されたラベル)を「ラベルアサイナー」メカニズムに割り当てる必要があります。

次のステップは、「ソフト ラベルを補助ヘッドに割り当てるべきか、それともリード ヘッドに割り当てるべきか」です。

本論文では、次の図の(d)(e)に示すように、リードヘッド予測に基づいて粗いものから細かいものまで階層的なラベルを生成する新しいラベル割り当て方法を提案しており、それぞれリードヘッドと補助ヘッドの学習に使用されます。

図 (d) では、浅い補助ヘッドがリードヘッドがすでに学習した情報を学習し、リードヘッドは学習した残りの情報にさらに集中することができます。

図 e では、粗いラベルと細かいラベルという 2 セットのソフト ラベルが生成されます。補助ヘッドは学習能力が主ヘッドほど優れていないため、学習する必要がある情報を失わないように、補助ヘッドのリコール率を最適化することに重点を置くことが重要です。

現在、YOLOv7 は正式にオープンソース化されています。ご興味のあるパートナーは、以下のリンクをクリックしてください。

<<:  脳コンピューターインターフェースでケーキを食べる

>>:  歯を磨くのが面倒ですか?マイクロロボットは自動的にそれを手伝ってくれ、いつでも歯ブラシとデンタルフロスを交換することもできます。

ブログ    
ブログ    
ブログ    

推薦する

人工知能は中国の製造業にどのような変化をもたらすのでしょうか?

[[260379]]データマップ:中国航空宇宙科学産業集団第三科学院第35研究所が開発に成功した新...

...

...

OpenAI のもう一つの「大ヒット作」: AI に芸術的創造性を与える

OpenAIがまた爆弾発言をしました。昨年夏に人気の言語モデルGPT-3を発表したOpenAIの研究...

...

貧困が私を訓練した

1. 事前のトレーニングは必要ですか?事前トレーニングの効果はすぐに現れますが、必要なリソースが法外...

エンタープライズ AI の大きな課題を解決する方法

既存のデータの 90% は過去 2 年間に生成されたものです。 毎日 7.5 京バイトのデータが生成...

NVIDIA は、わずか 5 行のコードで画像を 3D モデルに変換する 3D ディープラーニング ツール Kaolin をリリースしました。

近年、3D コンピューター ビジョンと人工知能はともに急速に進歩していますが、両者の効果的な組み合わ...

...

PyTorch ライブラリの 95% がこのバグの影響を受けます。テスラのAIディレクターも例外ではなかった

[[393110]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

ジャック・マー氏:中国のAIは必ず米国のAIを上回る。ゲイツ氏は米国がボスだと反論した。

周知のとおり、AI はテクノロジー業界の次のトレンドとなっており、このトレンドは世界規模です。そこで...

長沙の無人タクシーが提起する疑問:本当に無人運転が可能なのか?

自動運転無人現在、スマートカーには2つの呼び方があります。自動車会社がクローズドなシナリオでテストす...

人工知能研究は行き詰まりに陥っているかもしれない

[51CTO.com クイック翻訳]フィリップ・K・ディックの1968年の小説『アンドロイドは電気羊...

「ロボット」は詐欺の標的になり得るのか?

機械は識別や配送などの一連の機能を統合した後、自然に俳優と「対話」します。相互作用のプロセスにおける...

生成 AI は通信業界を救うことができるか?

MWC 2024カンファレンスで、Nvidiaは、ARM、ServiceNow、SoftBankと...