YOLOv7の速度と精度は他のバリアントを上回っている、とマスターABがツイート、ネットユーザー:それはあなたでなければならない

YOLOv7の速度と精度は他のバリアントを上回っている、とマスターABがツイート、ネットユーザー:それはあなたでなければならない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

MeituanがYOLOv6をリリースしたのと同じように、YOLO公式チームも新しいバージョンをリリースしました。

YOLOプロジェクトの保守に参加したアレクセイ・ボチコフスキー氏はツイッターで次のように主張した。

YOLOv7 の公式バージョンは、以下のバージョンよりも精度と速度が優れています。

論文では、研究チームはYOLOv7と他のバリアントのパフォーマンスを詳細に比較し、バージョンv7の新しい変更点を紹介しました。

では早速、YOLOv7 がいかに強力であるかを実験結果で見てみましょう。

スピードと精度は他のバリアントを上回ります

この論文では、YOLO の以前のバージョンと最先端の物体検出モデルをベンチマークとして使用して実験が行われました。

次の表は、同じパラメータ設定での YOLOv7 モデルと他のバージョンの比較を示しています。

緑色でマークされたデータは、以前のバージョンと比較してパフォーマンスが向上したことを示しています。以前のバージョンと比較してパラメータ数と計算量が削減され、APも改善されました。

クラウド GPU モデルでも、最新モデルは以前のモデルに比べて計算量とパラメータが削減されながらも、高い AP を維持できます。

YOLOv7 は速度と精度のバランスをうまく取ることができます。

既存の汎用 GPU およびモバイル GPU オブジェクト検出モデルとの比較:

YOLOv7 は、速度(FPS)と精度(AP)の両方において他の物体検出モデルよりも優れています。

例えば、入力解像度が1280の場合、YOLOv7とYOLORを比較すると、YOLOv7-W6の推論速度はYOLOR-P6よりも8fps速く、検出率も1%AP向上しています。

パフォーマンスはどのように向上しますか?

リアルタイム オブジェクト検出モデルのパフォーマンスを向上させるには、多くの場合、次の点から始めます。

1. より高速で強力なネットワーク アーキテクチャ。

2. より効果的な機能統合方法。

3. より正確な検出方法

4. より正確な損失関数

5. より効率的なラベル割り当て方法。

6. より効果的なトレーニング方法。

YOLOv7 は主に 4、5、6 から開始して、より優れたパフォーマンスの検出モデルを設計します。

まず、YOLOv7 は、Extended-ELAN (略して E-ELAN)と呼ばれる効率的な長距離注意ネットワークを拡張します。

大規模 ELAN では、勾配パスの長さやブロック数に関係なく、ネットワークは安定した状態に到達できます。

ただし、計算ブロックが無限に積み重ねられると、この安定した状態が破壊され、パラメータの使用率が低下する可能性があります。

E-ELAN はカーディナリティを拡張シャッフル、マージすることで、元の勾配パスを破壊することなくネットワークの学習能力を向上させることができます。

アーキテクチャの面では、E-ELAN は、遷移層のアーキテクチャを変更せずに、コンピューティング ブロック内のアーキテクチャのみを変更します。

E-ELAN は、元の ELAN 設計アーキテクチャを維持するだけでなく、さまざまなコンピューティング ブロックのグループをガイドして、より多様な機能を学習することもできます。

次に、YOLOv7 はカスケードベースのモデルスケーリング方式を採用します。

モデルのスケーリングとは、モデルのいくつかの属性を調整して、さまざまな推論速度のニーズを満たすさまざまなスケールのモデルを生成することを指します。

ただし、モデル スケーリングを接続ベースのアーキテクチャに適用すると、実行深度が拡大または縮小されると、接続ベースの変換レイヤーの計算ブロックが減少または増加します。

このことから、カスケードベースのモデルでは、異なるスケーリング係数を個別に分析することはできず、一緒に考慮する必要があることが推測できます。

カスケードベースのモデル スケーリング方法は、複合モデル スケーリング方法です。計算ブロックの深度係数をスケーリングするときに、ブロックの出力チャネルの変化も計算されます。

次に、遷移レイヤーは同じ幅係数でスケーリングされ、モデルの初期設計特性が保持され、最適な構造が維持されます。

論文研究では、著者らは計画的に再パラメータ化された畳み込みも設計しました。

RepConv は VGG では優れたパフォーマンスを発揮しますが、ResNet、DenseNet などのアーキテクチャに直接適用すると、精度が大幅に低下します。

これは、RepConv の直接接続(Identity 接続)によって、ResNet の残差と DenseNet の接続が破壊されるためです。

そこで本稿では、直接接続のないRepConv (RepConvN)を使用してネットワーク構造を設計します。

YOLOv7 のラベル割り当てメカニズムでは、ネットワーク予測結果とベンチマークの両方を考慮した上で、ソフトラベル(総合的に考慮して最適化されたラベル)を「ラベルアサイナー」メカニズムに割り当てる必要があります。

次のステップは、「ソフト ラベルを補助ヘッドに割り当てるべきか、それともリード ヘッドに割り当てるべきか」です。

本論文では、次の図の(d)(e)に示すように、リードヘッド予測に基づいて粗いものから細かいものまで階層的なラベルを生成する新しいラベル割り当て方法を提案しており、それぞれリードヘッドと補助ヘッドの学習に使用されます。

図 (d) では、浅い補助ヘッドがリードヘッドがすでに学習した情報を学習し、リードヘッドは学習した残りの情報にさらに集中することができます。

図 e では、粗いラベルと細かいラベルという 2 セットのソフト ラベルが生成されます。補助ヘッドは学習能力が主ヘッドほど優れていないため、学習する必要がある情報を失わないように、補助ヘッドのリコール率を最適化することに重点を置くことが重要です。

現在、YOLOv7 は正式にオープンソース化されています。ご興味のあるパートナーは、以下のリンクをクリックしてください。

<<:  脳コンピューターインターフェースでケーキを食べる

>>:  歯を磨くのが面倒ですか?マイクロロボットは自動的にそれを手伝ってくれ、いつでも歯ブラシとデンタルフロスを交換することもできます。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

機械学習でよく使われる損失関数についてどれくらい知っていますか?

機械は損失関数を通じて学習します。これは、特定のアルゴリズムが与えられたデータをどれだけ適切にモデル...

NLPとナレッジグラフの統合

この記事は、中国情報処理学会の事務局長である白碩博士が杭州金融ナレッジグラフフォーラムで行った講演を...

...

あらゆる人間の声を再現できるAI技術

ポッドキャスト業界は、よりリラックスした、自然でカジュアルなオーディオストーリーテリングへと移行して...

人工知能: ナノスケールでの細胞構造の発見

11月25日(劉亜竹)人が病気になる原因は、外部の病原性因子が細胞に作用することです。病原性因子が一...

...

5分でわかるReLU: 最も人気のある活性化関数

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

人工知能とモノのインターネットの動的な統合を探る(パート 3)

1. IoT AIによるパーソナライズされたインテリジェントなユーザーエクスペリエンスIoT の人...

蝶ネクタイボイスチェンジャーなしでも1秒でコナンになれる——音声合成+ディープラーニング

[51CTO.com からのオリジナル記事] 「名探偵コナン」を見たことがある友人なら、コナンに出て...

人工ニューラルネットワークとBPアルゴリズムについての簡単な説明

[[338555]] 【51CTO.comオリジナル記事】 1 はじめに現在、機械学習技術とも呼ばれ...

...

フォーブス誌の2020年のAIに関するトップ10予測: 人工知能はますます「疎外」されつつある!

人工知能 (AI) は間違いなく 2010 年代のテクノロジーのテーマであり、新しい 10 年が始ま...

2020年のロボットとドローンに関する7つの予測

IDCの最新予測によると、ロボットシステムとドローンへの総支出は2020年に1,287億ドルに達し、...

Google、AIが出力コンテンツの正しさを自己判断できるモデルトレーニングフレームワーク「ASPIRE」をリリース

IT Homeは1月23日、Googleが最近、大規模言語モデル向けに特別に設計されたASPIREト...

...