深さはディープ ニューラル ネットワークの鍵となりますが、深さが増すと、順次計算が増え、待ち時間も長くなります。これにより、「高性能な「非ディープ」ニューラル ネットワークを構築することは可能か?」という疑問が生じます。 最近、プリンストン大学とインテルラボによる研究により、この見解の実現可能性が実証されました。この研究では、サブネットワークを層ごとに積み重ねるのではなく、並列サブネットワークを使用することで、高いパフォーマンスを維持しながら深さを効果的に削減するのに役立ちます。 論文アドレス: https://arxiv.org/abs/2110.07641 この研究では、並列サブ構造を活用することで、深さがわずか 12 のネットワークでも、ImageNet で 80% を超えるトップ 1 精度、CIFAR10 で 96% を超えるトップ 1 精度、CIFAR100 で 81% を超えるトップ 1 精度を達成できることが初めて示されました。この研究では、低深度のバックボーン ネットワークを備えたモデルが MS-COCO で 48% の AP を達成できることも示されました。研究者らはこの設計のスケーリングルールを分析し、ネットワークの深さを変えずにパフォーマンスを向上させる方法を示しています。最後に、研究者らは、非深層ネットワークを使用して低遅延の認識システムを構築する方法についての概念実証を提供します。 方法この研究では、深さは浅いものの、複数のベンチマークで高いパフォーマンスを実現するネットワーク アーキテクチャ ParNet を提案しました。ParNet は、異なる解像度の特徴を処理する並列サブ構造で構成されています。これらの並列サブ構造はストリームと呼ばれ、異なるストリームの機能はネットワークの後の段階で融合され、融合された機能は下流のタスクに使用されます。図 2a は ParNet の概略図を示しています。 図2 パーネットブロックParNet では VGG スタイルのブロックが使用されています (Simonyan & Zisserman、2015)。非深層ネットワークが高性能を達成できるかどうかを調べるために、この研究では実験を通じて、VGG スタイルのブロックが ResNet スタイルのブロックよりも適していることを発見しました (下の表 8 を参照)。一般的に、VGG スタイルのネットワークのトレーニングは ResNet よりも困難です (He et al.、2016a)。ただし、最近の研究では、「構造再パラメータ化」手法 (Ding et al.、2021) を使用すると、VGG スタイルのブロックのトレーニングが容易になることが示されています。 この研究では、トレーニング中に 3×3 畳み込みブロック上の複数のブランチを使用しました。トレーニング後、複数のブランチを 3×3 畳み込みブロックに融合できます。したがって、最終的には 3×3 ブロックと非線形性のみで構成される単純なネットワークになります。このブロックの再パラメータ化または融合は、推論中のレイテンシを削減するのに役立ちます。 ダウンサンプリングと融合ブロック同じ入力サイズと出力サイズを持つ RepVGG-SSE ブロックに加えて、ParNet にはダウンサンプリング ブロックと融合ブロックも含まれています。ダウンサンプリング ブロックは解像度を下げて幅を広げ、マルチスケール処理を実現します。一方、フュージョン ブロックは複数の解像度からの情報を組み合わせます。ダウンサンプリング ブロックにはスキップ接続はありません。代わりに、この研究では畳み込み層と並列に単層 SE モジュールを追加します。 さらに、この研究では、1×1畳み込みブランチに2D平均プーリングを追加しました。融合ブロックはダウンサンプリング ブロックに似ていますが、追加の連結レイヤーが含まれています。連結により、融合ブロックの入力チャネル数はダウンサンプリング ブロックの 2 倍になります。パラメータの数を減らすために、本研究のダウンサンプリングおよび融合ブロックの設計を下図に示します。 ネットワークアーキテクチャ図 2a は、ImageNet データセットに使用される ParNet モデルの概略図を示しています。初期レイヤーは一連のダウンサンプリング ブロックで構成され、ダウンサンプリング ブロック 2、3、4 の出力はそれぞれストリーム 1、2、3 に送られます。研究者らは、与えられたパラメータ予算に対して最適なストリーム数は 3 であることを発見しました (表 10 を参照)。各ストリームは、さまざまな解像度で機能を処理する一連の RepVGG-SSE ブロックで構成されます。次に、異なるストリームからの機能は、連結を使用して融合ブロックによって融合されます。最後に、出力は深度 11 のダウンサンプリング ブロックに渡されます。 RepVGG(Ding et al.、2021)と同様に、この研究では最後のダウンサンプリング レイヤーに広い幅を使用しています。 ParNet の拡張ニューラル ネットワークは、ネットワークのサイズを大きくすることで、より高い精度を実現できることがわかっています。以前の研究 (Tan & Le, 2019) では、幅、解像度、深さが拡大されました。この研究の目的は、より低い深度で高いパフォーマンスを達成できるかどうかを評価することであるため、研究者はモデルの深度を変更せずに、幅、解像度、ストリーム数を増やすことで ParNet を拡張しました。 CIFAR10 および CIFAR100 の場合、解像度を 32、ストリーム数を 3 に維持しながら、ネットワークの幅を拡大しました。 ImageNet については、以下の図 3 に示すように、3 つの異なる次元で実験が行われました。 並列アーキテクチャの実用的な利点現在、5 ナノメートルのリソグラフィー プロセスは 0.5 ナノメートルのシリコン サイズに近づいており、プロセッサ周波数をさらに向上させる余地は限られています。つまり、ニューラル ネットワークの推論を高速化するには、計算の並列化に依存する必要があります。単一のモノリシック GPU のパフォーマンスの向上も鈍化しており、従来のリソグラフィで達成可能な最大チップ サイズは 800 平方ミリメートルに達すると予想されています (Arunkumar 他、2017)。一般的に、プロセッサ周波数、チップ サイズ、プロセッサあたりのトランジスタ数は、将来も安定したままになります。 この問題に対処するために、最近のいくつかの研究では、実現可能な最大のモノリシック GPU よりも高速なマルチチップ モジュール GPU (MCM-GPU) が提案されています。大型チップを中型チップに置き換えることで、シリコンコストの削減が期待されます。このようなチップ設計は、限られたデータを交換し、可能な限り独立して実行する並列ブランチによるパーティショニングアルゴリズムに役立ちます。これらの要因に基づくと、特に将来のハードウェアでは、非深い並列構造が高速推論の実現に役立ちます。 実験結果 表 1 は、ImageNet における ParNet のパフォーマンスを示しています。調査の結果、深さがわずか 12 のネットワークでも驚くほど高いパフォーマンスを達成できることがわかりました。 ResNet との公平な比較を行うために、研究者らは同じトレーニング プロトコルとデータ拡張を使用して ResNet を再トレーニングし、ResNet のパフォーマンスを公式結果を超えるレベルまで向上させました。注目すべきことに、この研究では、ParNet-S は、パラメータ数が少ない (1900 万対 2200 万) にもかかわらず、ResNet34 よりも 1 パーセント ポイント以上精度が高いことがわかりました。 ParNet は、ボトルネック設計により、深度を 1/4 ~ 1/8 に削減しながら、ResNet と同等のパフォーマンスを実現します。 下の表 2 に示すように、ParNet は精度と速度において ResNet を上回っていますが、パラメーターとフロップも多くなっています。たとえば、ParNet-L は ResNet34 や ResNet50 よりも高速で、優れた精度を実現します。同様に、ParNet-XL は ResNet50 よりも高速で優れた精度を実現しますが、パラメーターとフロップスが多くなります。これは、ResNet の代わりに ParNet を使用する場合、速度とパラメーターおよびフロップの間にトレードオフがあることを示しています。 GPU 上に分散できる並列サブ構造を利用することで高速化が実現できることに注意してください。 この研究では、ParNet の 3 つのバリエーション (非融合、融合、マルチ GPU) の速度をテストし、結果を以下の表 3 に示します。融合されていないバリアントは、RepVGG-SSE ブロック内の 3×3 および 1×1 ブランチで構成されます。融合バリアントでは、構造再パラメータ化トリックを使用して、3×3 ブランチと 1×1 ブランチが 1 つの 3×3 ブランチにマージされます。この研究では、融合型と非融合型の両方のバリアントで推論に単一の GPU を使用しましたが、マルチ GPU バリアントでは 3 つの GPU が使用されました。マルチ GPU バリアントの場合、各ストリームは個別の GPU で起動されます。 1 つのストリーム内のすべてのレイヤーが処理されると、隣接する 2 つのストリームの結果が連結され、GPU の 1 つでさらに処理されます。 GPU 間でデータを転送するために、この研究では PyTorch の NCCL バックエンドを使用しました。 調査の結果、通信のオーバーヘッドにもかかわらず、ParNet は GPU 間で効果的に並列化され、推論が高速化されることがわかりました。専用のハードウェアを使用することで、通信の遅延を減らし、さらに高速化を実現できます。 表 5 は、高解像度の画像の使用、より長いトレーニング期間 (200 エポック、コサイン アニーリング)、10 クロップ テストなど、ParNet のパフォーマンスを向上させる他の方法を示しています。この研究は、ImageNet などの大規模データセットで非深層モデルが達成できる精度を評価するのに役立ちます。 MS-COCO (Lin et al., 2014) は、一般的なオブジェクトを含む日常的なシーンの画像を含むオブジェクト検出データセットです。研究者らは、COCO-2017データセットを使用してモデルを評価した。下の表 4 に示すように、ParNet は単一の GPU でもベースラインよりも高い速度を実現します。これにより、非深層ネットワークを使用して高速な物体検出システムを作成する方法が明らかになります。 表 6 は、CIFAR10 および CIFAR100 におけるさまざまなネットワークのパフォーマンスをまとめたものです。 アブレーション実験ResNet の深さを単純に減らして広くすることが可能かどうかをテストするために、研究者は ResNet12-Wide、ResNet14-Wide-BN、ResNet12-Wide-SSE という 3 つの ResNet バリアントをテストしました。 ResNet12-Wide は深さ 12 の ResNet ベース ブロックを使用し、ResNet14-Wide-BN は深さ 14 の ResNet ボトルネック ブロックを使用します。表 7 は、データ拡張、SSE ブロック、SiLU アクティベーション関数の使用を含む、さまざまなネットワーク アーキテクチャとトレーニング プロトコルの設計に関するアブレーション研究の結果を示しています。 表 10 では、研究者はパラメータの総数は同じだが、ブランチの数が異なる (1、2、3、4) ネットワークを評価しました。実験では、パラメータ数が固定されている場合、3 つのブランチを持つネットワークの精度が最も高く、ネットワーク解像度がそれぞれ 224 x 224 と 320 x 320 の両方の場合に最適であることが示されています。 ネットワーク並列化のもう 1 つのアプローチは、複数のネットワークのアンサンブルを作成することです。したがって、この研究では、ParNet と統合ネットワークを比較します。下の表 9 に示すように、パラメータが少ない場合、ParNet はアンサンブル ネットワークよりも優れたパフォーマンスを発揮します。 |
<<: 人工知能には関連する専門家の参加も必要です!これはより良く、より速くなります
>>: 初心者向けガイド: Numpy、Keras、PyTorch を使用した単純な線形回帰
人口密度が高く、重要な施設が多数存在する都市では、破壊的な地震が発生すると壊滅的な結果をもたらすこと...
研究によると、人工知能技術はサイバーセキュリティの脅威やデータ侵害を防ぐ上で非常に重要です。人工知能...
[[437828]]今日は、Google の自動運転車 Waymo がどのようにそれを実現するかを見...
[[349592]]最近、百度などの企業が自動運転タクシーを導入し、社会的注目を集めています。交通運...
ロンドン大学ユニバーシティ・カレッジの新しい報告書は、人工知能が犯罪テロに悪用される可能性を指摘して...
「機械学習」、「人工知能」、「ディープラーニング」という 3 つの用語は混同されることが多いですが、...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
北京、12月30日:インテリジェントな要素がエッジに向かって動いています。データ収集速度が向上するに...
農業は国民の衣食住の問題を解決する鍵であり、国民経済の発展を促進する重要な基盤でもあります。我が国は...
[[226531]]人工知能の発展において、人材の確保は間違いなく重要な鍵となります。人工知能は、...
[[272601]] 1. 対称暗号化アルゴリズムの概要対称暗号化アルゴリズムは、成熟した技術を備...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
この機能はまだ正式にはオープンしていませんが、海外メディアはすでに先行体験する機会を得ています!結果...