「非ディープネットワーク」12 層が 50 層に勝つ、プリンストン + インテル: 深い方が必ずしも良いわけではない

[[432431]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

「ディープ」はディープニューラルネットワーク（DNN）のキーワードです。しかし、ネットワークが深くなるほど、トレーニング中のバックプロパゲーションチェーンが長くなり、推論中の連続計算ステップが増え、レイテンシが高くなります。

深さが十分でない場合、ニューラルネットワークのパフォーマンスが低下することがよくあります。

こうなると、次のような疑問が生じます。高性能な「非ディープ」ニューラルネットワークを構築することは可能なのでしょうか?

プリンストン大学とインテルの新しい論文は、それが実際に可能であることを証明しています。

彼らは、12 層ネットワークParNetのみを使用して、ImageNet で SOTA に近いパフォーマンスを達成しました。

ParNet は、ImageNet で 80% 以上の精度、CIFAR10 で 96% 以上の精度、CIFAR100 でトップ 1 の精度 81% を達成しています。また、MS-COCO で 48% の AP を達成しています。

ネットワークが非常に「浅い」場合、どのようにそれを実行するのでしょうか?

並列サブネットはパフォーマンスを向上します

ParNet における重要な設計上の選択は、並列サブネットワークの使用です。レイヤーを順番に配置するのではなく、並列サブネットワークに配置します。

ParNet は、異なる解像度で機能を処理する並列サブ構造で構成されています。これらの並列サブ構造をストリームと呼びます。異なるストリームからの機能はネットワークの後の段階で融合され、これらの融合された機能は下流のタスクに使用されます。

ParNet では、著者は VGG スタイルのブロックを使用します。ただし、非ディープネットワークの場合、3×3 畳み込みの受容フィールドは比較的制限されます。

この問題に対処するために、著者らは Squeeze-and-Excitation 設計に基づいて Skip-Squeeze-Excitation (SSE) レイヤーを構築しました。 SSE モジュールを使用して変更された Rep-VGG は、Rep VGG-SSE と呼ばれます。

ImageNet などの大規模なデータセットの場合、非深層ネットワークでは非線形性が十分でない場合があり、その表現機能が制限される可能性があります。そのため、著者らはReLUをSiLU活性化関数に置き換えました。

同じサイズの RepVGG-SSE ブロックの入力と出力に加えて、ParNet にはダウンサンプリングブロックと融合ブロックも含まれています。

モジュールは解像度を下げて幅を広げ、マルチスケール処理を可能にします。一方、融合ブロックは複数の解像度からの情報を組み合わせ、推論中のレイテンシを削減するのに役立ちます。

浅い深度で高いパフォーマンスを実現するために、著者らは幅、解像度、ストリーム数を増やすことで ParNet を拡張しました。

著者らは、ムーアの法則が減速するにつれてプロセッサ周波数の増加の余地が限られるため、並列コンピューティングはニューラルネットワークがより高速な推論を実現するのに役立つだろうと述べている。並列構造の非深層ネットワーク ParNet には、この点で利点があります。

実際のパフォーマンスはどうですか?

ImageNet データセットでは、ParNet は Top-1 と Top-5 の両方で SOTA のパフォーマンスに近い値を示します。

MS-COCO タスクでは、ParNet は最小のレイテンシで最高のパフォーマンスを実現します。

しかし、層数が少ないにもかかわらずネットワーク幅が広くなるため、「非深層ネットワーク」の実際のパフォーマンスに疑問を抱く人もいます。実際、ParNetはより深いResNet50よりもパラメータが多く、あまり説得力がないようです。

しかし、著者は、「非ディープ」ネットワークは複数の GPU によるより高度な並列コンピューティングを活用できるとも述べています。

最後に、ParNet GitHub ページがセットアップされ、コードはまもなくオープンソース化される予定です。

>>: メタバースと自動運転車のどちらが先に来るでしょうか?

ブログ

「非ディープネットワーク」12 層が 50 層に勝つ、プリンストン + インテル: 深い方が必ずしも良いわけではない

並列サブネットはパフォーマンスを向上します

実際のパフォーマンスはどうですか?

壁につかまることを学んだロボット：私を落とすことはできない

自動運転と安全性の「距離」

DeepMindは「Transformerは事前学習データを超えて一般化できない」と指摘しているが、疑問視する人もいる。

具現化された知能の新時代！ VLAは、UIナビゲーションとロボット操作を備えた最強の基本モデルMagmaを歓迎します

Meta CTO との独占インタビュー: AI はすでに XR のキラーアプリケーションであり、LLM オープンソースコミュニティの競争には敗者なし

光害を拒否し、AIがスマートシティの交通安全構築を推進

脳とコンピューターのインターフェースのための新しい「接着剤」が発明され、人間と機械の融合「サイボーグ」における新たな進歩がもたらされる

自動運転車が保険業界に与える影響

推薦する

Googleは機械学習ベースのDDoS攻撃防御をテスト中

AI は山ほどのコードも作成します!調査によると、GitHub Copilot のコードは保守性が低く、リファクタリングや既存コードの再利用よりも「無意識の書き換え」を好む傾向があることがわかった。

人工知能は「馴染みのものを殺す」ツールになるのでしょうか？

2019 年に TensorFlow は王座から退いたのでしょうか?

NLPの年間進捗状況は年に1回まとめられています。2021年の研究のホットスポットは何でしょうか?

人工知能に適した9つのプログラミング言語

機械学習の運用はクラウドコンピューティングの運用には適していない

AI専門家の周明氏が軽量な「孟子モデル」を作成し、オープンソース化しました！ 10億のパラメータでCLUEリストの3位に到達

知っておくべき人工知能アルゴリズムトップ 10

トランスフォーマーペーパー「重要なアップデート」！ 8人全員が辞職し、Googleは『Attention Is All You Need』の著者全員のメールアドレスを削除した。

気温を下げて干ばつを緩和するブラックテクノロジーが多数存在します。人工降雨の謎とは？

第 5 のインテリジェント運転認識技術を深く掘り下げて、低照度シーン認識の問題点を解決し、大量生産を実現し、コストを低く抑えるにはどうすればよいでしょうか。

「Google版SORA」はぼやけたグラフィックで嘲笑されたが、世界シミュレーターとして新たな一歩を踏み出した。

Stack Overflow が ChatGPT に対抗し、VS Code と連携する独自開発の生成 AI ツールをリリース

Google の AI 覇権を解決する別の方法は?開発プラットフォームのエコシステム包囲