深度はディープニューラルネットワークに具体的に何をもたらすのでしょうか?

深度はディープニューラルネットワークに具体的に何をもたらすのでしょうか?

[[186161]]

起源

近年、人工知能は爆発的な成長を遂げており、ディープラーニングはその主な原動力であると言えます。 Microsoft Research は常にこの分野をリードしており、その優れた人材と強力なコンピューティング リソースはこの分野の研究に非常に適しているため、Microsoft でインターンシップを行い、ディープラーニングの研究を行うことができることを非常に光栄に思います。

コンピューター ビジョンの分野では、ほとんどの問題がディープ ニューラル ネットワークを使用して解決され始めており、実際に幅広い成功を収めています。画像認識、セマンティックセグメンテーション、ターゲット検出と追跡、画像検索などの多くの視覚タスクでは、CNN ネットワーク モデルが特徴抽出モデルとして重要な役割を果たすことがよくあります。多くの場合、最善の方法は基本ネットワークを交換することであり、パフォーマンスが大幅に向上します。したがって、より優れたネットワーク モデルを研究し、設計することが重要になります。

基本ネットワークモデルの構造の例

***研究の進捗

古典的なニューラル ネットワーク モデルは、主に「幅」と「深さ」の点でさまざまな程度に拡張されます。大規模データトレーニングの助けを借りて、AlexNet、VGG-16、VGG-19 などの従来のネットワークは、幅や深さのパラメータを増やすことでモデルの表現力を効果的に向上させることができます。しかし、ネットワークが深くなるにつれて、トレーニングの難易度もそれに応じて増加し、パフォーマンスの低下につながります。 ResNet や Highway Networks などの最近の手法では、Skip 構造を導入することで、非常に深いネットワークによって生じる最適化の問題を解決しようとしています。

ResNet と Highway Networks の構造の簡単な図

いくつかの研究では、Highway、ResNet、GoogLeNet などのネットワーク構造の優れたパフォーマンスを他の観点から説明しようと試みています。その中で、マイクロソフトでのインターンシップの時の指導者である研究員 Jingdong Wang、インターンの Wei Zhen と Zhang Ting、研究員 Wenjun Zeng が、Deep Fusion の概念を提唱しました (Jingdong Wang、Zhen Wei、Ting Zhang、Wenjun Zeng: Deeply-Fused Nets. CoRR abs/1605.07716 (2016))。彼らは、中間層で異なるブランチを持つネットワークを融合 (追加やスプライシングなど) すると、(1) 潜在的な共有パラメータを持つ基本ネットワークを多数生成できる、(2) 同時に情報の流れを最適化できる、(3) ディープ ネットワークのトレーニング プロセスを支援できる、と考えています。

最もシンプルな形のDeep Fusionの概念図

多くの代表的なネットワーク構造は、基本的にディープフュージョンの概念に従って理解できることがわかります。 LeNet、AlexNet、VGGNet などのシングルブランチ ネットワークに加えて、過去 2 年間に提案された ResNet、Highway Networks、GoogLeNet シリーズなどのネットワークはすべて、程度の差はあれディープ フュージョン ネットワークと見なすことができます。このコンセプトのもと、今年の新しいInception-v4、FractalNet、DenseNet、ResNeXt、そして私たちが新たに提案したMerge-and-Runネットワーク構造は、融合方法においてより多くの設計と探究を行い、結果として融合回数と中間の分岐が増え、それによってより多くの基本ネットワークとより優れた情報フローが得られ、最終的により優れたパフォーマンスが達成されることが分かりました。

最近のディープニューラルネットワークモデルの基本構造の概略図

コーネル大学のセルジュ・ベロンジーのチームも同様の観察と発見を行いました。彼らは、ResNet は実際には多くの比較的浅い潜在的ネットワークの統合であると説明しました。モデルのテスト段階では、ネットワークからいくつかのモジュールを削除した後でも、残りのネットワーク モデルのパフォーマンスが依然として良好であることがわかりました。

ResNetからいくつかのモジュールを削除する実験的なデモンストレーション

最近提案されたいくつかの新しいディープ ニューラル ネットワーク手法も、この研究を間接的に裏付けています。たとえば、ResNet with Stochastic Depth、FractalNet、Swapout などの Drop-path 手法は、残差モジュールの削除に関する上記の研究と同じ効果があります。 ResNet、ResNeXt、Multi-Residual Networks、DenseNetなど、ブランチやパスの数を増やす手法はいずれもパフォーマンスの向上を実現しており、基本ネットワークの数を増やすことがネットワークモデル全体に​​与える影響をある程度検証しています。

私たちの仕事

ディープフュージョンのアイデアに従って、ResNet、Highway、Inceptionに似た構造を持つディープフュージョンネットワークをさらに研究し、「深さ」がニューラルネットワークに何をもたらすかを探りました。研究観察と分析に基づいて、さまざまなデータ セットで優れたパフォーマンスを実現する新しいネットワーク モデルを提案しました。

Liming Zhao、Jingdong Wang、Xi Li、Zhuowen Tu、Wenjun Zeng。「ディープフュージョンとアンサンブルのつながりについて」arXiv プレプリント arXiv:1611.07718 (2016)。

1. ディープフュージョンネットワークの分析

まず、ネットワーク構造と実験分析の観点から、このマルチブランチ融合ネットワークと複数の潜在的ネットワークの統合との関係を示します。

マルチブランチ融合ネットワークの構造は、統合ネットワークの構造に似ています。

上図から、多分岐融合ネットワーク形式は、多くの潜在的ネットワークの統合プロセスを近似できることがわかります。違いは、中間情報の相互作用はありませんが、対応する層のネットワークパラメータを共有することです。深さの異なる 10 グループのネットワーク構造に関する実験を通じて、共有パラメータを持つこのような統合ネットワークのパフォーマンスは、情報相互作用を持つディープ フュージョン ネットワークのパフォーマンスと非常に似ていることがわかりました。

ディープフュージョンネットワークはアンサンブルネットワークと同様に動作する

2. 深さはネットワークにより多くのコンポーネントをもたらす

次のステップでは、統合学習のいくつかのアイデアを使用して、このタイプのディープフュージョンネットワークを分析することができます。最初のステップは、基本ネットワークの潜在的な数を調べることです。上の図で 3 回融合されたネットワークは、8 つの基本ネットワーク、つまり 2^3 を組み合わせることができることは明らかです。すると、融合の数を増やすと、基本ネットワークの組み合わせの数が増えることがわかります。 ResNet、Highway、Inception などのネットワークの場合、「深さ」を増やすことによる効果の 1 つは、潜在的な基本ネットワークの組み合わせの数 (アンサンブル サイズ) が増加することです。

融合時間が異なると、結合されたネットワーク(パス)の数が異なります。

また、異なる深さのネットワーク構造での実験を通じて、従来のアンサンブル理論でアンサンブルサイズを増やすのと同じように、組み合わせの数を増やすと全体的なパフォーマンスが向上することも確認しました。

より多くのネットワークを組み合わせることで、より良い結果が得られます

また、異なる深さのネットワーク構造での実験を通じて、結合ネットワークの数を増やすと全体的なパフォーマンスが向上することも検証しました。これは、アンサンブル サイズを増やすとパフォーマンスが向上するという従来のアンサンブル理論の結論と一致しています。 ResNet は深さを増やすにつれて組み合わせの数が大幅に増加していることがわかります。これが、優れたパフォーマンスの理由の 1 つです。

3. 深さは全体的なパフォーマンスに影響する

それぞれの基本的な組み合わせネットワークを研究し、ディープフュージョンプロセス中にそれらが互いにどのように影響するかを調べます。各ネットワークを個別にトレーニングして得られたモデルを比較すると、ディープフュージョンネットワーク内のより深い結合ネットワークのパフォーマンスは向上しましたが、より浅い結合ネットワークのパフォーマンスは低下していることがわかりました。トレーニング中は、浅いネットワークの方が収束しやすいため、より深いネットワークの最適化に役立つのではないかと仮説を立てています。しかし、ディープフュージョンネットワークのさまざまな潜在的なコンポーネントネットワークはパラメータを共有しており、非常に深いネットワークは、より浅いネットワークのソリューション空間と難易度に影響を与える可能性があり、その結果、ネットワークのパフォーマンスが互いに影響し合い、中間に向かって移動する現象が発生します。

各コンポーネントのネットワーク動作の分析

最終的なパフォーマンスは統合された近似値であると考えているため、全体的なパフォーマンスを向上させるために、より優れた組み合わせネットワークを探し始めることはできますか? 上記の組み合わせネットワーク間の相互影響から、非常に深いネットワークは「ドラッグ」効果を持ち、より深いが特に深くはない「中間」ネットワークは結果に大きな影響を与えると考えています。上図の実験結果も私たちの考えを検証しています。(a) は共有パラメータによる各コンポーネント ネットワークのパフォーマンスの変化を示し、(b) は各コンポーネント ネットワークの全体ネットワーク (アンサンブル) に対する相対的な貢献を示しています。

より深いネットワークをトレーニングするには、依然として浅いネットワークが必要であり、実際にニューラル ネットワークを設計するときに、中程度の深さのネットワーク構造のみを保持することは困難です。妥協案としては、最も深いコンポーネント ネットワークを削除し、それが結果にどのような影響を与えるかを確認することです。

最も深いコンポーネント ネットワークを削除します (再トレーニングするか、テスト時に削除するだけです)

上図の 3 つの方法の実験結果は、非常に深いコンポーネント ネットワークを削除しても全体的なパフォーマンスに大きな影響はなく、場合によっては最終結果が改善されることを示しています。

非常に深いコンポーネントネットワークを削除しても大きな影響はなく、ほとんどの場合パフォーマンスが向上します。

4番目に、新しい方法を提案する

上記の観察に基づいて、優れたネットワーク構造には、十分な数の潜在的なネットワークと十分に優れた構成ネットワークという 2 つの特性が含まれている必要があると考えます。最も単純な戦略は、「ドラッグ」の極端に深いネットワークを削除し、「中間」の深いコンポーネント ネットワークに変換することです。私たちが提案したアプローチは次のとおりです。

ResNetの形式に基づいて、新しいネットワーク構造(b)と(c)を提案する。

ResNet 形式に基づいて、私たちが提案した Inception-Like 構造と Merge-and-Run 構造はどちらも極端に深い線を取り除きますが、Inception-Like の組み合わせの数は、同じパラメータを持つ ResNet よりも少なくなります。したがって、Merge-and-Run 形式の方が私たちの分析と観察に一致していると考えています。最終的な実験結果は確かにこの考えを検証し、上記の実験観察と一致していました。Inception-Like は極端に深いネットワークの影響を受けず、トレーニングや収束が容易で、ResNet よりもわずかに優れており、これは上記の Ensemble-7 と Ensemble-8 の実験結果と同様です。 Merge-and-Run 構造には Inception-Like よりも多くの潜在的なネットワークがあり、最終結果も Inception-Like よりも優れています。

異なるデータセットでの ResNet、Inception-Like、Merge-and-Run の比較

ImageNet の結果は、以前の議論を裏付けるものでもあります (私たちの方法は DFN-MR で表されます)。

ImageNetデータセットにおける提案DFN-MRとResNetの比較

V. 結論

現在、研究のホットスポットとなっているのは、ディープ ニューラル ネットワークに新しい次元、つまり潜在的な構成ネットワークの数 (アンサンブル サイズ) を導入することです。 ResNet、Highway、Inception などのネットワークでは「深さ」が増しますが、実際にはネットワークの数も増えることがわかります。さらに、私たちの研究では、潜在的なネットワークの数が増えるだけでなく、非常に深いネットワークが全体的なパフォーマンスに与える寄与は絶対的ではないことがわかりました。代わりに、ネットワークの他のコンポーネントに影響を与え、最終結果に影響を及ぼします。私たちは、「構成ネットワークの数を減らさない」と「極端に深い構成ネットワークを避ける」という 2 つの原則に基づいて新しいネットワーク構造を設計し、さまざまなデータ セットで常に優れたパフォーマンスを発揮することを発見しました。以降の作業では、現在の分析内容に焦点を当て、提案された設計指標と原則を最適化し、トレーニングが容易でパフォーマンスの優れたネットワーク モデルを取得できます。

<<:  AIのブラックボックス問題をどう解決するか?ニューラルネットワークモデルアルゴリズムが答えを導きます

>>:  人工知能は「新たな生産要素」である

ブログ    
ブログ    

推薦する

AIスタートアップの構築から得た3つの重要な教訓

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

AppleがAI研究成果を公開、マルチモーダルLLMモデルFerretをリリース

IT Homeは12月25日、Appleがコロンビア大学の研究者らと協力して2023年10月にオープ...

...

7つの部門:AI、IoTなどの技術を活用し、廃家電リサイクル・処理のインテリジェント化を推進

近年、人工知能などの新世代情報技術や5Gなどの新世代通信技術の急速な発展に伴い、あらゆる分野で科学技...

北京、自動運転路上試験の新規則を発表、有人試験も可能に

最近、北京市交通委員会は新たに改訂された「北京市自動運転車両路上試験管理実施規則(試行)」を発行し、...

人工知能と自然言語処理技術

人工知能技術の発展に伴い、コンピューターを使って外国の文書を翻訳するなど、私たちの生活の多くのアプリ...

AIが研究者に歴史の匂いを再現する手助けをする方法

欧州連合は、AIを使って歴史的な香りや嗅覚要素を再現することを計画している研究チームに280万ユーロ...

2021年10月のドローン業界の最新動向を3分で振り返る

現在、人工知能や5Gなどの技術の助けを借りて、我が国のドローン開発は急速な成長の軌道に乗っています。...

ポートレート効果はこのように使用できますか? Baidu Brain Open Day が 4 つのシナリオで AI ポートレート特殊効果機能を公開

9月25日、北京市中関村の百度ブレインイノベーション体験センターで、百度ブレインオープンデーのポート...

...

...

2021 年の人工知能と自動化のトレンド

[[430280]]特にリモートワークの増加と労働力不足により従来の労働パターンが変化する中、多くの...

低速自動運転と高速自動運転に関する議論

前回の記事「自動運転車に「道路を認識」させる方法」では、主に自動運転車における高精度地図の重要性につ...

ファインマン・ラプソディ:体内に入ることができる「外科医」

1959年、ノーベル物理学賞受賞者のリチャード・ファインマンは、カリフォルニア工科大学での「体の底...