ResNet仮説は覆されたか? Redditの人:長年誰もその原理を理解していなかった

ResNet仮説は覆されたか? Redditの人:長年誰もその原理を理解していなかった

  [[429626]]

2015 年に、画期的なニューラル ネットワーク モデル ResNet がリリースされました。深すぎるネットワークをトレーニングすると、勾配消失や勾配爆発が発生し、深すぎるネットワークの精度が低下します。RestNet は残差接続を使用するため、研究者は数百、数千のレイヤーを持つネットワークを簡単にトレーニングできます。

ResNet の論文で観察された劣化の問題は、トレーニング プロセス全体を通じて 34 層ネットワークのトレーニング エラーが 18 層ネットワークよりも高いが、18 層ネットワークのソリューション空間は明らかに 34 層ネットワークのサブ空間であるということです。

この問題は、RNN ネットワークで観察される勾配消失問題と同じであるというのが自然な仮定であり、これは Long-Short Term Memory Networks (LSTM) の主な改善点でもあります。

しかし、論文の著者であるKaiming氏は当時はそうは考えていなかった。彼は論文の中でこう書いている。

「これらのバニラ ニューラル ネットワークは BN を使用してトレーニングされており、前方伝播信号の分散がゼロでないことを確認することでこの問題を軽減できるため、この最適化の難しさは勾配消失によって引き起こされる可能性は低いと考えています。また、バックプロパゲーションの勾配も検証しましたが、結果は BN を示す結果も正常であることを示しています。したがって、前方信号も後方信号も消えません。34 層のバニラ ネットワークが依然として競争力のある精度を達成できるという事実は、このソリューションがある程度有効であることを示しています。バニラ ニューラル ネットワークの収束速度は指数関数的に遅く、トレーニング エラーの削減に影響している可能性があると推測しています。この最適化の難しさの原因は、今後調査される予定です。」

この議論はネットユーザーから「ResNet仮説」とも呼ばれており、ResNet仮説の正しさは最近Redditで白熱した議論を引き起こしています。

質問者は、最近の多くの論文やチュートリアルでは ResNet の仮定が間違っていると想定しているようであり、論文の著者は主に「勾配伝播フローを改善する」ためにスキップ接続を追加し、この主張を裏付けるために元の ResNet 論文を引用していると主張しています。スキップ接続を追加すると勾配フローが改善されるのは当然ですが、そもそも何が劣化の原因となるのかという疑問は未だに解決されていません。

スキップ接続が勾配フローを改善することで劣化問題を解決するという考えは、ResNet 仮説と明らかに矛盾しているように思われますが、この考えはどこから来たのでしょうか? ResNet仮説は誤りであると証明されたのでしょうか?

一部のネットユーザーは、技術的な観点から完全な分析は存在しないと考えています。ResNet の動作については 3 つの競合する仮説があり、関連する論文が示されています。

1. 反復的な改良

この論文では、ResNet を分析的および実証的に研究します。研究者らは、残差接続が残差ブロックの特徴を、あるブロックから次のブロックに進むにつれて損失の負の勾配に沿って移動するように自然に促すことを示して、ResNet における反復改良の概念を形式化しました。

さらに、経験的分析により、ResNet は表現学習と反復最適化が可能であることが実証されています。通常、Resnet ブロックは最初の数層に表現学習動作を集中させる傾向があり、上位層では機能の反復的な改良を実行します。

最後に、研究者らは、残差層を共有すると表現爆発と直感に反する過剰適合につながる可能性があることを観察し、この問題を軽減するための簡単な戦略を提案しました。

2. 指数アンサンブルモデル

この研究では、残差ネットワークの新しい解釈が提案されています。このモデルは、長さの異なる多数のパスのモデルの集合として見ることができます。さらに、残差ネットワークは、トレーニング中に短いパスのみを利用することで、非常に深いネットワークを可能にするようです。この観察を裏付けるために、研究者らは残差ネットワークを明示的なパスの集合として書き換えます。

結果は、これらの経路がアンサンブルのような動作を示し、強い相互依存性がないことを示しています。また、ほとんどのパスは予想よりも短く、長いパスは勾配に寄与しないため、トレーニング中は短いパスのみが必要になります。

たとえば、110 層の残差ネットワークの勾配のほとんどは、深さが 10 ~ 34 層のパスから生成されます。この論文の結果は、非常に深いネットワークのトレーニングを可能にする Resnet の重要な機能の 1 つは、残差ネットワークが、非常に深いネットワーク内で勾配を伝達できる短いパスを導入することによって勾配消失問題を回避することであると示唆しています。

3. 勾配伝播プロセスは元の論文で述べられているように改良された。

ニューラル タンジェント カーネルについてもいくつか見たことがありますが、なぜそれが機能するのかまだ理解できていません。また、実際に腰を据えて本当の説明を考えようとした人はいないと思います。

しかし、彼は、アンサンブル論文で定義されている最大多重度を持つ、重複するスキップ接続を持つネットワークを検討することによって、アンサンブル理論をテストするというアイデアを思いつきました。多重度を一定に保ちながらスキップ接続の長さを変えることも可能ですが、これに関する実験はまだ誰も行っていません。

他に試すことができるのは、スキップ接続なしで Resnet の勾配フローを完璧にすることですが、これらのほとんどは、ユーザーが残差接続を追加すると完璧ではなくなるため、完璧な勾配伝播を実現する新しい方法を考えなければなりません。

もう一人の高く評価されているネットユーザーは、ショートカット接続により損失状況が改善され、最適化が容易になり、これを裏付ける研究結果が多数あると述べました。

「崩壊した勾配問題: ResNet が答えなら、問題は何か?」(ICML 2017) では、ResNet の方が勾配が安定していることを示しています。

ニューラル ネットの損失ランドスケープの視覚化 (NeurIPS 2018) では、ResNet の損失表面がより滑らかであることが再び示されています。

近道を使わずに効果的な表現を学習することは可能であるが、最適化はより困難になることを示す研究もあります。たとえば、「Fixup Initialization: Residual Learning without Normalization (ICLR 2019)」では、初期化を数回微調整すると、残差接続なしで ResNet をトレーニングして適切な結果を得ることができることが示されています。

RepVGG: Making VGG-style ConvNets Great Again (CVPR 2021) では、トレーニング後にショートカットを削除しても、パフォーマンスの高いネットワークを維持できることが示されています。

しかし、これは依然として ResNet の本来の考え方と一致しています。つまり、各ブロックを識別関数に初期化し、最初はパラメーターが実際には存在せず、ネットワークのトレーニングに影響を与えないように見えますが、その後、徐々にブロックの効果が有効になります。

一部のネットユーザーは、タイトルの文言は本当に不正確だと考えている。なぜなら、debunkedはResnetを直接エラーと判断することと同じだからだ。質問者も、確かにクリックベイトだが、タイトルは変えられないと述べた。

<<:  スタートアップ企業がAIと患者チップを組み合わせて医薬品開発を加速

>>:  偽3Dシーンがリアルすぎるとネット上で人気に!死角ゼロの1億画素超え、AIレンダリングの新たな高みと称賛

ブログ    

推薦する

【ビッグコーヒーがやってくるエピソード5】ビッグデータミドルプラットフォームの構築方法

今回、「ビッグネームがやってくる」のライブ放送にゲストとして参加したのは、iResearch CTO...

Baiduの王海峰氏はオープンソースのディープラーニングプラットフォームPaddlePaddleを2019年のソフトウェアエキスポに導入した。

「ディープラーニングフレームワークは、インテリジェント時代のオペレーティングシステムです。百度のP...

CreditEase の R&D ディレクター、張振氏: 運用・保守ロボットのタスク決定システムの進化

[51CTO.comより引用] 2018年5月18日〜19日、51CTO主催のグローバルソフトウェア...

AIの未来: 汎用人工知能

人工知能を真に理解するために、研究者は、環境に対する人間のような理解を再現できる基礎的な AGI 技...

ザッカーバーグがマスクの家を盗んだ! MetaはTwitterの混乱を利用して競合製品を急いで発売し、明後日発売される予定だ。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

データセンターから発電所まで: 人工知能がエネルギー利用に与える影響

人工知能 (AI) は急速に現代生活に欠かせないものとなり、産業を変革し、私たちの生活、仕事、コミュ...

...

MWC2018が開催間近、人工知能が焦点に

人工知能はバブルを抜け出し、徐々に細分化された分野に入り込み、繁栄し始めており、近年ではCESやMW...

...

Huawei Cloud TechWave人工知能スペシャルデーでは、インテリジェントプロセスロボットが効率的に動作する方法を紹介します

新興テクノロジーは何千もの業界に影響を及ぼしています。近年、AI+自動化はますます多くの企業や組織で...

...