ResNet仮説は覆されたか？ Redditの人：長年誰もその原理を理解していなかった

[[429626]]

2015 年に、画期的なニューラルネットワークモデル ResNet がリリースされました。深すぎるネットワークをトレーニングすると、勾配消失や勾配爆発が発生し、深すぎるネットワークの精度が低下します。RestNet は残差接続を使用するため、研究者は数百、数千のレイヤーを持つネットワークを簡単にトレーニングできます。

ResNet の論文で観察された劣化の問題は、トレーニングプロセス全体を通じて 34 層ネットワークのトレーニングエラーが 18 層ネットワークよりも高いが、18 層ネットワークのソリューション空間は明らかに 34 層ネットワークのサブ空間であるということです。

この問題は、RNN ネットワークで観察される勾配消失問題と同じであるというのが自然な仮定であり、これは Long-Short Term Memory Networks (LSTM) の主な改善点でもあります。

しかし、論文の著者であるKaiming氏は当時はそうは考えていなかった。彼は論文の中でこう書いている。

「これらのバニラニューラルネットワークは BN を使用してトレーニングされており、前方伝播信号の分散がゼロでないことを確認することでこの問題を軽減できるため、この最適化の難しさは勾配消失によって引き起こされる可能性は低いと考えています。また、バックプロパゲーションの勾配も検証しましたが、結果は BN を示す結果も正常であることを示しています。したがって、前方信号も後方信号も消えません。34 層のバニラネットワークが依然として競争力のある精度を達成できるという事実は、このソリューションがある程度有効であることを示しています。バニラニューラルネットワークの収束速度は指数関数的に遅く、トレーニングエラーの削減に影響している可能性があると推測しています。この最適化の難しさの原因は、今後調査される予定です。」

この議論はネットユーザーから「ResNet仮説」とも呼ばれており、ResNet仮説の正しさは最近Redditで白熱した議論を引き起こしています。

質問者は、最近の多くの論文やチュートリアルでは ResNet の仮定が間違っていると想定しているようであり、論文の著者は主に「勾配伝播フローを改善する」ためにスキップ接続を追加し、この主張を裏付けるために元の ResNet 論文を引用していると主張しています。スキップ接続を追加すると勾配フローが改善されるのは当然ですが、そもそも何が劣化の原因となるのかという疑問は未だに解決されていません。

スキップ接続が勾配フローを改善することで劣化問題を解決するという考えは、ResNet 仮説と明らかに矛盾しているように思われますが、この考えはどこから来たのでしょうか? ResNet仮説は誤りであると証明されたのでしょうか?

一部のネットユーザーは、技術的な観点から完全な分析は存在しないと考えています。ResNet の動作については 3 つの競合する仮説があり、関連する論文が示されています。

1. 反復的な改良

この論文では、ResNet を分析的および実証的に研究します。研究者らは、残差接続が残差ブロックの特徴を、あるブロックから次のブロックに進むにつれて損失の負の勾配に沿って移動するように自然に促すことを示して、ResNet における反復改良の概念を形式化しました。

さらに、経験的分析により、ResNet は表現学習と反復最適化が可能であることが実証されています。通常、Resnet ブロックは最初の数層に表現学習動作を集中させる傾向があり、上位層では機能の反復的な改良を実行します。

最後に、研究者らは、残差層を共有すると表現爆発と直感に反する過剰適合につながる可能性があることを観察し、この問題を軽減するための簡単な戦略を提案しました。

2. 指数アンサンブルモデル

この研究では、残差ネットワークの新しい解釈が提案されています。このモデルは、長さの異なる多数のパスのモデルの集合として見ることができます。さらに、残差ネットワークは、トレーニング中に短いパスのみを利用することで、非常に深いネットワークを可能にするようです。この観察を裏付けるために、研究者らは残差ネットワークを明示的なパスの集合として書き換えます。

結果は、これらの経路がアンサンブルのような動作を示し、強い相互依存性がないことを示しています。また、ほとんどのパスは予想よりも短く、長いパスは勾配に寄与しないため、トレーニング中は短いパスのみが必要になります。

たとえば、110 層の残差ネットワークの勾配のほとんどは、深さが 10 ～ 34 層のパスから生成されます。この論文の結果は、非常に深いネットワークのトレーニングを可能にする Resnet の重要な機能の 1 つは、残差ネットワークが、非常に深いネットワーク内で勾配を伝達できる短いパスを導入することによって勾配消失問題を回避することであると示唆しています。

3. 勾配伝播プロセスは元の論文で述べられているように改良された。

ニューラルタンジェントカーネルについてもいくつか見たことがありますが、なぜそれが機能するのかまだ理解できていません。また、実際に腰を据えて本当の説明を考えようとした人はいないと思います。

しかし、彼は、アンサンブル論文で定義されている最大多重度を持つ、重複するスキップ接続を持つネットワークを検討することによって、アンサンブル理論をテストするというアイデアを思いつきました。多重度を一定に保ちながらスキップ接続の長さを変えることも可能ですが、これに関する実験はまだ誰も行っていません。

他に試すことができるのは、スキップ接続なしで Resnet の勾配フローを完璧にすることですが、これらのほとんどは、ユーザーが残差接続を追加すると完璧ではなくなるため、完璧な勾配伝播を実現する新しい方法を考えなければなりません。

もう一人の高く評価されているネットユーザーは、ショートカット接続により損失状況が改善され、最適化が容易になり、これを裏付ける研究結果が多数あると述べました。

「崩壊した勾配問題: ResNet が答えなら、問題は何か?」(ICML 2017) では、ResNet の方が勾配が安定していることを示しています。

ニューラルネットの損失ランドスケープの視覚化 (NeurIPS 2018) では、ResNet の損失表面がより滑らかであることが再び示されています。

近道を使わずに効果的な表現を学習することは可能であるが、最適化はより困難になることを示す研究もあります。たとえば、「Fixup Initialization: Residual Learning without Normalization (ICLR 2019)」では、初期化を数回微調整すると、残差接続なしで ResNet をトレーニングして適切な結果を得ることができることが示されています。

RepVGG: Making VGG-style ConvNets Great Again (CVPR 2021) では、トレーニング後にショートカットを削除しても、パフォーマンスの高いネットワークを維持できることが示されています。

しかし、これは依然として ResNet の本来の考え方と一致しています。つまり、各ブロックを識別関数に初期化し、最初はパラメーターが実際には存在せず、ネットワークのトレーニングに影響を与えないように見えますが、その後、徐々にブロックの効果が有効になります。

一部のネットユーザーは、タイトルの文言は本当に不正確だと考えている。なぜなら、debunkedはResnetを直接エラーと判断することと同じだからだ。質問者も、確かにクリックベイトだが、タイトルは変えられないと述べた。

<<: スタートアップ企業がAIと患者チップを組み合わせて医薬品開発を加速

>>: 偽3Dシーンがリアルすぎるとネット上で人気に！死角ゼロの1億画素超え、AIレンダリングの新たな高みと称賛

ResNet仮説は覆されたか？ Redditの人：長年誰もその原理を理解していなかった

90 年代以降の技術オタクと彼の代替検索エンジン Magi

自動運転の 6 つのレベル: 真の無人運転までどれくらいの距離があるのでしょうか?

GPT+Copilotを使えば、Rustの学習はすぐに始まります

ディープラーニングパーセプトロンの原理の詳しい説明

MITの科学者が数時間でロボットヒトデを作る新システムを設計

快手AIハッカソンは「AIの名の下に」みんなの幸福を向上させるために終了しました

推薦する

未来は人工知能の時代であり、さらに Python の時代です。

AIとMLでドキュメントを自動化する方法

知能ロボット技術の応用と開発動向

知能ロボットの主要技術：製造分野の知能化を推進

米国の委員会は「道徳的義務」を理由にAI兵器の開発を禁止すべきではないと勧告した。

清華大学の博士研究員が、AlphaCode の背後にある技術的原理を 10 分かけて説明しました。プログラマーはそう簡単に置き換えられるものではないことがわかりました。

ディープラーニングとマシンビジョンの重要性を分析！ロボットを自由にさせる？

2021年中国の人工知能産業市場規模とサブ産業の市場予測分析

トランプ大統領、米国の製造業の発展にロボット活用を視野に