2015 年に、画期的なニューラル ネットワーク モデル ResNet がリリースされました。深すぎるネットワークをトレーニングすると、勾配消失や勾配爆発が発生し、深すぎるネットワークの精度が低下します。RestNet は残差接続を使用するため、研究者は数百、数千のレイヤーを持つネットワークを簡単にトレーニングできます。 ResNet の論文で観察された劣化の問題は、トレーニング プロセス全体を通じて 34 層ネットワークのトレーニング エラーが 18 層ネットワークよりも高いが、18 層ネットワークのソリューション空間は明らかに 34 層ネットワークのサブ空間であるということです。 この問題は、RNN ネットワークで観察される勾配消失問題と同じであるというのが自然な仮定であり、これは Long-Short Term Memory Networks (LSTM) の主な改善点でもあります。 しかし、論文の著者であるKaiming氏は当時はそうは考えていなかった。彼は論文の中でこう書いている。 「これらのバニラ ニューラル ネットワークは BN を使用してトレーニングされており、前方伝播信号の分散がゼロでないことを確認することでこの問題を軽減できるため、この最適化の難しさは勾配消失によって引き起こされる可能性は低いと考えています。また、バックプロパゲーションの勾配も検証しましたが、結果は BN を示す結果も正常であることを示しています。したがって、前方信号も後方信号も消えません。34 層のバニラ ネットワークが依然として競争力のある精度を達成できるという事実は、このソリューションがある程度有効であることを示しています。バニラ ニューラル ネットワークの収束速度は指数関数的に遅く、トレーニング エラーの削減に影響している可能性があると推測しています。この最適化の難しさの原因は、今後調査される予定です。」 この議論はネットユーザーから「ResNet仮説」とも呼ばれており、ResNet仮説の正しさは最近Redditで白熱した議論を引き起こしています。 質問者は、最近の多くの論文やチュートリアルでは ResNet の仮定が間違っていると想定しているようであり、論文の著者は主に「勾配伝播フローを改善する」ためにスキップ接続を追加し、この主張を裏付けるために元の ResNet 論文を引用していると主張しています。スキップ接続を追加すると勾配フローが改善されるのは当然ですが、そもそも何が劣化の原因となるのかという疑問は未だに解決されていません。 スキップ接続が勾配フローを改善することで劣化問題を解決するという考えは、ResNet 仮説と明らかに矛盾しているように思われますが、この考えはどこから来たのでしょうか? ResNet仮説は誤りであると証明されたのでしょうか? 一部のネットユーザーは、技術的な観点から完全な分析は存在しないと考えています。ResNet の動作については 3 つの競合する仮説があり、関連する論文が示されています。 1. 反復的な改良 この論文では、ResNet を分析的および実証的に研究します。研究者らは、残差接続が残差ブロックの特徴を、あるブロックから次のブロックに進むにつれて損失の負の勾配に沿って移動するように自然に促すことを示して、ResNet における反復改良の概念を形式化しました。 さらに、経験的分析により、ResNet は表現学習と反復最適化が可能であることが実証されています。通常、Resnet ブロックは最初の数層に表現学習動作を集中させる傾向があり、上位層では機能の反復的な改良を実行します。 最後に、研究者らは、残差層を共有すると表現爆発と直感に反する過剰適合につながる可能性があることを観察し、この問題を軽減するための簡単な戦略を提案しました。 2. 指数アンサンブルモデル この研究では、残差ネットワークの新しい解釈が提案されています。このモデルは、長さの異なる多数のパスのモデルの集合として見ることができます。さらに、残差ネットワークは、トレーニング中に短いパスのみを利用することで、非常に深いネットワークを可能にするようです。この観察を裏付けるために、研究者らは残差ネットワークを明示的なパスの集合として書き換えます。 結果は、これらの経路がアンサンブルのような動作を示し、強い相互依存性がないことを示しています。また、ほとんどのパスは予想よりも短く、長いパスは勾配に寄与しないため、トレーニング中は短いパスのみが必要になります。 たとえば、110 層の残差ネットワークの勾配のほとんどは、深さが 10 ~ 34 層のパスから生成されます。この論文の結果は、非常に深いネットワークのトレーニングを可能にする Resnet の重要な機能の 1 つは、残差ネットワークが、非常に深いネットワーク内で勾配を伝達できる短いパスを導入することによって勾配消失問題を回避することであると示唆しています。 3. 勾配伝播プロセスは元の論文で述べられているように改良された。 ニューラル タンジェント カーネルについてもいくつか見たことがありますが、なぜそれが機能するのかまだ理解できていません。また、実際に腰を据えて本当の説明を考えようとした人はいないと思います。 しかし、彼は、アンサンブル論文で定義されている最大多重度を持つ、重複するスキップ接続を持つネットワークを検討することによって、アンサンブル理論をテストするというアイデアを思いつきました。多重度を一定に保ちながらスキップ接続の長さを変えることも可能ですが、これに関する実験はまだ誰も行っていません。 他に試すことができるのは、スキップ接続なしで Resnet の勾配フローを完璧にすることですが、これらのほとんどは、ユーザーが残差接続を追加すると完璧ではなくなるため、完璧な勾配伝播を実現する新しい方法を考えなければなりません。 もう一人の高く評価されているネットユーザーは、ショートカット接続により損失状況が改善され、最適化が容易になり、これを裏付ける研究結果が多数あると述べました。 「崩壊した勾配問題: ResNet が答えなら、問題は何か?」(ICML 2017) では、ResNet の方が勾配が安定していることを示しています。 ニューラル ネットの損失ランドスケープの視覚化 (NeurIPS 2018) では、ResNet の損失表面がより滑らかであることが再び示されています。 近道を使わずに効果的な表現を学習することは可能であるが、最適化はより困難になることを示す研究もあります。たとえば、「Fixup Initialization: Residual Learning without Normalization (ICLR 2019)」では、初期化を数回微調整すると、残差接続なしで ResNet をトレーニングして適切な結果を得ることができることが示されています。 RepVGG: Making VGG-style ConvNets Great Again (CVPR 2021) では、トレーニング後にショートカットを削除しても、パフォーマンスの高いネットワークを維持できることが示されています。 しかし、これは依然として ResNet の本来の考え方と一致しています。つまり、各ブロックを識別関数に初期化し、最初はパラメーターが実際には存在せず、ネットワークのトレーニングに影響を与えないように見えますが、その後、徐々にブロックの効果が有効になります。 一部のネットユーザーは、タイトルの文言は本当に不正確だと考えている。なぜなら、debunkedはResnetを直接エラーと判断することと同じだからだ。質問者も、確かにクリックベイトだが、タイトルは変えられないと述べた。 |
<<: スタートアップ企業がAIと患者チップを組み合わせて医薬品開発を加速
>>: 偽3Dシーンがリアルすぎるとネット上で人気に!死角ゼロの1億画素超え、AIレンダリングの新たな高みと称賛
あらゆるものがデータと自動化によって駆動される現代の世界では、人工知能はますます一般的になりつつあり...
[[437266]]私たち一人ひとりは、人生において、「今夜何を食べるか」「明日はどこに遊びに行くか...
人工知能(AI)とは、人間の知能をシミュレート、拡張、拡大するための理論、方法、技術、アプリケーショ...
最近、トロント大学、MIT、Waabi AIの研究者らがCVPR 2023の論文で新しい自動運転シミ...
[[427319]] 01 データデータは、携帯電話に残すデジタルフットプリントから健康記録、買い物...
2014年、日本のソフトバンクモバイルストアに新たな仲間が加わった。それは、人の表情や声のトーンを...
わが国の著名な学者である周海中氏は、1990年代に「科学技術の進歩により、人工知能の時代が到来しよう...
AI が洞察を導き出し、意思決定を行う方法は謎に包まれていることが多く、機械学習の信頼性について懸...
最近、プリンストン大学の学部生であるアリス・シューさんが卒業論文でプリンストン2020年度優秀卒業論...