近年、ディープニューラルネットワークは多くの科学技術上の問題において優れたパフォーマンスを達成していますが、その優れた一般化パフォーマンスと堅牢性については十分な理論的説明が不足しています。ディープニューラルネットワークは非凸かつ非滑らかな性質を持つため、一般的な理論的枠組みを提案することは困難です。この場合、ディープネットワークの基本的な特性を維持し、数学的観点から厳密な分析を提供できる近似モデルを可能な限り見つけるにはどうすればよいでしょうか。 論文アドレス: https://www.pnas.org/content/118/43/e2103091118 最近、ペンシルバニア大学の研究チームが、米国科学アカデミー紀要[1]のトップジャーナルに論文を発表し、層間の「剥離」の解析モデルを提案し、上記の問題に対する新しいアプローチを提供しました。このモデルは、ニューラル ネットワークの強力な表現力に基づいて、ネットワークのいくつかのレイヤーを全体として捉え、その出力機能をネットワーク トレーニング プロセスに適応できる最適化変数と見なします。ネットワーク トレーニングにおける機能と後続のレイヤー パラメータ間の相互作用に重点を置いています。特に、ネットワークの最後の層だけを取り除くと、ニューラル ネットワークは次の形式に簡略化されます。 図1 層間剥離モデルの数学的表現。 この新しい分析的視点の応用として、この論文では、米国科学アカデミーの会員であるデイビッド・ドノホ氏とそのチームが昨年提唱した神経崩壊現象[2]に対する厳密な数学的説明を提供している。ニューラル コラプスとは、ディープ ニューラル ネットワークのトレーニング プロセスの最終段階で、異なるクラスのトレーニング サンプルの数のバランスが取れている場合に、ネットワークの最後の層の分類子と出力機能がそれぞれ、単体等角タイト フレームと呼ばれる特殊な幾何学的構造を形成し、互いに結合される特殊な現象を指します。この幾何学的構造では、異なるクラスの特徴と分類器の間の角度が最大値に達し、異なるクラスが互いに混同されにくくなります。したがって、ニューラル崩壊現象は、ディープニューラルネットワークが優れた一般化と堅牢性を備えている理由を説明しており、ディープラーニングの優れたパフォーマンスを理解する上で大きな意義があります。 図2は、ニューラル崩壊現象の図です。赤い棒は最終層の分類器の方向、青い棒は最終層の特徴の平均値の方向、青いボールは最終層の特徴ベクトル、緑のボールは単純な等角タイトフレームの方向を表しています。左から右に、ネットワークのトレーニングのプロセスを表しています。トレーニングが進むにつれて、ネットワークの最終層の特徴と分類器が徐々に単純な等角タイトフレームの方向に収束していくことがわかります。 本論文では、前述の層間剥離モデルに基づいて、異なるクラスのトレーニングサンプルの数のバランスが取れている場合のニューラル崩壊現象のグローバル最適性を証明し、ニューラル崩壊現象がディープニューラルネットワークに広く存在する理由を理論的に明らかにしています。さらに、この論文では、異なるクラスのトレーニング サンプルの数が不均衡な場合の層間剥離モデルを検討し、理論分析から新しい現象である少数派崩壊を発見しています。非平衡崩壊とは、トレーニング サンプルの一部のクラスの数が多く、他のクラスの数が少ない場合、ニューラル崩壊内の対称性の高い単純な等角タイト フレーム構造が破壊され、サンプル数の多いクラスが損失関数で支配的な位置を占めるため、対応する最終層の特徴と分類器が互いに大きな角度を形成できる一方で、サンプル数の少ないクラスは互いに圧迫され、サンプル数の割合が減少するにつれてそれらの間の角度が減少することを指摘しています。この論文では、非平衡崩壊現象を厳密な数学的特徴付けを行い、多数の実験を通じてこの現象の存在を検証しています。実験結果は理論値と厳密に一致しています。非平衡崩壊は、信頼できる AI にディープラーニング ツールを使用すると不公平が生じる可能性があることを示唆しています。注目すべきことに、この発見は、深層学習において理論的分析によって完全に予測された数少ない発見の 1 つです。この研究は、ペンシルバニア大学のWeijie Su氏と彼のチームのFang Cong氏、He Hangfeng氏らによって行われた。注目すべきは、ファン・コン博士が最近中国に戻り、北京大学の知能科学部で教鞭を執っていることである。 図3は、ディープニューラルネットワークにおける非平衡崩壊現象を示しています。横軸Rはクラス間のサンプル数の比を表し、縦軸はサンプル数の少ないクラスの最終層特徴間の方向のコサイン値を表しています。 R が 1 から無限大に増加するにつれて、サンプル数が少ないこれらのクラスの特徴は、ニューラル コラプスにおけるそれらの間の角度を最大化する方向から同じ方向に徐々に圧縮されることがわかります。 4 つの図 ABCD は、それぞれ Fashion-MNIST データセットと CIFAR10 データセットに対する 2 つのネットワーク構造 (VGG と ResNet) の結果です。 トレーニング サンプルの不均衡によって引き起こされる公平性の問題は、長い間、機械学習の分野における重要な問題の 1 つでした。この問題を軽減するために一般的に使用される方法は、主に再サンプリングと再重み付けです。論文では、研究者らは層間剥離モデルを通じてこれら 2 つの方法の有効性を理論的に保証しました。論文では、再サンプリングと再重み付けの技術を使用することで、ディープ ニューラル ネットワークの対称性を完全に復元でき、ニューラル コラプスにおける分類子と異なるクラスの機能間の角度を最大化する単純な等角タイト フレーム構造が再び現れることを数学的に厳密に証明し、これら 2 つの技術がネットワークの一般化パフォーマンスを大幅に向上できる理由を説明しています。 図 4 ネットワークの最後の層の対称性を復元するリサンプリング技術の効果。再サンプリング比率がクラス間のサンプル数の比率に徐々に近づくにつれて、データセットの不均衡によって引き起こされた対称性の損傷が再サンプリングによって徐々に修復され、最終的に 2 つの比率が等しくなると、ニューラル崩壊の幾何学的構造が完全に再現されることがわかります。 4 つの図 ABCD は、それぞれ Fashion-MNIST データセットと CIFAR10 データセットに対する 2 つのネットワーク構造 (VGG と ResNet) の結果です。 図 5. 再サンプリングと元のトレーニング間の一般化パフォーマンスの比較。さまざまな条件下で、リサンプリング技術によってネットワークの一般化パフォーマンスが大幅に向上したことがわかります。 その後の研究では、北京大学数学部の学部生であるJi WenlongがSu Weijie教授の指導の下で論文を完成させ、層間剥離モデルに基づいてニューラル崩壊現象をさらに分析しました[3]。この論文では、制約のない層間剥離モデルを提案し、特徴とパラメータに対する制約を取り除き、より現実的な条件下でのネットワークトレーニングにおけるパラメータの漸近的挙動を研究しました。本論文では、ニューラル崩壊現象の出現とニューラルネットワークの暗黙的正則化の関係を指摘し、この非凸問題におけるネットワーク損失関数の幾何学的地形と勾配降下法のトレーニング過程を厳密に特徴づけ、勾配降下法がニューラル崩壊の幾何学的構造に収束する仕組みをより正確に説明しています。 層間剥離モデルは、一般的かつ強力な分析手法として、多くのディープラーニングの理論的問題に対する新しいモジュール式および剥離型の研究パラダイムを提案します。さらなる研究の方向性としては、多層層間剥離モデルを使用してニューラル ネットワークをより正確に記述する方法などがあります。この場合、より強い対称性の結果が得られるでしょうか?ニューラルネットワークのトレーニングと一般化を層間剥離モデルの考慮にどのように組み込むのでしょうか?このモデルは、情報ボトルネック、暗黙的正則化、局所弾力性などの他の一般的な深層学習理論に対して、どのような新しい視点を提供するのでしょうか?近い将来、層間剥離モデルからさらに興味深い結果が得られると信じています。 参考文献 [1] Cong Fang、Hangfeng He、Qi Long、Weijie J. Su。「レイヤーピールモデルによるディープニューラルネットワークの探索:不均衡なトレーニングにおける少数派の崩壊」米国科学アカデミー紀要118、第43号(2021年)。 [2] Vardan Papyan、XY Han、David L. Donoho。「ディープラーニングトレーニングの最終段階における神経崩壊の発生率」米国科学アカデミー紀要117、第40号(2020年):24652-24663。 [3] Wenlong Ji、Yiping Lu、Yiliang Zhang、Zhun Deng、Weijie J. Su。「ニューラルコラプスに関する制約のないレイヤーピールの観点」arXivプレプリントarXiv:2110.02796(2021)。 |
<<: Uni-TTS音声合成モデルのアップグレード:1つの音声、複数の言語、高忠実度、高効率
>>: 2022 年のソフトウェア開発に関する 5 つの予測
[[421481]]この記事はWeChatの公開アカウント「Pythonとビッグデータ分析」から転載...
[[345310]]企業価値AI業界の専門家であるジョン・ミカエリス氏は、「AIを活用する企業は、よ...
現在、人工知能は独立に向けて動き始めています。世界中の企業はこの学際的な分野に適応し、ほぼすべてのビ...
マイクロソフトは11月15日、Google DeepMindのAlphaZeroにヒントを得て、コン...
非常にリアルで正確に制御可能な 3 次元の顔のモデリングは、デジタル ヒューマン構築における重要な課...
太陽の光、美しさ、ビーチ、他に何が思い浮かびますか?写真にボストンのロボット犬がいると言ったら、想像...
[51CTO.com からのオリジナル記事] インターネットの継続的な更新と反復により、ネットワーク...
近年、サプライチェーンおよび物流業界は、労働力不足から予測不可能な天候、需給の変化まで、ますます多く...
自動車業界から大きな注目を集めるアポロオープンプラットフォームは、新たな量産時代を迎えました。 7月...
[[257901]]まとめ明らかに、中国における人工知能に関する誇大宣伝は、当初の意図から逸脱してい...
これは間違いなく、生成 AI の進歩における画期的な出来事です。深夜、Runway の象徴的な AI...
MITの研究者らが、指の爪ほどの小さなドローン用コンピューターチップを設計6月21日、Venture...
Forrester は 2021 年の技術予測シリーズを発表しましたが、その中にはエッジ コンピュー...