論文アドレス: https://arxiv.org/abs/1705.07038 この論文では、ディープニューラルネットワークにおける集団リスクの収束挙動とその定常点および特性を理論的に分析することにより、ディープラーニングにおける経験的リスクの全容を研究します。 L 層の線形ニューラル ネットワークの場合、その経験的リスクは、トレーニング サンプル サイズ n およびレートで母集団リスクに均一に収束することを証明します。ここで、d は合計重み次元、r は各層の重みの大きさの範囲です。次に、この結果に基づいて経験的リスクの安定性と一般化の境界を導出します。さらに、経験的リスク勾配と集団リスク勾配の収束一貫性を確立します。また、非退化定常点と収束を伴う経験的リスクと集団リスクの対応関係も証明し、ディープ ニューラル ネットワーク アルゴリズムの全体的な状況を説明しています。さらに、シグモイド関数を活性化関数として使用して、深層非線形ニューラルネットワークの特性も分析しました。深層非線形ニューラルネットワークの経験的リスク勾配の収束挙動は線形のものと同じであることを示し、またそれらの非退化定常点の特性を分析します。 私たちの知る限り、この研究はディープラーニングアルゴリズムの全体像を理論的に説明した初めての研究です。さらに、私たちの結果は、十分に訓練された深層学習アルゴリズムを訓練するためのサンプルの複雑さを提供します。また、ニューラル ネットワークの深さ L、レイヤーの幅、ネットワーク サイズ d、およびパラメーターの大きさがニューラル ネットワークのランドスケープをどのように決定するかについての理論的な理解も提供します。 1. はじめに ディープラーニングアルゴリズムは、コンピュータービジョン[1, 2, 3]、自然言語処理[4, 5]、音声認識[6, 7]など多くの分野で目覚ましい成果を上げています。しかし、非凸性が高く、本質的に複雑なため、これらのディープラーニングアルゴリズムの特性に関する理論的な理解は、実際の成果にまだ遅れをとっています。実際、ディープラーニング アルゴリズムは、経験的リスクを最小限に抑えることでモデル パラメータを学習することがよくあります。したがって、私たちは、ディープラーニング アルゴリズムの実際のパフォーマンスをより深く理解するために、ディープラーニング アルゴリズムの実証的なリスク状況を分析することを目指しています。 正式には、L 層 (L ≥ 2) で構成され、一般的に使用される二乗損失関数 (未知の分布 D からのサンプル) を最小化することによってトレーニングされるディープ ニューラル ネットワーク モデルを検討します。理想的には、ディープラーニングアルゴリズムはグループリスクを最小化することで最適なパラメータ w∗ を見つけることができます。 ここでwはモデルパラメータであり、 この式は、分布 D に従うサンプル x の二乗損失関数です。ここでv(l)はレイヤーlの出力であり、yはサンプルxのターゲット出力です。実際には、サンプル分布Dは不明であることが多く、Dからのトレーニングサンプルx(i)は限られているため、ネットワークモデルは経験的リスクを最小化することによってトレーニングされることが多いです。 本研究では、グループリスク J(w) とその定常点および特性への経験的リスクの収束を分析することにより、多層線形および非線形ニューラルネットワークの両方に対する深層学習アルゴリズムの経験的リスクの包括的な図を説明します。 2. 文献レビュー 今のところ、ディープラーニングを説明できる理論はいくつかあり、大まかに3つのカテゴリーに分けられます。
しかし、ディープラーニングアルゴリズムの経験的リスクの全体像を分析した研究はありません。 3. 深層線形ニューラルネットワークの研究成果 まず、深層線形ニューラル ネットワークにおける経験的リスクと集団リスクの均一収束を証明します。この証明に基づいて、安定性と一般化の境界を導出します。次に、経験的勾配と人口勾配の間の一貫した収束保証を提案し、経験的リスクの非退化定常点の特性を分析します。 この論文の解析では、入力データ x は τ^2 サブガウス分布に従い、仮定 1 で説明したように制限された大きさを持つと仮定します。 仮定 1. 入力データの平均は 0 で、τ^2 サブガウス分布に従います。したがってxは さらに、x の L2 ノルムは次を満たします (x の大きさは制限されます)。 ここで、rx は正の普遍定数です。 3.1 経験的リスクの一貫した収束、安定性、一般化 定理 1 は、深層線形ニューラル ネットワークの経験的リスクに対して均一な収束結果を確立します。 定理 1: ディープニューラルネットワークにおける仮定 1 の入力データ x の活性化関数は線形であると仮定します。すると、次の2つの普遍定数cf′とcfが存在する。 すると、次のものが存在します: この不等式の信頼水準は少なくとも1 − εです。ここで、l はニューラル ネットワーク層の数、n はサンプル サイズ、dl は最後の層の次元サイズです。 3.2 勾配の一貫した収束 このセクションでは、深層線形ニューラル ネットワークの経験的リスクとグループ リスクの勾配収束を分析します。勾配収束の結果は、ニューラル ネットワーク アルゴリズムの全体像を描くのに非常に効果的です。結果は以下に記載されています。 定理2: ディープニューラルネットワークにおける仮定1の入力データxの活性化関数が線形であると仮定する。経験的リスク勾配は、L2 ノルム (ユークリッド ノルム) で人口リスク勾配に収束します。特に、 cg' が普遍定数である場合、次を満たす普遍定数 cg が存在します。 この不等式の信頼水準は少なくとも1 − εであり、ここで 3.3 静止点の一貫した収束 ここでは、ディープラーニングアルゴリズムの経験的リスクを最適化する際の定常点の特性を分析します。簡単にするために、幾何学的に孤立しており、したがって局所的に一意である非退化の定常点を使用します。 4. 深層非線形ニューラルネットワークの結果 上記のセクションでは、深層線形ニューラル ネットワーク モデルの経験的リスク最適化の状況を分析しました。このセクションでは、シグモイド活性化関数を使用し、実際にはより一般的な深層非線形ニューラル ネットワークの分析を続けます。私たちの分析手法は、tanh 関数など、収束率が異なる他の 3 次微分可能関数にも適用されることは注目に値します。ここでは、入力データが iid ガウス変数であると仮定します。 4.1 一貫した収束、経験的リスクの安定性、一般化 このセクションでは、まず経験的リスクの一貫した収束分析を行い、次にその安定性と一般化を分析します。 定理4. 入力サンプルxが仮定2に従い、ディープニューラルネットワークの活性化関数がシグモイド関数であると仮定すると、 すると、次のような普遍定数 cy が存在します。 この不等式の信頼水準は少なくとも1−εであり、ここで 4.2 勾配と定常点の一貫した収束 このセクションでは、深層非線形ニューラル ネットワークの経験的リスクの勾配収束特性を分析します。 定理5 入力サンプルxが仮定2に従い、ディープニューラルネットワークの活性化関数がシグモイド関数であると仮定します。次に、経験的リスクの勾配は、L2 ノルム (ユークリッド ノルム) の形式でグループ リスクの勾配に均一に収束します。特に、 ここで、cy' は定数です。 この不等式の信頼水準は少なくとも1 − εであり、cy、cd、crは定理4と同じパラメータです。 6. 証明の概要 このセクションでは証明プロセスを簡単に紹介しますが、スペースの制限により、定理 1 から 6、系 1 と 2、および技術的な補題は補足資料で示します。 7. 結論 本研究では、経験的リスク自体の一貫性、収束、安定性、一般化、およびその勾配と定常点の特性など、深層線形/非線形ニューラルネットワークを使用した経験的リスク最適化の状況の理論的分析を提供します。経験的リスクから集団リスクへの収束率は であることを証明します。これらの結果は、ニューラル ネットワークの深さ (層の数)、ネットワークのサイズと幅が収束率に非常に重要であることも明らかにしています。また、重みパラメータの大きさが収束速度に重要な役割を果たすことも示します。実際には、少数の重みを使用することをお勧めします。すべての結果は、実際に広く使用されているネットワーク アーキテクチャとよく一致しています。 [この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です] この著者の他の記事を読むにはここをクリックしてください |
<<: スマートコミュニティはどれくらい「スマート」なのでしょうか?知能の背後にある技術的応用を解釈する
導入世界的に有名なコンサルティング会社であるアクセンチュアは最近、AI がもたらす産業革新がもたらす...
[[184240]]ここ数か月間、データサイエンスの世界にチャレンジして、機械学習の技術を使って統...
インテリジェントな注文発送システムをゼロから構築するように依頼され、1 日の注文数が 40 万件だと...
2020年、疫病による経済的、社会的不確実性にもかかわらず、人工知能技術は加速的に発展し続けました...
このテーマについて、人工知能の起源と発展、その一般原理、不安を避ける方法、そして時代に追いつく方法な...
COVID-19 は世界中の人々の日常生活のあり方を変えましたが、実店舗ほどその影響を痛切に感じてい...
[[415316]]海外メディアの報道によると、オーストラリアの裁判所は、特許出願において人工知能...
水曜日、英国、米国、中国(および欧州連合)を含む約30カ国がAI安全サミットで初の世界的なAI安全合...
「私は今、Miqu が Perplexity Labs の Mistral-Medium と同じモデ...
AI は真面目な仕事しかできないなんて誰が言ったのでしょうか? Google は最近、顔を見ながら生...
近年、テキストから画像への変換の分野は、特に AIGC (人工知能生成コンテンツ) の時代において大...