ディープラーニングアルゴリズムの全貌：その正しさを理論的に証明する

論文アドレス: https://arxiv.org/abs/1705.07038

この論文では、ディープニューラルネットワークにおける集団リスクの収束挙動とその定常点および特性を理論的に分析することにより、ディープラーニングにおける経験的リスクの全容を研究します。 L 層の線形ニューラルネットワークの場合、その経験的リスクは、トレーニングサンプルサイズ n およびレートで母集団リスクに均一に収束することを証明します。ここで、d は合計重み次元、r は各層の重みの大きさの範囲です。次に、この結果に基づいて経験的リスクの安定性と一般化の境界を導出します。さらに、経験的リスク勾配と集団リスク勾配の収束一貫性を確立します。また、非退化定常点と収束を伴う経験的リスクと集団リスクの対応関係も証明し、ディープニューラルネットワークアルゴリズムの全体的な状況を説明しています。さらに、シグモイド関数を活性化関数として使用して、深層非線形ニューラルネットワークの特性も分析しました。深層非線形ニューラルネットワークの経験的リスク勾配の収束挙動は線形のものと同じであることを示し、またそれらの非退化定常点の特性を分析します。

私たちの知る限り、この研究はディープラーニングアルゴリズムの全体像を理論的に説明した初めての研究です。さらに、私たちの結果は、十分に訓練された深層学習アルゴリズムを訓練するためのサンプルの複雑さを提供します。また、ニューラルネットワークの深さ L、レイヤーの幅、ネットワークサイズ d、およびパラメーターの大きさがニューラルネットワークのランドスケープをどのように決定するかについての理論的な理解も提供します。

1. はじめに

ディープラーニングアルゴリズムは、コンピュータービジョン[1, 2, 3]、自然言語処理[4, 5]、音声認識[6, 7]など多くの分野で目覚ましい成果を上げています。しかし、非凸性が高く、本質的に複雑なため、これらのディープラーニングアルゴリズムの特性に関する理論的な理解は、実際の成果にまだ遅れをとっています。実際、ディープラーニングアルゴリズムは、経験的リスクを最小限に抑えることでモデルパラメータを学習することがよくあります。したがって、私たちは、ディープラーニングアルゴリズムの実際のパフォーマンスをより深く理解するために、ディープラーニングアルゴリズムの実証的なリスク状況を分析することを目指しています。

正式には、L 層 (L ≥ 2) で構成され、一般的に使用される二乗損失関数 (未知の分布 D からのサンプル) を最小化することによってトレーニングされるディープニューラルネットワークモデルを検討します。理想的には、ディープラーニングアルゴリズムはグループリスクを最小化することで最適なパラメータ w∗ を見つけることができます。

ここでwはモデルパラメータであり、

この式は、分布 D に従うサンプル x の二乗損失関数です。ここでv(l)はレイヤーlの出力であり、yはサンプルxのターゲット出力です。実際には、サンプル分布Dは不明であることが多く、Dからのトレーニングサンプルx(i)は限られているため、ネットワークモデルは経験的リスクを最小化することによってトレーニングされることが多いです。

本研究では、グループリスク J(w) とその定常点および特性への経験的リスクの収束を分析することにより、多層線形および非線形ニューラルネットワークの両方に対する深層学習アルゴリズムの経験的リスクの包括的な図を説明します。

2. 文献レビュー

今のところ、ディープラーニングを説明できる理論はいくつかあり、大まかに3つのカテゴリーに分けられます。

***クラスはディープラーニングのトレーニングエラーを分析することを目的としています。
2番目の研究カテゴリ[13, 14, 9, 15]は、定常点の分布など、深層学習における高度に非凸な損失関数の損失面を解析することに専念しています。
3 番目のカテゴリは、分析の難易度を軽減するために問題をより小さな部分に分解しようとする最近の研究です。

しかし、ディープラーニングアルゴリズムの経験的リスクの全体像を分析した研究はありません。

3. 深層線形ニューラルネットワークの研究成果

まず、深層線形ニューラルネットワークにおける経験的リスクと集団リスクの均一収束を証明します。この証明に基づいて、安定性と一般化の境界を導出します。次に、経験的勾配と人口勾配の間の一貫した収束保証を提案し、経験的リスクの非退化定常点の特性を分析します。

この論文の解析では、入力データ x は τ^2 サブガウス分布に従い、仮定 1 で説明したように制限された大きさを持つと仮定します。

仮定 1. 入力データの平均は 0 で、τ^2 サブガウス分布に従います。したがってxは

さらに、x の L2 ノルムは次を満たします (x の大きさは制限されます)。

ここで、rx は正の普遍定数です。

3.1 経験的リスクの一貫した収束、安定性、一般化

定理 1 は、深層線形ニューラルネットワークの経験的リスクに対して均一な収束結果を確立します。

定理 1: ディープニューラルネットワークにおける仮定 1 の入力データ x の活性化関数は線形であると仮定します。すると、次の2つの普遍定数cf′とcfが存在する。

すると、次のものが存在します:

この不等式の信頼水準は少なくとも1 − εです。ここで、l はニューラルネットワーク層の数、n はサンプルサイズ、dl は最後の層の次元サイズです。

3.2 勾配の一貫した収束

このセクションでは、深層線形ニューラルネットワークの経験的リスクとグループリスクの勾配収束を分析します。勾配収束の結果は、ニューラルネットワークアルゴリズムの全体像を描くのに非常に効果的です。結果は以下に記載されています。

定理2: ディープニューラルネットワークにおける仮定1の入力データxの活性化関数が線形であると仮定する。経験的リスク勾配は、L2 ノルム (ユークリッドノルム) で人口リスク勾配に収束します。特に、

cg' が普遍定数である場合、次を満たす普遍定数 cg が存在します。

この不等式の信頼水準は少なくとも1 − εであり、ここで

3.3 静止点の一貫した収束

ここでは、ディープラーニングアルゴリズムの経験的リスクを最適化する際の定常点の特性を分析します。簡単にするために、幾何学的に孤立しており、したがって局所的に一意である非退化の定常点を使用します。

4. 深層非線形ニューラルネットワークの結果

上記のセクションでは、深層線形ニューラルネットワークモデルの経験的リスク最適化の状況を分析しました。このセクションでは、シグモイド活性化関数を使用し、実際にはより一般的な深層非線形ニューラルネットワークの分析を続けます。私たちの分析手法は、tanh 関数など、収束率が異なる他の 3 次微分可能関数にも適用されることは注目に値します。ここでは、入力データが iid ガウス変数であると仮定します。

4.1 一貫した収束、経験的リスクの安定性、一般化

このセクションでは、まず経験的リスクの一貫した収束分析を行い、次にその安定性と一般化を分析します。

定理4. 入力サンプルxが仮定2に従い、ディープニューラルネットワークの活性化関数がシグモイド関数であると仮定すると、

すると、次のような普遍定数 cy が存在します。

この不等式の信頼水準は少なくとも1−εであり、ここで

4.2 勾配と定常点の一貫した収束

このセクションでは、深層非線形ニューラルネットワークの経験的リスクの勾配収束特性を分析します。

定理5 入力サンプルxが仮定2に従い、ディープニューラルネットワークの活性化関数がシグモイド関数であると仮定します。次に、経験的リスクの勾配は、L2 ノルム (ユークリッドノルム) の形式でグループリスクの勾配に均一に収束します。特に、

ここで、cy' は定数です。

この不等式の信頼水準は少なくとも1 − εであり、cy、cd、crは定理4と同じパラメータです。

6. 証明の概要

このセクションでは証明プロセスを簡単に紹介しますが、スペースの制限により、定理 1 から 6、系 1 と 2、および技術的な補題は補足資料で示します。

7. 結論

本研究では、経験的リスク自体の一貫性、収束、安定性、一般化、およびその勾配と定常点の特性など、深層線形/非線形ニューラルネットワークを使用した経験的リスク最適化の状況の理論的分析を提供します。経験的リスクから集団リスクへの収束率はであることを証明します。これらの結果は、ニューラルネットワークの深さ (層の数)、ネットワークのサイズと幅が収束率に非常に重要であることも明らかにしています。また、重みパラメータの大きさが収束速度に重要な役割を果たすことも示します。実際には、少数の重みを使用することをお勧めします。すべての結果は、実際に広く使用されているネットワークアーキテクチャとよく一致しています。

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: スマートコミュニティはどれくらい「スマート」なのでしょうか?知能の背後にある技術的応用を解釈する

>>: 2017年人工知能に関する消費者意識調査

顔認識が再び禁止される：プライバシーと偏見をめぐる論争は続く米国の別の州が顔認識ソフトウェアを禁止

ディープラーニングアルゴリズムの全貌：その正しさを理論的に証明する

顔認識が再び禁止される：プライバシーと偏見をめぐる論争は続く米国の別の州が顔認識ソフトウェアを禁止

Pika 1.0 が最初のテストで Gen-2 に勝利しました!ネットユーザーが初めて映画レベルの爆発効果を体験し、その背後にある技術的な詳細が初めて明らかにされた。

llama2.mojo は llama2.c より 20% 高速です。最も新しい言語 Mojo が開発者コミュニティを驚かせています

人工知能がプログラマーに取って代わるまでにはどれくらい時間がかかるのでしょうか?

OpenAIの公式プロンプトエンジニアリングガイド：ChatGPTはこのようにプレイできます

人工知能は石油・ガス業界で勢いを増している

今日の企業で人気の AI ユースケース 12 選

Alibaba の軽量オープンソース Web サーバー Tengine 負荷分散アルゴリズム

滴滴自動運転、世界初となる5時間連続無人道路テストのビデオを公開

推薦する

2020年版ネイチャーインデックス年次リストが発表：中国の研究機関がリストを独占、中国科学院は8年連続で1位

ディープラーニング、NLP、コンピュータービジョンのための 30 の優れた Python ライブラリ

1秒以内に正確な推定を行う人工知能地震監視システムが稼働開始

Photonics 3DバーチャルアンカーチームがJD.comと提携し、11.11の最新の戦闘レポートをリアルタイムで放送

LeCun は AGI を予測します: 大規模モデルと強化学習はどちらもランプです!私の「世界モデル」は新しい道です

ディープラーニング？「ブラックボックス」である必要はない

AI教育改革の障害

顔認識技術の新たな進歩：自閉症やADHDを検出できる

「無人運転」の技術的道筋

AI時代の従業員のスキルアップのための5つのヒント

人工知能が生き残るために頼りにしているビッグデータは、独占企業の手に渡ると本当に恐ろしいものになる

データが生成型 AI に対応できるようにする 7 つの方法