ディープラーニングアルゴリズムの全貌:その正しさを理論的に証明する

ディープラーニングアルゴリズムの全貌:その正しさを理論的に証明する

論文アドレス: https://arxiv.org/abs/1705.07038

この論文では、ディープニューラルネットワークにおける集団リスクの収束挙動とその定常点および特性を理論的に分析することにより、ディープラーニングにおける経験的リスクの全容を研究します。 L 層の線形ニューラル ネットワークの場合、その経験的リスクは、トレーニング サンプル サイズ n およびレートで母集団リスクに均一に収束することを証明します。ここで、d は合計重み次元、r は各層の重みの大きさの範囲です。次に、この結果に基づいて経験的リスクの安定性と一般化の境界を導出します。さらに、経験的リスク勾配と集団リスク勾配の収束一貫性を確立します。また、非退化定常点と収束を伴う経験的リスクと集団リスクの対応関係も証明し、ディープ ニューラル ネットワーク アルゴリズムの全体的な状況を説明しています。さらに、シグモイド関数を活性化関数として使用して、深層非線形ニューラルネットワークの特性も分析しました。深層非線形ニューラルネットワークの経験的リスク勾配の収束挙動は線形のものと同じであることを示し、またそれらの非退化定常点の特性を分析します。

私たちの知る限り、この研究はディープラーニングアルゴリズムの全体像を理論的に説明した初めての研究です。さらに、私たちの結果は、十分に訓練された深層学習アルゴリズムを訓練するためのサンプルの複雑さを提供します。また、ニューラル ネットワークの深さ L、レイヤーの幅、ネットワーク サイズ d、およびパラメーターの大きさがニューラル ネットワークのランドスケープをどのように決定するかについての理論的な理解も提供します。

1. はじめに

ディープラーニングアルゴリズムは、コンピュータービジョン[1, 2, 3]、自然言語処理[4, 5]、音声認識[6, 7]など多くの分野で目覚ましい成果を上げています。しかし、非凸性が高く、本質的に複雑なため、これらのディープラーニングアルゴリズムの特性に関する理論的な理解は、実際の成果にまだ遅れをとっています。実際、ディープラーニング アルゴリズムは、経験的リスクを最小限に抑えることでモデル パラメータを学習することがよくあります。したがって、私たちは、ディープラーニング アルゴリズムの実際のパフォーマンスをより深く理解するために、ディープラーニング アルゴリズムの実証的なリスク状況を分析することを目指しています。

正式には、L 層 (L ≥ 2) で構成され、一般的に使用される二乗損失関数 (未知の分布 D からのサンプル) を最小化することによってトレーニングされるディープ ニューラル ネットワーク モデルを検討します。理想的には、ディープラーニングアルゴリズムはグループリスクを最小化することで最適なパラメータ w∗ を見つけることができます。

ここでwはモデルパラメータであり、

この式は、分布 D に従うサンプル x の二乗損失関数です。ここでv(l)はレイヤーlの出力であり、yはサンプルxのターゲット出力です。実際には、サンプル分布Dは不明であることが多く、Dからのトレーニングサンプルx(i)は限られているため、ネットワークモデルは経験的リスクを最小化することによってトレーニングされることが多いです。

本研究では、グループリスク J(w) とその定常点および特性への経験的リスクの収束を分析することにより、多層線形および非線形ニューラルネットワークの両方に対する深層学習アルゴリズムの経験的リスクの包括的な図を説明します。

2. 文献レビュー

今のところ、ディープラーニングを説明できる理論はいくつかあり、大まかに3つのカテゴリーに分けられます。

  • ***クラスはディープラーニングのトレーニングエラーを分析することを目的としています。
  • 2番目の研究カテゴリ[13, 14, 9, 15]は、定常点の分布など、深層学習における高度に非凸な損失関数の損失面を解析することに専念しています。
  • 3 番目のカテゴリは、分析の難易度を軽減するために問題をより小さな部分に分解しようとする最近の研究です。

しかし、ディープラーニングアルゴリズムの経験的リスクの全体像を分析した研究はありません。

3. 深層線形ニューラルネットワークの研究成果

まず、深層線形ニューラル ネットワークにおける経験的リスクと集団リスクの均一収束を証明します。この証明に基づいて、安定性と一般化の境界を導出します。次に、経験的勾配と人口勾配の間の一貫した収束保証を提案し、経験的リスクの非退化定常点の特性を分析します。

この論文の解析では、入力データ x は τ^2 サブガウス分布に従い、仮定 1 で説明したように制限された大きさを持つと仮定します。

仮定 1. 入力データの平均は 0 で、τ^2 サブガウス分布に従います。したがってxは

さらに、x の L2 ノルムは次を満たします (x の大きさは制限されます)。

ここで、rx は正の普遍定数です。

3.1 経験的リスクの一貫した収束、安定性、一般化

定理 1 は、深層線形ニューラル ネットワークの経験的リスクに対して均一な収束結果を確立します。

定理 1: ディープニューラルネットワークにおける仮定 1 の入力データ x の活性化関数は線形であると仮定します。すると、次の2つの普遍定数cf′とcfが存在する。

すると、次のものが存在します:

この不等式の信頼水準は少なくとも1 − εです。ここで、l はニューラル ネットワーク層の数、n はサンプル サイズ、dl は最後の層の次元サイズです。

3.2 勾配の一貫した収束

このセクションでは、深層線形ニューラル ネットワークの経験的リスクとグループ リスクの勾配収束を分析します。勾配収束の結果は、ニューラル ネットワーク アルゴリズムの全体像を描くのに非常に効果的です。結果は以下に記載されています。

定理2: ディープニューラルネットワークにおける仮定1の入力データxの活性化関数が線形であると仮定する。経験的リスク勾配は、L2 ノルム (ユークリッド ノルム) で人口リスク勾配に収束します。特に、

cg' が普遍定数である場合、次を満たす普遍定数 cg が存在します。

この不等式の信頼水準は少なくとも1 − εであり、ここで

3.3 静止点の一貫した収束

ここでは、ディープラーニングアルゴリズムの経験的リスクを最適化する際の定常点の特性を分析します。簡単にするために、幾何学的に孤立しており、したがって局所的に一意である非退化の定常点を使用します。

4. 深層非線形ニューラルネットワークの結果

上記のセクションでは、深層線形ニューラル ネットワーク モデルの経験的リスク最適化の状況を分析しました。このセクションでは、シグモイド活性化関数を使用し、実際にはより一般的な深層非線形ニューラル ネットワークの分析を続けます。私たちの分析手法は、tanh 関数など、収束率が異なる他の 3 次微分可能関数にも適用されることは注目に値します。ここでは、入力データが iid ガウス変数であると仮定します。

4.1 一貫した収束、経験的リスクの安定性、一般化

このセクションでは、まず経験的リスクの一貫した収束分析を行い、次にその安定性と一般化を分析します。

定理4. 入力サンプルxが仮定2に従い、ディープニューラルネットワークの活性化関数がシグモイド関数であると仮定すると、

すると、次のような普遍定数 cy が存在します。

この不等式の信頼水準は少なくとも1−εであり、ここで

4.2 勾配と定常点の一貫した収束

このセクションでは、深層非線形ニューラル ネットワークの経験的リスクの勾配収束特性を分析します。

定理5 入力サンプルxが仮定2に従い、ディープニューラルネットワークの活性化関数がシグモイド関数であると仮定します。次に、経験的リスクの勾配は、L2 ノルム (ユークリッド ノルム) の形式でグループ リスクの勾配に均一に収束します。特に、

ここで、cy' は定数です。

この不等式の信頼水準は少なくとも1 − εであり、cy、cd、crは定理4と同じパラメータです。

6. 証明の概要

このセクションでは証明プロセスを簡単に紹介しますが、スペースの制限により、定理 1 から 6、系 1 と 2、および技術的な補題は補足資料で示します。

7. 結論

本研究では、経験的リスク自体の一貫性、収束、安定性、一般化、およびその勾配と定常点の特性など、深層線形/非線形ニューラルネットワークを使用した経験的リスク最適化の状況の理論的分析を提供します。経験的リスクから集団リスクへの収束率は であることを証明します。これらの結果は、ニューラル ネットワークの深さ (層の数)、ネットワークのサイズと幅が収束率に非常に重要であることも明らかにしています。また、重みパラメータの大きさが収束速度に重要な役割を果たすことも示します。実際には、少数の重みを使用することをお勧めします。すべての結果は、実際に広く使用されているネットワーク アーキテクチャとよく一致しています。

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  スマートコミュニティはどれくらい「スマート」なのでしょうか?知能の背後にある技術的応用を解釈する

>>:  2017年人工知能に関する消費者意識調査

ブログ    

推薦する

2020年版ネイチャーインデックス年次リストが発表:中国の研究機関がリストを独占、中国科学院は8年連続で1位

科学研究機関の世界総合ランキングでは、中国科学院、中国科学技術大学、北京大学がトップ10にランクイン...

ディープラーニング、NLP、コンピュータービジョンのための 30 の優れた Python ライブラリ

[[357895]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

1秒以内に正確な推定を行う人工知能地震監視システムが稼働開始

[[388104]]最近、中国科学技術大学の研究チームは中国地震局と協力し、世界初の人工知能地震監視...

Photonics 3DバーチャルアンカーチームがJD.comと提携し、11.11の最新の戦闘レポートをリアルタイムで放送

毎年恒例の11.11グローバルショッピングフェスティバルが近づいており、JD.comは再び歴史を刻み...

LeCun は AGI を予測します: 大規模モデルと強化学習はどちらもランプです!私の「世界モデル」は新しい道です

現代の AI 界で最も有名な巨匠の一人であり、Meta の AI 研究所の魂である Yann LeC...

ディープラーニング? 「ブラックボックス」である必要はない

ディープニューラルネットワークのパラメータネットワークは非常に大きく複雑であり、これによりマシンはこ...

AI教育改革の障害

近年、人工知能技術は最先端技術の代名詞として、徐々に生活の各分野に浸透しており、教育業界も例外ではあ...

...

顔認識技術の新たな進歩:自閉症やADHDを検出できる

[[187357]]顔の表情や頭の動きから自閉症やADHDの患者を識別できる新しいコンピューターアル...

「無人運転」の技術的道筋

無人運転車が実際に走行するには、認識、意思決定、実行における技術的な問題を解決する必要があります。 ...

AI時代の従業員のスキルアップのための5つのヒント

AI によって人々の働き方が変化する中、企業は従業員が自動化された職場環境に能力を適応できるように支...

...

人工知能が生き残るために頼りにしているビッグデータは、独占企業の手に渡ると本当に恐ろしいものになる

わずか5年で、人工知能は急速に発展しました。最近、GPT-3が再び白熱した議論を巻き起こしています。...

...

データが生成型 AI に対応できるようにする 7 つの方法

翻訳者 |ブガッティレビュー | Chonglou誰もが生成AIと大規模言語モデルの力を活用したいと...