ディープラーニングの「深さ」については、ここ数年で多くの議論がなされてきました。私の周りではさまざまな理解があります。深さ = 大規模ネットワーク、深さ = より抽象的な特徴と考える人もいます。近年、物理学者の中には、深さ = ガラス相転移であることを示した人もいます。後者の見解が正しいとすれば、GPU や FPGA ハードウェアを導入する目的は、単にスピードアップすることだけです。アルゴリズムの助けがなければ (パラメータ調整もアルゴリズムであり、後ほど説明します)、深化することはありません。(注: 等号は強い関係を示し、同等性ではありません) 深さの測定 この「深さ」は複雑さと密接に関係しています。ニューラル ネットワークの複雑さは、層の数、ニューロンの数、または接続重みの数によって測定できます。対照的に、データ自体の複雑さは、ラベル付きデータの割合とラベルなしデータの割合によって測定します。 深さ = サイズ? ネットワークの複雑さと分類エラーの関係: 1970 年代と 1990 年代には、ニューラル ネットワークに関する数学的な結論が数多く出されました。基本的に、その多くはスケールと一般化の関係、特に分類の問題を論じたものでした。分類のトレーニング エラーとテスト エラー (一般化能力) は、基本的にいくつかの基本的な要件と制限にまとめることができます。
上記の 4 つのポイントから、静的な非時系列分類問題には高度なアルゴリズムは必要ないことがわかります。データ量が十分で、ネットワークが十分に複雑で、マシンが十分に大きく、速度が十分に速く、少しの「黒魔術」を知っていれば、データとモデルの量が通常数十億単位になる今日の産業界では、これが正しい方法です。 深さ = より抽象的な特徴?一連の疑問が生じます。特徴とは何でしょうか?良い特徴とは何でしょうか?ディープラーニングの機能がなぜ抽象的と呼ばれるのでしょうか?複数のレイヤーと抽象化の関係は何でしょうか?
特徴 = 低次元多様体埋め込み? 何千もの検証されていない特徴を生成するのは常に簡単ですが、冗長な特徴を削除する、つまり、追加されたかどうかに関係なく結果に影響を与えない特徴を削除するには、かなりのスキルが必要です。 1 つの方法は、低次元多様体を通じて最も重要な構造を見つけることです。この方法では、多層オートエンコーダーを使用して次元を層ごとに圧縮するか、従来の多層ニューラル ネットワーク + Isomap に似た方法を使用して 1 ステップで次元を圧縮し、埋め込まれた低次元データ ポイントを継続的に調整して、それらを「可能な限り互いに分離」することができます。互いに近接するデータ ポイントは類似性を表すため、この方法では、データ自体の変換と回転を各低次元サブマニフォールドに順番に埋め込むことができます。一方、トレーニング データにすでに独自の回転と変換が含まれている場合、その低次元サブマニフォールドは「より完全に」埋められ (手書きの数字 1 は、どのように書かれても「|」の特定の回転と伸長であるため、緑の円のように)、その低次元境界を見つけやすくなります。しかし、この方法では、データの解釈可能性が低次元の多様体構造に隠されていると想定されるため、必然的に混乱が生じ、異なるラベルの埋め込まれたサブ多様体を完全に分離することも非常に困難です。 (GE Hintonの2006年のNature、Y LeCunなどを参照)
深さ = ガラス相転移? ガラス相とは何ですか? 一般化エラーにどのような影響がありますか?
ガラスの世界における山の種類。ここでの山には、意味的な山だけでなく、谷も含まれます。数学的に言えば、厳密な説明は勾配がゼロの点として理解されるべきです。勾配がゼロの点には、鞍点と極値点の 2 種類があります。勾配降下法では、鞍点から抜け出す道は常に存在しますが、最小点に到達すると希望はなくなります。物理的には、エネルギーが減少するにつれて、鞍点の数は徐々に最小値に変わる可能性があります。次の図は、レナード・ジョーンズ液体-固体転移のシミュレーション計算です (参考文献 7)。y 軸は鞍点の数を示しています。システムは、最小エネルギー (固体になる) に達する前に、多数の最小値に囲まれています。この時点で、勾配降下法を使用して数兆年を探索することは無駄です。しかし、これは希望も与えてくれます。局所的最小値について心配する必要はありません。なぜなら、実際の局所的最小値に到達すれば、最小値にも非常に近づくからです。結局のところ、ほとんどの領域は鞍点によって分割されます。 知能は非凸プロセスです。これは非常に古い考え方で、コンピューティング能力の初期の頃を考えると、当然ながら不評でした。あらゆるトレーニングは損失関数L(W)を最小化することである。 エネルギー関数とも呼ばれます。 Y LeCun (文献 6) らによる最近の研究では、多層畳み込みニューラル ネットワークの損失関数は非凸であるものの、最適点への経路を妨げる丘はほとんどが鞍点であり、鞍点であるということは常に出口が見つかるということを意味します。しかし、小さなインデックスの鞍点は非常に高いブロッキング能力を持ち、ランダム行列理論とシミュレーションは、ニューラルネットワークが特定のエネルギー以上の特定の領域にこれらすべての鞍点を持っていることを示しています。これは、物理学におけるレナードジョーンズの液体-固体転移プロセスと非常に似ています。これは、ニューラルネットワークがトレーニング中に徐々に1つの領域に固執し始める理由も説明しています。この領域での鞍点ヒルブロッキングは非常にひどいです(参考文献8)。 (下の図の縦軸は鞍点の数を表し、横軸は損失関数です。4番目の図は、エネルギーが一定のレベルに達すると鞍点が消えることを示しています) 深さ = ガラス相を越える?ここには疑問符が付いています。結局のところ、現在の理論は実際の産業モデルに基づいて計算されておらず、推測のように思えます。トレーニングにはガラスの障壁があるので、最初からできるだけ鞍点の少ない領域にシステムを初期化したらどうか、という考え方です。残念ながら、高次元空間で鞍点の少ない領域を決定することは非常に複雑な問題です。ただし、少数の外部制御変数、つまり順序パラメータ(重みの二乗の合計、SVM の間隔、入力層のバイアス、ラベルなし/ラベル付きデータの数など)を導入するなどして次元を減らし、判断を下すことができます。次に、これらの順序パラメータを制約し、特定の重みに従ってこれらの鞍点 Wi の寄与を平均化します(重要度サンプリングでは、これがすべての W 積の平均化とほぼ同等であることが示されています)。鞍点の多い領域の寄与が比較的大きいため、秩序パラメータの不適切な調整により平均結果が他の領域と大きく異なることになり、位相領域を決定するために使用できます。下図に示すように、log(ε)は一般化能力の対数を表し、値が小さいほど一般化能力が強いことを示します。 β はラベルなしサンプルの数を表し、α はラベル付きサンプルの数を表します。異なる色の線は異なるバイアスを表し、青い線のバイアスは最小です。線の色に関係なく、ラベルなしのサンプルの数を増やすと、原理的には誤差を減らすことができます。ただし、理論上は青い線の上半分と下半分のような「位相ゾーン」が存在します。真ん中は不安定で長く留まることが難しいため、誤差を減らすことができない位相が存在します。詰まってるよ! 事前学習を深めることができます!制御変数を使用すると、これらの値を調整して損失関数を関心領域にドラッグし、位相の影響を回避できます。このドラッグプロセスは、今年の日本の研究(文献9)で示されており、ラベルなしの事前学習です!次の図に示すように、事前学習が多いほど、ラベル付きチューニングで最小領域を早く見つけることができます!(log(ε)は一般化能力の対数を表し、一般化能力が小さいほど、一般化能力が強くなります。βはラベルなしサンプル数、αはラベル付きサンプル数、事前学習はRBM、活性化関数はReLuです) 単なる事前トレーニング以上のものですか?反対の見方をすると、これは単なる初期化の「黒魔術」であることがわかります。しかし、このステップによりガラス相のバリアは弱まります。そのため、規模を拡大し、サンプルサイズを増やし、深い特徴を抽出するディープラーニングは、単に位相を越える表面的な手法にすぎないという推測も持っています。位相領域を越えたり回避したりする一般的な方法が見つかるかもしれません。この目標が達成されると、得られる特徴は真の本質的表現になるかもしれません。 |
GPT-4のアップデート機能により、AIを使って歴史をシミュレートすることは、単なる「テキストロール...
[51CTO.com クイック翻訳] インターネットが誕生して以来、あらゆる種類のジャンク情報や悪意...
今日の製薬業界が直面している最大の課題の 1 つは、新薬の開発と市場投入にかかるコストの高さです。こ...
[51CTO.com クイック翻訳] 教師なし機械学習と人工知能は、組織のビジネス成長に役立つことは...
「こんにちは。投資したいお金があります。期待収益は 6 ~ 10 ポイントです。1 年間投資したいと...
[[407147]]画像認識といえば、皆さんすでによくご存知だと思います。この技術は、顔認証、決済...
[[406948]]人間が意思決定を行うプロセスは、複雑で恣意的であるように見えることもあります。そ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
ウォーレン・バフェットの資産が 5000G あることをご存知ですか? 反対派や懐疑派の意見に反して、...
過去数年間、テクノロジー業界は半導体サプライチェーンにおける前例のない混乱の影響を感じてきました。研...
テキストガイドによるビデオツービデオ (V2V) 合成は、短編ビデオの作成や映画業界全体など、さまざ...
10年以上前、テヘラン大学の研究者らは、Surenaと呼ばれる原始的なヒューマノイドロボットを発表し...
ストーリーの背景:元のデータは個人の取引記録ですが、データ自体のプライバシーを考慮して、元のデータは...