ディープラーニングの「ディープ」とはどういう意味ですか?

ディープラーニングの「深さ」については、ここ数年で多くの議論がなされてきました。私の周りではさまざまな理解があります。深さ = 大規模ネットワーク、深さ = より抽象的な特徴と考える人もいます。近年、物理学者の中には、深さ = ガラス相転移であることを示した人もいます。後者の見解が正しいとすれば、GPU や FPGA ハードウェアを導入する目的は、単にスピードアップすることだけです。アルゴリズムの助けがなければ (パラメータ調整もアルゴリズムであり、後ほど説明します)、深化することはありません。(注: 等号は強い関係を示し、同等性ではありません)

深さの測定

この「深さ」は複雑さと密接に関係しています。ニューラルネットワークの複雑さは、層の数、ニューロンの数、または接続重みの数によって測定できます。対照的に、データ自体の複雑さは、ラベル付きデータの割合とラベルなしデータの割合によって測定します。

深さ = サイズ? ネットワークの複雑さと分類エラーの関係:

1970 年代と 1990 年代には、ニューラルネットワークに関する数学的な結論が数多く出されました。基本的に、その多くはスケールと一般化の関係、特に分類の問題を論じたものでした。分類のトレーニングエラーとテストエラー (一般化能力) は、基本的にいくつかの基本的な要件と制限にまとめることができます。

モデルの複雑さはどの程度にすべきか: 複雑さを増すと、トレーニングサンプルの適合性が向上しますが、優れた一般化能力を得るには、複雑さをトレーニングデータ数の特定の累乗にする必要があると一般に考えられています。さらに、検出力は 1 未満である必要があります。そうでない場合、追加のトレーニングサンプルごとにネットワークを拡張する必要があり、このモデルには実用的な意味がありません。ありがたいことに、ニューラルネットワークはこの要件を満たすことができます (Ref. 3)。
必要なトレーニングデータの量: ネットワークノードの数が N で、接続重みの数が W の場合、一般化誤差が任意の指定値 ε 未満になるための合理的な要件は、トレーニングデータの数 > (W/ε)Log(N/ε) です。これは、複雑なモデルでは、優れた一般化能力を得るためにより多くのトレーニングが必要であることを意味します。実際、データ量の増加に伴い、多層パーセプトロンモデルも現在のディープラーニングのレベルに到達できます (参考文献 2)。また、ディープラーニング = 通常の多層ニューラルネットワークであると考える実用的な理由もあります。
オッカムの剃刀パズル: 理論的には、1 つの隠れ層を持つカーネルベースのニューラルネットワークは、あらゆるデータに適合できます (級数展開として理解すると、各項は隠れニューロンです)。では、複雑さが増すとどのような影響があるのでしょうか。データの量が十分に大きい場合、単純な分類器で優れた結果が得られるというのは、議論の余地のない事実です。相転移の観点から見ると、実際のエンジニアリングでは「ちょうど良い」サイズのネットワークではなく「過度に複雑なネットワーク」が必要になる理由を説明できます。
複雑さのコスト: 基本的な定理として、テストエラー >= トレーニングエラー + モデルの複雑さがあり、過剰な複雑さのコストは過剰適合です。業界では一般に「黒魔術」として知られている過剰適合を防ぐための一般的な方法はありません。

上記の 4 つのポイントから、静的な非時系列分類問題には高度なアルゴリズムは必要ないことがわかります。データ量が十分で、ネットワークが十分に複雑で、マシンが十分に大きく、速度が十分に速く、少しの「黒魔術」を知っていれば、データとモデルの量が通常数十億単位になる今日の産業界では、これが正しい方法です。

深さ = より抽象的な特徴？一連の疑問が生じます。特徴とは何でしょうか？良い特徴とは何でしょうか？ディープラーニングの機能がなぜ抽象的と呼ばれるのでしょうか？複数のレイヤーと抽象化の関係は何でしょうか？

特性 = 関数展開の基底関数？数学的には、基底関数を特性として理解することは可能ですが、もちろんそれらは完全であったり直交したりする必要はありません。たとえば、下の図では、画像の特徴抽出とスパースコーディングは、画像をこれらの特徴の線形重ね合わせに分解できると仮定して、一連の特徴の中から最も適合度が低く、最も適合度が高い特徴グループを見つけることです。しかし、前提として、分解は依然として線形であることが要求され、これによりマシン上での計算が容易になります。しかし、実際の問題で要求される特徴は通常、異なるタイプの組み合わせです。線形組み合わせを強制することは、本格的な広東料理を食べながら山東パンケーキを食べるようなものです。（写真はアンドリュー・ン氏のスライドより）

特徴 = 低次元多様体埋め込み?

何千もの検証されていない特徴を生成するのは常に簡単ですが、冗長な特徴を削除する、つまり、追加されたかどうかに関係なく結果に影響を与えない特徴を削除するには、かなりのスキルが必要です。 1 つの方法は、低次元多様体を通じて最も重要な構造を見つけることです。この方法では、多層オートエンコーダーを使用して次元を層ごとに圧縮するか、従来の多層ニューラルネットワーク + Isomap に似た方法を使用して 1 ステップで次元を圧縮し、埋め込まれた低次元データポイントを継続的に調整して、それらを「可能な限り互いに分離」することができます。互いに近接するデータポイントは類似性を表すため、この方法では、データ自体の変換と回転を各低次元サブマニフォールドに順番に埋め込むことができます。一方、トレーニングデータにすでに独自の回転と変換が含まれている場合、その低次元サブマニフォールドは「より完全に」埋められ (手書きの数字 1 は、どのように書かれても「|」の特定の回転と伸長であるため、緑の円のように)、その低次元境界を見つけやすくなります。しかし、この方法では、データの解釈可能性が低次元の多様体構造に隠されていると想定されるため、必然的に混乱が生じ、異なるラベルの埋め込まれたサブ多様体を完全に分離することも非常に困難です。（GE Hintonの2006年のNature、Y LeCunなどを参照）

特徴 = データトポロジー? トレーニングデータ自体の複雑さに焦点を当てた研究はそれほど多くなく、モデルのデータ解釈能力を重視している研究がほとんどです。実際、データや奇妙な型に関係なく、トポロジーは文字モデルよりも一般的なツールです。多くの人は、トポロジーは一般的すぎるため、特徴として使用された場合にデータの本質的な構造を表現できないと直感的に考えています。実際にはそうではありません。現在、代数的位相幾何学にはパーシステントホモロジーと呼ばれる人気の分野があり、これはデータの主な特徴に非常に敏感であるため、タンパク質構造の位相的指紋としても使用できます。一部の数学者は、これらの指紋を通じて、一部のタンパク質データベースの構造エラーを発見しました。（参考文献4、5）
機能が「深さ」を高めるのか、それとも「深さ」が機能を高めるのか?

深さ = ガラス相転移? ガラス相とは何ですか? 一般化エラーにどのような影響がありますか?

2 つの状態を区別する言葉としての相は、非常に現実的で直感的な影響を持っています。外部条件が変化しなければ、ある相から別の相に移行するのは非常に困難です。たとえば、水は低温で凍結します。同じ条件下では、ボルツマン分布によれば、水が凍結しない確率はゼロではありません。過冷却水がその一例です。しかし、この状態は非常に不安定です。一度乱されるとすぐに氷に変わってしまい、液体に戻ることは不可能です。
相変化のプロセス = 最小エネルギー点の探索。これは表面的な理解です。与えられた条件 (温度 T など) の下で、相変化は高エネルギー状態 (低温の水) から低エネルギー状態 (氷) を見つけることです。ただし、このプロセスは直線的な下り坂のプロセスではありません。プロセス中に、いくつかの小さな丘を登る必要があります。これらの小さな丘の障害物を表すために、正のエネルギー障壁 ΔE を使用します。アルレニウスの観点によれば、妨害時間は N*E^(ΔE/T) に比例し、指数関数的な遅延となります。前のパラメータ N は丘の数を表すために使用されます。
ガラス相。これらの丘は 1 つではなく、システムの自由度の指標であると仮定します。各丘の高さは高くありませんが、累積する障害物は非常に大きく、最小エネルギー状態を見つける可能性に深刻な影響を与える可能性があります。この領域に入ることは、ガラス相と呼ばれるアスファルトの上を歩くようなものです。例えば、下の図に示すように、タンパク質の折り畳みのエネルギーファネルモデル（エネルギーランドスケープ）では、コンピュータシミュレーションの観点から、ガラス転移領域（ガラス転移）を通過してエネルギー最小値に入るのが最も時間のかかる領域です。このプロセスでは、ハードウェアの高速化が重要ですが、並列加速は線形の改善であり、空間の複雑さは解決しますが、時間の複雑さは解決しません。ガラス領域には時間の複雑さが関係しています。規模が巨大になると、アルゴリズム技術がなければ、このような非凸モデルで最低エネルギーポイントを見つけることは基本的に絶望的です。

ガラスの世界における山の種類。ここでの山には、意味的な山だけでなく、谷も含まれます。数学的に言えば、厳密な説明は勾配がゼロの点として理解されるべきです。勾配がゼロの点には、鞍点と極値点の 2 種類があります。勾配降下法では、鞍点から抜け出す道は常に存在しますが、最小点に到達すると希望はなくなります。物理的には、エネルギーが減少するにつれて、鞍点の数は徐々に最小値に変わる可能性があります。次の図は、レナード・ジョーンズ液体-固体転移のシミュレーション計算です (参考文献 7)。y 軸は鞍点の数を示しています。システムは、最小エネルギー (固体になる) に達する前に、多数の最小値に囲まれています。この時点で、勾配降下法を使用して数兆年を探索することは無駄です。しかし、これは希望も与えてくれます。局所的最小値について心配する必要はありません。なぜなら、実際の局所的最小値に到達すれば、最小値にも非常に近づくからです。結局のところ、ほとんどの領域は鞍点によって分割されます。

知能は非凸プロセスです。これは非常に古い考え方で、コンピューティング能力の初期の頃を考えると、当然ながら不評でした。あらゆるトレーニングは損失関数L(W)を最小化することである。

エネルギー関数とも呼ばれます。 Y LeCun (文献 6) らによる最近の研究では、多層畳み込みニューラルネットワークの損失関数は非凸であるものの、最適点への経路を妨げる丘はほとんどが鞍点であり、鞍点であるということは常に出口が見つかるということを意味します。しかし、小さなインデックスの鞍点は非常に高いブロッキング能力を持ち、ランダム行列理論とシミュレーションは、ニューラルネットワークが特定のエネルギー以上の特定の領域にこれらすべての鞍点を持っていることを示しています。これは、物理学におけるレナードジョーンズの液体-固体転移プロセスと非常に似ています。これは、ニューラルネットワークがトレーニング中に徐々に1つの領域に固執し始める理由も説明しています。この領域での鞍点ヒルブロッキングは非常にひどいです（参考文献8）。（下の図の縦軸は鞍点の数を表し、横軸は損失関数です。4番目の図は、エネルギーが一定のレベルに達すると鞍点が消えることを示しています）

深さ = ガラス相を越える？ここには疑問符が付いています。結局のところ、現在の理論は実際の産業モデルに基づいて計算されておらず、推測のように思えます。トレーニングにはガラスの障壁があるので、最初からできるだけ鞍点の少ない領域にシステムを初期化したらどうか、という考え方です。残念ながら、高次元空間で鞍点の少ない領域を決定することは非常に複雑な問題です。ただし、少数の外部制御変数、つまり順序パラメータ（重みの二乗の合計、SVM の間隔、入力層のバイアス、ラベルなし/ラベル付きデータの数など）を導入するなどして次元を減らし、判断を下すことができます。次に、これらの順序パラメータを制約し、特定の重みに従ってこれらの鞍点 Wi の寄与を平均化します（重要度サンプリングでは、これがすべての W 積の平均化とほぼ同等であることが示されています）。鞍点の多い領域の寄与が比較的大きいため、秩序パラメータの不適切な調整により平均結果が他の領域と大きく異なることになり、位相領域を決定するために使用できます。下図に示すように、log(ε)は一般化能力の対数を表し、値が小さいほど一般化能力が強いことを示します。 β はラベルなしサンプルの数を表し、α はラベル付きサンプルの数を表します。異なる色の線は異なるバイアスを表し、青い線のバイアスは最小です。線の色に関係なく、ラベルなしのサンプルの数を増やすと、原理的には誤差を減らすことができます。ただし、理論上は青い線の上半分と下半分のような「位相ゾーン」が存在します。真ん中は不安定で長く留まることが難しいため、誤差を減らすことができない位相が存在します。詰まってるよ！

事前学習を深めることができます！制御変数を使用すると、これらの値を調整して損失関数を関心領域にドラッグし、位相の影響を回避できます。このドラッグプロセスは、今年の日本の研究（文献9）で示されており、ラベルなしの事前学習です！次の図に示すように、事前学習が多いほど、ラベル付きチューニングで最小領域を早く見つけることができます！（log（ε）は一般化能力の対数を表し、一般化能力が小さいほど、一般化能力が強くなります。βはラベルなしサンプル数、αはラベル付きサンプル数、事前学習はRBM、活性化関数はReLuです）

単なる事前トレーニング以上のものですか?反対の見方をすると、これは単なる初期化の「黒魔術」であることがわかります。しかし、このステップによりガラス相のバリアは弱まります。そのため、規模を拡大し、サンプルサイズを増やし、深い特徴を抽出するディープラーニングは、単に位相を越える表面的な手法にすぎないという推測も持っています。位相領域を越えたり回避したりする一般的な方法が見つかるかもしれません。この目標が達成されると、得られる特徴は真の本質的表現になるかもしれません。

<<: 機械学習におけるよくある間違い

>>: 各国の人工知能戦略の解釈

ChatGPTがチップ設計に力強く参加します！専門的なハードウェア記述言語を学ぶ必要はなく、人間の言語を話すだけでよい

ディープラーニングの「ディープ」とはどういう意味ですか?

ChatGPTがチップ設計に力強く参加します！専門的なハードウェア記述言語を学ぶ必要はなく、人間の言語を話すだけでよい

中国科学院は、プログラマーがバグを見つけるのを助けるために大きなモデルを使用し、102の論文を分析し、これらの解決策をまとめた。

プロセス自動化の分野をどのように理解すればよいでしょうか?

ガートナーが中国のAIスタートアップに関するレポートを発表：ほとんどの企業がこれら3つの技術に注目

クロードからGPT-4まで、RLHFモデルではお世辞が蔓延している

Hugface が OpenAI に正面から挑戦し、GPT ストアのオープンソースバージョンをリリースしました。完全に無料で、6つのオープンソースモデルをベースとしてサポートしています

このCVデータセットジェネレーターは人気があり、DeepMindなどが作成した13種類のCVタスクをサポートしています。

水中ロボットが登場し、「新しいインフラ」の助けを借りてその開発が加速する可能性がある

人工知能が病理画像から癌遺伝子変異を予測できる！

推薦する

清華大学系のスタートアップが、実際のシーンからアニメーションへのワンクリック変換、パーソナライズされたキャラクターも生成できる世界初の4Dスケルトンアニメーションフレームワークを発表

AIが書いたコンテンツは判別が難しく、言語の専門家でさえ無力である

GPT-4はプロンプトインジェクション攻撃に対して脆弱であり、誤った情報につながる

フェイフェイ・リーのチームはロボットにViTを使用し、計画と推論を512倍高速化し、またヘ・カイミンのMAEをキューイングした。

AI仮想読書機、ジェスチャー認識+OCR+音声TTS

C# で開発されたソートアルゴリズムの詳細な説明

機械知能に取って代わられない5つのスキル

データサイエンスにおける ML+ と DL+ の時代へようこそ