「幾何学的ディープラーニング」からのディープラーニングの統合

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

ある日ディープラーニングのエントリを開いて、次のようなものを見つけるのを想像できますか?

ディープラーニングの世界は統一できるのか？

幾何学的対称性はディープラーニングで役割を果たすことができますか?

対称性と変換を通じて、CNN、GNN、LSTM、Transformer、DeepSet、メッシュ CNN、および構築に必要なその他すべてをカバーするアーキテクチャを抽出できますか?

驚かないでください、疑わないでください。

100年以上前、エアランゲン大学の23歳の若者がその答えを出しました。

彼は独力で「エアランゲン計画」を開始し、幾何学における画期的な研究を成し遂げ、数学の歴史を変えた。

幾何学的対称性問題の起源

182年1月、ドイツのエアランゲン大学に新しい若い教授が任命されました。慣例通り、彼は最初の研究プログラムを発表するよう求められ、それを「Vergleichende Betrachtungen über neuere geometrische Forschungen（幾何学における最新の研究の比較レビュー）」という長くて退屈なタイトルで出版しました。

この人物はフェリックス・クラインです。当時彼はまだ 23 歳でした。彼の先駆的な研究は「エアランゲン計画」と呼ばれ、数学の歴史において重要な位置を占めています。

19 世紀は直線幾何学が爆発的に発展した時代でした。ユークリッドのほぼ 2000 年後、ポンスレは射影幾何学を、ガウス、ガリス、ロバチェフスキーは双曲幾何学を、リーマンは楕円幾何学を開発しました。

クラインのエアランゲン計画の画期的な点は、幾何学の研究における構造的対称性の利用にあります。クラインは、そのような変換を定義するために群論の形式を採用し、結果として生じるさまざまな幾何学を分類するために群とそのサブグループの階層を使用しました。

したがって、剛体運動は伝統的なユークリッド幾何学を生み出し、アフィン変換または射影変換はそれぞれアフィン幾何学と射影幾何学を生み出します。

エアランゲン計画は幾何学や数学だけでなく、対称性を利用して第一原理から保存則、すなわちネーターの定理を導き出す物理学の分野にも大きな影響を与えました。

この基本原理は、数十年にわたる発展を経て、1954 年に楊振寧とミルズによって提案されたゲージ不変性の概念の一般化された形が重力を除く自然界のすべての基本的な力を統一するまで証明されませんでした。

この標準モデルは、今日私たちが知っているすべての物理学を説明しています。

ノーベル賞を受賞した物理学者フィリップ・アンダーソンは、次のように最も的確に表現しています。

「物理学は対称性の研究であると言うのは、少し言い過ぎではない。」

「物理学は本質的に対称性の研究であると言うのは、少し誇張に過ぎません。」

ディープラーニングの現状は、19 世紀の幾何学の現状と驚くほど似ています。

一方では、過去 10 年間で、ディープラーニングはデータサイエンスに革命をもたらし、コンピュータービジョン、音声認識、自然言語翻訳、囲碁など、これまでは達成不可能と考えられていた多くのタスクを達成しました。

一方、現在では、さまざまな種類のデータに対応するさまざまなニューラルネットワークアーキテクチャの「動物園」が存在しますが、統一的な原則はほとんどありません。これにより、異なる方法間の関係を理解することが難しくなり、同じ概念の複数の発明とリソースの無駄につながります。

機械学習において、性別の重要性は実はかなり前から認識されていました。

特にパターン認識とコンピュータービジョンのアプリケーションにおいて、等価特徴検出に関する初期の研究は、天理俊一とライナー・レンツにまで遡ることができます。

ニューラルネットワークの文献では、マービンミンスキー氏とシーモアパパート氏によって提案されたパーセプトロンのグループ不変定理により、(単層) パーセプトロンが不変量を学習する能力に基本的な制限が課せられます。

幾何学的ディープラーニング

「統合」の詳しい方法については、「幾何学的ディープラーニング」の採用をご覧ください。

幾何学的ディープラーニングは、マイケル・M・ブロンスタイン、ジョアン・ブルーナ、タコ・コーエン、ペタル・ヴェリコビッチらによって導入された一般的な用語であり、クラインのエアランゲンプログラムに似た幾何学的機械学習を統一する試みを指す一般的な用語です。

これには 2 つの目的があります。1 つ目は、最も成功するニューラルネットワークアーキテクチャを導き出すための一般的な数学的フレームワークを提供することです。2 つ目は、将来のアーキテクチャを原則的に構築するための建設的なプロセスを提供することです。

最も単純なケースでは、教師あり機械学習は本質的に関数推定の問題です。つまり、トレーニングセット (ラベル付けされた犬と猫の画像など) に対する未知の関数の出力が与えられた場合、トレーニングに適しており、これまでに見たことのない入力に対する出力を予測できる関数 f を、ある種の仮説関数から見つけようとします。

過去 10 年間で、ImageNet などの大規模で高品質なデータセットが利用可能になったと同時に計算リソース (GPU) も増加し、このような大規模なデータセットを補間できる機能豊富なクラスの設計が可能になりました。

ニューラルネットワークは、最も単純なアーキテクチャ (パーセプトロンなど) でも 2 つのレイヤーのみを使用して関数の密なクラスを生成できるため、関数を表現するのに適した選択肢であると思われます。これにより、任意の連続関数を任意の精度で近似できます。この特性は「普遍近似」として知られています。

低次元問題の設定は近似理論における古典的な問題であり、広範囲に研究されており、推定誤差は正確な数学的手法によって制御されています。しかし、高次元では状況はまったく異なります。単純なクラスのリプシッツ連続関数の近似値であっても、サンプル数は次元とともに指数関数的に増加することがすぐにわかります。これは一般に「次元の呪い」として知られている現象です。

現代の機械学習手法では、数千、あるいは数百万の次元を持つデータを処理する必要があり、次元の呪いが常に舞台裏で現れ、単純な方法で学習することが不可能になります。

△ 次元の呪いの図解: 誤差 ε で d 次元単位超立方体 (青) の象限にあるガウスカーネルを持つリプシッツ連続関数を近似するには、(1/εᵈ) 個のサンプル (赤い点) が必要です。

これはおそらく、画像分類などのコンピュータービジョンの問題で最もよく見られます。小さな画像でも次元が非常に高くなる傾向がありますが、直感的に、画像をベクトルに解析してパーセプトロンに入力すると、画像の構造の多くが破壊され、破棄されます。ここで、画像を 1 ピクセルだけシフトすると、ベクトル化された入力は大きく異なるものになり、ニューラルネットワークに多くの例を示して、シフトされた入力を同じように分類する必要があります。

原則の紹介

対称性、不変性、グループの観点から見ると、2 つの主要な原則が含まれます。

「超越的対称性」

多くの高次元 ML 問題の場合、入力信号のジオメトリから得られる追加の構造情報を利用できます。私たちはこの構造を「先験的対称性」と呼んでいますが、これは次元によって引き起こされる問題について楽観的に考えられる、一般的に有効な原則です。画像分類の例では、入力画像 x は単なる d 次元ベクトルではなく、ある領域 Ω (この場合は 2D グリッド) 上で定義された信号です。

ドメインの構造は、ドメイン上の点に作用する対称的なグループ変換（この場合は 2 次元変換のセット）によって表されます。信号空間 (Ω) では、基になるドメインに対するグループ作用（グループ要素、∈）は、いわゆるグループ表現 ρ() によって表されます。この場合は、上記の操作は変換操作、つまり d 次元ベクトルに作用する d×d 行列です。

入力信号の基礎となるドメインのジオメトリは、学習しようとしている関数 f のクラスにアーキテクチャ情報を課します。不変関数は、群の演算の影響を受けない関数、つまり任意の∈およびxに対して、f(ρ()x) = f(x)です。一方、関数は同じ入力と出力の構造を持ち、入力と同じように変換することがあります。このような関数は同変関数と呼ばれ、f(ρ()x)=ρ()f(x)を満たします。

コンピュータービジョンの分野では、画像分類は不変関数 (たとえば、猫が画像内のどこにいても、その画像を猫として分類する) を取得したい典型的なタスクです。一方、画像セグメンテーションタスクの出力はピクセルレベルのラベルマスクであり、これは等変関数です (セグメンテーションマスクは入力画像の変化に追従する必要があります)。

「スケール分離」

もう一つの強力な幾何学的事前条件は「スケール分離」です。場合によっては、近くの点を「同化」し、粗粒度演算子 P に関連付けられた信号空間の階層を生成することによって、ドメインのマルチスケール階層 (下の図の Ω と Ω') を構築できます。

これらの粗いスケールでは、粗いスケールの関数を適用できます。関数 f が粗視化演算子 P と粗スケーリング関数 f≈f'°P の組み合わせとして近似できる場合、f は局所的に安定であることを示します。 f は長距離依存性に依存する可能性がありますが、f が局所的に安定している場合は、局所的な相互作用に分解して、粗いスケールに向かって伝播することができます。

これら 2 つの原則により、表現学習用の最も一般的なディープニューラルアーキテクチャで認識できる、ディープラーニングの非常に一般的な青写真が生まれます。一般的な設計は、一連の等価層 (CNN の畳み込み層など) で構成され、その後にすべてを 1 つの出力に集約する不変のグローバルプーリング層が続く場合があります。場合によっては、ローカルプーリングの形式での粗大化手順を通じて、ドメインの階層を作成することもできます。

これは非常に一般的な設計であり、幾何学的深層学習の「5G」（グリッド、グループ、グラフ、測地線、ゲージ）を含むさまざまな種類の幾何学的構造に適用できます。5Gには、グリッド（グローバル変換グループを持つ同次空間）、グラフ（および特殊なケースとしてのセット）、多様体があり、幾何学的事前分布はグローバル等長不変性（測地線を使用して表すことができます）とローカルゲージ対称性を介して表されます。

これらの原則の実装により、今日のディープラーニングで最も人気のあるアーキテクチャがいくつか生まれました。変換対称性から派生した畳み込みネットワーク (CNN)、グラフニューラルネットワーク、DeepSet、トランスフォーマー、順列不変性から派生したゲート RNN (LSTM ネットワークなど)、タイムワープ不変性から派生したタイムワープ不変性、ゲージ対称性から派生したコンピューターグラフィックスやビジョンで使用される固有メッシュ CNN などです。

次は「5G」で「幾何学的ディープラーニング」の青写真を継続する予定です。

この一見高度な理論は、群論、微分幾何学、そしてさまざまな高度な機械学習アルゴリズムを使用しています。より多くの研究者が参加し、さらに深い研究が行われることを期待しています。

将来的には、ディープラーニングの「動物園」全体を原理的に統一することも、おそらく夢ではないでしょう。

<<: たった2枚の写真でAIは完全なモーションプロセスを生成できる

>>: 今では、脳とコンピューターのインターフェース信号さえも無線で送信でき、麻痺した人でも自宅で簡単にインターネットにアクセスできる。