Facebook、MITなどが共同で451ページの原稿を発表：「第一原理」を使ってDNNを説明する」

Facebook、プリンストン大学、MITのAI研究者らは最近、ディープラーニングが実際にどのように機能するかの理論を説明する「ディープラーニング理論の原理：ニューラルネットワークを理解するための効果的な理論的アプローチ」と題する研究論文を共同で発表した。

蒸気機関は産業革命を推進し、製造業を変革しました。しかし、熱力学の法則と統計力学の原理が発達して初めて、科学者は蒸気機関がどのように動作するかを理論レベルで完全に説明できるようになりました。

[[415527]]

もちろん、理論的知識の欠如が蒸気機関の改良を妨げることはありませんでしたが、理論的な指導を基礎として、技術の発展はより速かったでしょう。科学者がついに統計力学を習得したとき、その影響はより優れた、より効率的なエンジンの構築をはるかに超えるものとなりました。統計力学は、物質が原子でできているという認識につながり、量子力学の発展を予兆し、さらに全体像を見ると、コンピューターを動かすトランジスタの開発にもつながりました。

人工知能は現在、同様の局面を迎えています。 DNN (ディープニューラルネットワーク) は現代の AI 研究の重要な部分ですが、その実装は多かれ少なかれ「ブラックボックス」と見なされています。 AI 実践者は DNN の理解において大きな進歩を遂げてきましたが、DNN は第一原理から理解するには複雑すぎると考えられることがよくあります。モデルは主に試行錯誤を通じて微調整されます。試行錯誤は長年の経験に基づいてインテリジェントに行うことができますが、DNN とその機能を説明する統一された理論言語がない状態で行われます。

最近、Facebook 人工知能研究センター (FAIR) の科学者 Sho Yaida 氏、MIT 理論物理学センターの研究者であり Salesforce の主任研究員でもある Dan Roberts 氏、プリンストン大学の Boris Hanin 氏が協力して、DNN を「第一原理」から理解する方法に関する書籍「ディープラーニング理論の原理: ニューラルネットワークを理解するための効果的な理論アプローチ」を執筆しました。この本は2022年初頭にケンブリッジ大学出版局から出版される予定で、原稿は現在入手可能です。

書籍アドレス: https://arxiv.org/pdf/2106.10165.pdf

DNN を基礎から理解する

まず、「第一原理」とは何かを簡単に理解しましょう。

「第一原理」とは、物事の最も基本的な条件に戻り、それを要素に分解して分解分析し、目標を達成するための最適な道を見つけることを指します。

アリストテレスは、第一原理思考を提唱した最初の人物であり、それを「物事を認識するための第一の基盤」と定義しました。

発明家を含む多くの偉大な思想家が第一原理思考を採用してきましたが、起業家のイーロン・マスクほど効果的に第一原理思考を実行した人はいません。この言葉の人気はマスク氏の宣伝の恩恵も受けた。彼はかつてインタビューで、第一原理思考を特に支持していると述べたことがある。

この本の著者は、DNN を「第一原理」から理解しています。

この本は451ページあり、量子力学の創始者でありノーベル物理学賞受賞者のポール・ディラックの著書『量子力学の原理』の序文にある次の言葉で始まる。「これは歴史的な発展の道筋からの完全な離脱を必要とするが、この画期的な進歩は、人々が新しいアイデアに可能な限り直接的にアプローチできるようにするという点で有利である。」

基本的なレベルでは、この本は「第一原理」から DNN を理解するための理論的枠組みを提供します。 AI 実践者にとって、この理解は DNN のトレーニングに必要な試行錯誤の量を大幅に削減できる可能性があります。たとえば、理論的枠組みにより、現在必要とされる時間と計算量の多い実験を行わずに、任意のモデルに最適なハイパーパラメータを明らかにすることができます。

「この本は、理論物理学のよく知られた拡張に基づいた機械学習への魅力的なアプローチを提示している」とスタンフォード大学の物理学教授エヴァ・シルバースタイン氏は語った。「こうしたアプローチが人工知能の理解と改善にどこまで貢献できるかを見るのは楽しみだ。」

Facebookの副社長兼チーフAIサイエンティストのヤン・ルカン氏も、ツイッターでこの本を推薦し、「科学技術の発展の歴史では、望遠鏡、蒸気機関、デジタル通信など、工学関連のものが最初に登場することが多い。その機能と限界を説明する理論は、屈折の法則、熱力学、情報理論など、後から登場することが多い」と述べている。「ディープラーニングの登場により、AI主導の工学上の奇跡が私たちの生活に入り込んできたが、ディープラーニングの力と限界に関する私たちの理論的理解は依然として一方的である。これはディープラーニングの理論に特化した最も初期の本の1つであり、最近の理論的手法と結果を首尾一貫して列挙している」

これは、AI の科学を再構築するより大規模なプロジェクトの第一歩に過ぎません。このプロジェクトは、「第一原理」から導き出され、現実のモデルがどのように機能するかを説明することに重点を置いています。このディープラーニングの一般理論が成功すれば、AI モデルはさらに強力になり、研究者を知性の一般的な側面を研究するための枠組みへと導くことも可能になります。

相互作用するニューロン

これまで、DNN を理解しようとする理論家は、通常、ネットワークの理想化、いわゆる「無限幅の限界」に依存してきました。この限界では、DNN の各層には無限の数のニューロンがあります。

これは理想気体の法則と実際の気体の状況に似ています。無限の幅の制限は理論的分析の出発点となりますが、実際のディープラーニングモデル、特に抽象化が正確な説明からますます逸脱するバニラディープニューラルネットワークとはほとんど類似点がありません。「無限の幅の制限」は、時々は役に立つものの、実際の DNN の主要な機能を無視した過度な単純化であり、その主要な機能こそが DNN を非常に強力なものにしているツールである可能性があります。

この問題に物理学者の観点からアプローチする場合、鍵となるのは、「有限幅」に関する効果的な DNN 理論を確立することによって、この無限幅の制限を改善することです。伝統的に、物理学者は現実世界を記述するために必要な複雑さを最小限に抑えた、可能な限り最も単純で理想的なモデルを作成することを目指してきました。ここでは、無限幅の制限を取り除き、有限幅の影響を考慮して必要なすべての修正を体系的に組み込む必要があります。物理学の言葉で言えば、これは層内および層間のニューロン間の小さな相互作用をモデル化することを意味します。

これらは些細な変更のように聞こえるかもしれませんが、既存のおもちゃのモデルと本に記載されているモデルは質的に異なります。 2 つのビリヤードボールが互いに向かって進んでいるところを想像してください。無限幅の限界のような相互作用しないモデルを使用して何が起こるかを計算すると、ボールが互いを通過し、同じ方向に動き続けることがわかります。

しかし、明らかにそうではありません。ボール内の電子は同じ空間を占めることができないため、相互作用して跳ね回ります。

これらの相互作用は、現実の生活、物理学、そして DNN にとっても重要です。

ニューロン間のこのような類似した相互作用を考慮すると、本書の理論では、DNN の真の力、つまりデータから世界の表現を学習する能力は、アスペクト比、つまり深さと幅の比に比例すると結論付けられます。無限幅モデルの場合、この比率はゼロになるため、これらのおもちゃのモデルは深度をキャプチャできず、DNN の深度が増加するにつれてその説明はますます不正確になります。対照的に、有限幅のレイヤーでは、有効理論は実際に深さに影響します。これは、表現学習や、DNN の D (深さ) が本当に重要となるその他のアプリケーションにとって重要です。

「物理学において、有効場理論は粒子の複雑な相互作用を理解するための厳密かつ体系的な方法です」と、MITの物理学准教授であり、NSFの人工知能および基礎的相互作用のためのAI研究所所長であるジェシー・セイラー氏は言う。「同様に厳密かつ体系的なアプローチがディープネットワークのダイナミクスの理解に適用できることは、非常に興味深いことです。これらの進展に触発されて、物理学とAIコミュニティの間でより実りある対話が生まれることを期待しています。」

この本で説明されているフレームワークは、現代の AI コミュニティで使用されている実際の DNN に拡張でき、そのための青写真を提供しますが、この本は主に教育目的の最も単純なディープラーニングモデル (ディープマルチレイヤーパーセプトロン) に焦点を当てています。

この最も単純な構造に適用すると、有効な理論方程式を体系的に解くことができます。これは、トレーニングの軌跡全体にわたって DNN の動作を第一原理的に理解できることを意味します。特に、完全にトレーニングされた DNN が新しいテスト例に対して予測を行うために計算する関数を明示的に記述できます。

研究者たちは、この新しい実用的な理論によって、理論家たちがニューラルネットワークのより深く、より包括的な理解へと前進できることを期待している。まだ計算すべきことはたくさんありますが、この研究により、これらのモデルのどのような特定の特性によって、それらのモデルがインテリジェントに機能できるのかという理解に近づくことができるかもしれません。

研究者たちはまた、この本がAIコミュニティにおいて、現在の研究の進歩を制限することがある試行錯誤のサイクルを減らすのに役立つことを期待している。研究者たちは、AI 実践者がより効率的で、より優れたパフォーマンスを備え、より速くトレーニングできる、あるいはこれらすべてを兼ね備えたより優れたモデルを迅速に設計できるようにもしたいと考えています。特に、DNN を設計する研究者は、トレーニングなしで最適なハイパーパラメータを選択し、最適なアルゴリズムとモデル構造を選択して最良の結果を達成することができます。

長年にわたり、多くの人はこれらの疑問には決して答えたり説明したりすることはできないと信じていました。この本は、AI が説明できない芸術ではなく、実用的な AI は基本的な科学的原理を通じて理解できることを示しています。

研究者たちは、これが単なる始まりに過ぎず、この研究を継続して理論的枠組みを他のモデルアーキテクチャに拡張し、新たな結果を得ることを期待しています。さらに広い意味では、研究者たちは、この本が理論が現実のモデルへの洞察を提供できることを実証することを期待している。

近年、経験的成果によって人工知能は新たな高みに到達していますが、研究者たちは、1世紀以上前に統計力学が情報化時代をリードしたように、理論に基づく実践が人工知能の研究を加速させ、想像もできない新しい分野を発見する可能性を秘めていると固く信じています。

著者について

Sho Yaida 氏は Facebook 人工知能研究センター (FAIR) の科学者であり、理論物理学の手法をニューラルネットワークの理解に適用することを研究の中心としています。彼はスタンフォード大学でブラックホールの研究に注力して博士号を取得し、その後MITとデューク大学で博士研究員としてガラス物理学に転向した。

個人ホームページ：https://ai.facebook.com/people/sho-yaida/

ダン・ロバーツ氏は、MIT 理論物理学センターの研究者であり、Salesforce の主任研究員であり、国立科学財団の人工知能および基礎的相互作用研究所 (IAIFI) のメンバーです。彼の研究は、理論物理学のツールとアイデアを人工知能にどのように適用するかに焦点を当てています。

個人ホームページ: https://danintheory.com/

さらに、ディープラーニングや確率論などを主に研究するプリンストン大学のボリス・ハニン氏も研究協力者に含まれている。

個人ホームページ: https://hanin.princeton.edu/

<<: 人工知能と機械学習の違いと影響は何ですか?

>>: 交通分野における人工知能、ビッグデータ、その他の技術の応用に関する簡単な議論