Musk xAI初の研究成果公開！創立メンバーのヤン・ゲとヤオクラスの卒業生が共同で創設した

マスク氏のxAI、初の公開研究成果がここに！

共著者の一人は、xAI の創設メンバーであり Shing-Tung Yau の弟子であるGreg Yang です。

以前、ヤング氏は xAI における自身の研究の方向性は「AI のための数学」と「数学のための AI」であると公に述べていました。

焦点の 1 つは、これまでの研究を継続することです。

ニューラルネットワークアーキテクチャを記述するための統一プログラミング言語である Tensor Programs関連の成果が GPT-4 に適用されています。

この新しい論文はこのシリーズに属しており、「無限深度ネットワークをトレーニングする方法」に焦点を当てています。

この目的のために、楊歌自身も𝕏で生放送を行った。

注目に値するエキサイティングなコンテンツを見てみましょう〜

無限の深さのニューラルネットワークのトレーニング

簡単に言うと、この記事では残差ネットワーク (ResNet) の拡張を詳細に研究します。

残差ネットワークは、深度が増すと深層畳み込みニューラルネットワークのパフォーマンスが低下する問題を解決することがわかっています。しかし、ネットワークが深くなり続けるにつれて、優れた深層残差ネットワークをトレーニングすることは依然として容易ではありません。

ネットワークが深くなると、機能の規模が拡大し続け、ネットワークが不安定になります。ネットワークを深くした後は、ハイパーパラメータを再調整する必要があり、これは大変な作業です...

Yang Ge 氏とそのパートナーのアイデアは、特徴を学習し、ハイパーパラメータの移行を実現できるディープパラメータ化手法を見つけることです。

彼らはまず、無限に広いニューラルネットワークの 2 つの極端なケース、つまりカーネルマシンまたは特徴学習者について考えました。後者の場合、最適なハイパーパラメータは幅によって変化しません。

ここでは、Tensor Programs フレームワークを使用して、無限に広いネットワークの限界ケースを分析します。

前述したように、テンソルプログラムはヤングの長期的な研究目標であり、数学言語を使用して、ニューラルネットワークアーキテクチャを記述および分析できる低レベルのプログラミング言語を確立することです。

具体的には、テンソルプログラムは行列の乗算と活性化関数で構成されます。ヤングは、ニューラルネットワーク関数をこの言語で表現できれば、初期化分析を自動的かつ完全に実行できることを発見しました。

ここでは数学的な導出の詳細には立ち入りませんが、絵画のスタイルを見てみましょう...

これらの導出と分析に基づいて、著者らは深さ方向のハイパーパラメータの移行を実現し、異なる深さでのハイパーパラメータの調整を大幅に簡素化できるDepth-μP法を提案しました。

Depth-μP には次の点が含まれます。

各残差ブランチには、深さ L の平方根に反比例する係数 a/sqrt(L) があります。
最適化アルゴリズムの種類に応じて、深度 L が増加するにつれて、各重み行列の学習率が低下します。 SGD の場合、学習率は定数 η です。Adam などの適応型最適化アルゴリズムの場合、学習率は η/sqrt(L) です。

残差ブロックの深度が 1 の場合、Depth-μP が深度をパラメータ化する最適な方法であり、深度の増加に伴ってハイパーパラメータが収束し、深度方向のハイパーパラメータ転送が実現されることを著者らが発見したことは注目に値します。

ただし、残差ブロックの深さが 2 以上の場合には、ハイパーパラメータの移行の失敗やトレーニングパフォーマンスの低下といった問題が依然として発生します。

さらに、この論文では「特徴の多様性」という概念についても検討しており、これがディープネットワークにおいて重要な役割を果たすと考えています。

この論文のもう一人の共同筆頭著者はプリンストン大学のディンリ・ユー氏です。彼は清華大学の姚クラスを卒業し、学士号を取得し、現在はプリンストン大学のコンピュータサイエンス学部で博士号取得を目指しています。

ヤン・ゲは生放送中に何を言いましたか?

生放送中、楊歌は視聴者の関心の高い質問にも答えた。 Quantum位は、本来の意味を変えずに、いくつかの問題を解決しました。

Q:私たちの多くにとって、それは理解を超えているかもしれません。しかし、あなたが言及したモデルは、私たちが体験できる ChatGPT や OpenAI のテクノロジーとどう違うのでしょうか? OpenAI の結果と比較して、この論文の重要な違いや革新点は何ですか?

ヤング：簡単にコメントさせてください。これらの特性は、現時点では実用化に直接関係しているわけではなく、むしろ研究的な性質のものであると申し上げたいと思います。

もちろん、これらすべてを行う最終的な目標は、モデルをより良く、より安全なものにし、人類に利益をもたらすことです。私たちが今行っているのは、必ずしも直接的な効果をもたらすわけではない、予想される効果を説明することです。

今、私たちは全員同じ船に乗っており、短期的な仕事であれ長期的な応用研究であれ、全員にとって利益となるよう、できることを行っています。

Q:推論できる人工コンピューター脳を構築しているようですが、それはあなたが取り組んでいることなのでしょうか?また、私は母親で、7歳の息子は数学にとても興味を持っています。息子がAI分野に興味を持ち、情熱を持ち続けるためのアドバイスはありますか？

ヤング氏： 「新しいネットワーク」とは人工ニューラルネットワークのことで、皆さんが毎日使っている Google、Facebook、Instagram など多くの最新テクノロジーの基盤になっていると私は考えています。これらのサービスの基盤には人工ニューラルネットワークが使われています。これらのネットワークは約 60 ～ 70 年前に作成され、動物や人間の実際のニューラルネットワークにヒントを得ていますが、実際の神経科学からは逸脱しています。

これらのネットワークは本質的に数学の問題であるため、これらの新しい数学の問題を習得し、多くの分析を行うと、これらのニューラルネットワークを深く理解できるようになります。

ニューロンがどのように接続されているかはまだ正確にはわかっていませんが、数学的研究を通じてこれらの人工ニューラルネットワークを最適化し、テクノロジー企業が人々の生活を向上させることに貢献することができます。

2 番目の質問に関してですが、息子さんが数学にとても興味を持っていると聞いてとてもうれしく思います。これは、テクノロジーで素晴らしいものを生み出し、すべての人の生活を向上させるための基盤です。

私がアドバイスしたいのは、まず第一に息子さんの数学への情熱を維持しなければならないということです。これはとても重要です。この情熱を失ってしまうと、学習を続けることが難しくなります。

また、学習プロセスを面白くし、さらに興味を刺激するために、彼が何を好むかにも注意を払ってください。同時に、物事がどのように機能するかについての好奇心を育み、科学的な考え方を養い、好奇心に基づいた研究を行うように努めるべきです。それは物事を分解して、それがどのように機能するかを理解しようとするようなものです。

宇宙の数学的真実を探求することへの情熱を失ってしまうと、前進する意欲を維持することが難しくなるかもしれません。全体として、息子さんに世界、特に数学と科学の性質に対する強い関心と好奇心を育んでいただくことをお勧めします。

Q:もう少し抽象的な質問があります。深さは無限に近づくという考えを持っていて、その考えに基づいてこの論文を書いたわけですね。別のニューラルネットワークアーキテクチャの使用を検討しましたか?ニューロンと無数の層を持つ標準的なアーキテクチャではなく、まったく異なるものです。例えば、ニューロンがまったく異なる方法で配線されている、おそらく何らかの四角形でしょうか?

ヤング氏：実際のところ、私たちの研究における非線形性と層の数に関する知見は、まだ非常に初期的な研究にすぎません。もちろん、どのような構造が適切か、あるいはどのような構造であるべきかについては、まだ議論すべき課題が数多くあります。

Meta チームは以前、ニューロンがランダムに接続されたときに何が起こるかを研究し、興味深い結果を得ました。ですから、ここでできることは間違いなくまだまだたくさんあります。今のところ、正しい構造やより良い構造が何であるかについての具体的な答えはわかりません。

楊歌について

ヤング氏は湖南省生まれ。小学校卒業後、渡米し、ハーバード大学でシン・トン・ヤウ教授の指導の下で学士号を取得。

△ ヤングとシン・トン・ヤウ、出典：ヤングのツイッター

2017年、ヤング氏はハーバード大学を卒業し、シェン・シャンヤン氏の推薦によりマイクロソフトに入社した。

マイクロソフトでは、ヤング氏はシェン・シャンヤン氏から高い評価を受けました。数か月前、「基礎科学と人工知能」というフォーラムで、Shen Xiangyang 氏は次のように公に述べました。

Microsoft Research では通常、博士課程の学生のみを採用しており、Young 氏は学部卒業生として Microsoft Research に入社しました。彼は Microsoft Research に加わっただけでなく、過去 5 年間にわたって素晴らしい仕事をし、特に GPT の開発に多大な貢献をしてきました。

彼自身が、GPT-4 が彼の μTransfer (Tensor Programs シリーズ)メソッドを使用していることを認めたことは特筆に値します。

ヤング氏は、非常に早い時期からテンソルプログラムの研究を始めました。2019 年に「Tensor Programs I」を出版し、マイクロソフトで働きながら、テンソルプログラムの研究を続けました。彼は、ディープラーニングにおけるほぼすべての計算はテンソルプログラムとして表現できると考えています。

今年7月、マスク氏は新会社xAIの設立を発表した。ヤング氏はマイクロソフトを退社し、xAIの創設チームに加わり、xAIの数学者となった。

xAIに入社後、ヤング氏は、Tensor Programsプロジェクトの長期目標は、大規模なディープラーニングのための「万物の理論」を開発すること、つまり、大規模なAIモデルの挙動を真に理解できる理論的なルールを見つけることであると何度も明らかにしました。

彼はまた次のように述べた。