マスク氏のxAI、初の公開研究成果がここに! 共著者の一人は、xAI の創設メンバーであり Shing-Tung Yau の弟子であるGreg Yang です。 以前、ヤング氏は xAI における自身の研究の方向性は「AI のための数学」と「数学のための AI」であると公に述べていました。 焦点の 1 つは、これまでの研究を継続することです。 ニューラルネットワークアーキテクチャを記述するための統一プログラミング言語である Tensor Programs関連の成果が GPT-4 に適用されています。 この新しい論文はこのシリーズに属しており、「無限深度ネットワークをトレーニングする方法」に焦点を当てています。 この目的のために、楊歌自身も𝕏で生放送を行った。 注目に値するエキサイティングなコンテンツを見てみましょう〜 無限の深さのニューラルネットワークのトレーニング簡単に言うと、この記事では残差ネットワーク (ResNet) の拡張を詳細に研究します。 残差ネットワークは、深度が増すと深層畳み込みニューラル ネットワークのパフォーマンスが低下する問題を解決することがわかっています。しかし、ネットワークが深くなり続けるにつれて、優れた深層残差ネットワークをトレーニングすることは依然として容易ではありません。 ネットワークが深くなると、機能の規模が拡大し続け、ネットワークが不安定になります。ネットワークを深くした後は、ハイパーパラメータを再調整する必要があり、これは大変な作業です... Yang Ge 氏とそのパートナーのアイデアは、特徴を学習し、ハイパーパラメータの移行を実現できるディープパラメータ化手法を見つけることです。 彼らはまず、無限に広いニューラル ネットワークの 2 つの極端なケース、つまりカーネル マシンまたは特徴学習者について考えました。後者の場合、最適なハイパーパラメータは幅によって変化しません。 ここでは、Tensor Programs フレームワークを使用して、無限に広いネットワークの限界ケースを分析します。 前述したように、テンソルプログラムはヤングの長期的な研究目標であり、数学言語を使用して、ニューラルネットワークアーキテクチャを記述および分析できる低レベルのプログラミング言語を確立することです。 具体的には、テンソル プログラムは行列の乗算と活性化関数で構成されます。ヤングは、ニューラル ネットワーク関数をこの言語で表現できれば、初期化分析を自動的かつ完全に実行できることを発見しました。 ここでは数学的な導出の詳細には立ち入りませんが、絵画のスタイルを見てみましょう... これらの導出と分析に基づいて、著者らは深さ方向のハイパーパラメータの移行を実現し、異なる深さでのハイパーパラメータの調整を大幅に簡素化できるDepth-μP法を提案しました。 Depth-μP には次の点が含まれます。
残差ブロックの深度が 1 の場合、Depth-μP が深度をパラメータ化する最適な方法であり、深度の増加に伴ってハイパーパラメータが収束し、深度方向のハイパーパラメータ転送が実現されることを著者らが発見したことは注目に値します。 ただし、残差ブロックの深さが 2 以上の場合には、ハイパーパラメータの移行の失敗やトレーニング パフォーマンスの低下といった問題が依然として発生します。 さらに、この論文では「特徴の多様性」という概念についても検討しており、これがディープネットワークにおいて重要な役割を果たすと考えています。 この論文のもう一人の共同筆頭著者はプリンストン大学のディンリ・ユー氏です。彼は清華大学の姚クラスを卒業し、学士号を取得し、現在はプリンストン大学のコンピュータサイエンス学部で博士号取得を目指しています。 ヤン・ゲは生放送中に何を言いましたか?生放送中、楊歌は視聴者の関心の高い質問にも答えた。 Quantum位は、本来の意味を変えずに、いくつかの問題を解決しました。 Q:私たちの多くにとって、それは理解を超えているかもしれません。しかし、あなたが言及したモデルは、私たちが体験できる ChatGPT や OpenAI のテクノロジーとどう違うのでしょうか? OpenAI の結果と比較して、この論文の重要な違いや革新点は何ですか? ヤング:簡単にコメントさせてください。これらの特性は、現時点では実用化に直接関係しているわけではなく、むしろ研究的な性質のものであると申し上げたいと思います。 もちろん、これらすべてを行う最終的な目標は、モデルをより良く、より安全なものにし、人類に利益をもたらすことです。私たちが今行っているのは、必ずしも直接的な効果をもたらすわけではない、予想される効果を説明することです。 今、私たちは全員同じ船に乗っており、短期的な仕事であれ長期的な応用研究であれ、全員にとって利益となるよう、できることを行っています。 Q:推論できる人工コンピューター脳を構築しているようですが、それはあなたが取り組んでいることなのでしょうか?また、私は母親で、7歳の息子は数学にとても興味を持っています。息子がAI分野に興味を持ち、情熱を持ち続けるためのアドバイスはありますか? ヤング氏: 「新しいネットワーク」とは人工ニューラルネットワークのことで、皆さんが毎日使っている Google、Facebook、Instagram など多くの最新テクノロジーの基盤になっていると私は考えています。これらのサービスの基盤には人工ニューラルネットワークが使われています。これらのネットワークは約 60 ~ 70 年前に作成され、動物や人間の実際のニューラル ネットワークにヒントを得ていますが、実際の神経科学からは逸脱しています。 これらのネットワークは本質的に数学の問題であるため、これらの新しい数学の問題を習得し、多くの分析を行うと、これらのニューラル ネットワークを深く理解できるようになります。 ニューロンがどのように接続されているかはまだ正確にはわかっていませんが、数学的研究を通じてこれらの人工ニューラル ネットワークを最適化し、テクノロジー企業が人々の生活を向上させることに貢献することができます。 2 番目の質問に関してですが、息子さんが数学にとても興味を持っていると聞いてとてもうれしく思います。これは、テクノロジーで素晴らしいものを生み出し、すべての人の生活を向上させるための基盤です。 私がアドバイスしたいのは、まず第一に息子さんの数学への情熱を維持しなければならないということです。これはとても重要です。この情熱を失ってしまうと、学習を続けることが難しくなります。 また、学習プロセスを面白くし、さらに興味を刺激するために、彼が何を好むかにも注意を払ってください。同時に、物事がどのように機能するかについての好奇心を育み、科学的な考え方を養い、好奇心に基づいた研究を行うように努めるべきです。それは物事を分解して、それがどのように機能するかを理解しようとするようなものです。 宇宙の数学的真実を探求することへの情熱を失ってしまうと、前進する意欲を維持することが難しくなるかもしれません。全体として、息子さんに世界、特に数学と科学の性質に対する強い関心と好奇心を育んでいただくことをお勧めします。 Q:もう少し抽象的な質問があります。深さは無限に近づくという考えを持っていて、その考えに基づいてこの論文を書いたわけですね。別のニューラル ネットワーク アーキテクチャの使用を検討しましたか?ニューロンと無数の層を持つ標準的なアーキテクチャではなく、まったく異なるものです。例えば、ニューロンがまったく異なる方法で配線されている、おそらく何らかの四角形でしょうか? ヤング氏:実際のところ、私たちの研究における非線形性と層の数に関する知見は、まだ非常に初期的な研究にすぎません。もちろん、どのような構造が適切か、あるいはどのような構造であるべきかについては、まだ議論すべき課題が数多くあります。 Meta チームは以前、ニューロンがランダムに接続されたときに何が起こるかを研究し、興味深い結果を得ました。ですから、ここでできることは間違いなくまだまだたくさんあります。今のところ、正しい構造やより良い構造が何であるかについての具体的な答えはわかりません。 楊歌についてヤング氏は湖南省生まれ。小学校卒業後、渡米し、ハーバード大学でシン・トン・ヤウ教授の指導の下で学士号を取得。 △ ヤングとシン・トン・ヤウ、出典:ヤングのツイッター 2017年、ヤング氏はハーバード大学を卒業し、シェン・シャンヤン氏の推薦によりマイクロソフトに入社した。 マイクロソフトでは、ヤング氏はシェン・シャンヤン氏から高い評価を受けました。数か月前、「基礎科学と人工知能」というフォーラムで、Shen Xiangyang 氏は次のように公に述べました。
彼自身が、GPT-4 が彼の μTransfer (Tensor Programs シリーズ)メソッドを使用していることを認めたことは特筆に値します。 ヤング氏は、非常に早い時期からテンソル プログラムの研究を始めました。2019 年に「Tensor Programs I」を出版し、マイクロソフトで働きながら、テンソル プログラムの研究を続けました。彼は、ディープラーニングにおけるほぼすべての計算はテンソル プログラムとして表現できると考えています。 今年7月、マスク氏は新会社xAIの設立を発表した。ヤング氏はマイクロソフトを退社し、xAIの創設チームに加わり、xAIの数学者となった。 xAIに入社後、ヤング氏は、Tensor Programsプロジェクトの長期目標は、大規模なディープラーニングのための「万物の理論」を開発すること、つまり、大規模なAIモデルの挙動を真に理解できる理論的なルールを見つけることであると何度も明らかにしました。 彼はまた次のように述べた。
論文リンク: https://arxiv.org/abs/2310.02244 |
>>: 数学的論理とコンピュータプログラムコードの深いつながり:互いの鏡像
科学者たちは長期にわたる調査により、人類文明の進歩が指数関数的な上昇傾向を示していることを発見した。...
数日前、「大規模言語モデルを使用した MIT 数学および EECS カリキュラムの調査」と題された論...
COVID-19 パンデミック、メンタルヘルス危機、医療費の高騰、人口の高齢化により、業界のリーダ...
近年、顔認識技術が急速に発展し、顔をスキャンするだけで高速鉄道駅に入ることができるので非常に便利です...
新型コロナウイルス感染者数がほぼ指数関数的に増加し、世界は機能停止状態に陥っている。世界保健機関によ...
[51CTO.com クイック翻訳]比較するためのより良い座標系がないため、人間がよく犯す間...
AIの助けがあれば、将来のオフィスではそれほど多くのコーヒーは必要なくなるかもしれません。サイエン...
こんにちは、みんな。今日も引き続き、興味深い AI プロジェクトを皆さんと共有したいと思います。前回...
再び道路の穴の季節がやってきました。アメリカ全土の道路が乗用車やトラックに復讐する、冬から春にかけて...
▲ 画像出典: IBM IBM Researchは10月24日、人間の脳の動作にヒントを得たというA...
複雑かつ効率的なニューラル ネットワーク アーキテクチャの出現により、畳み込みニューラル ネットワー...
計算の観点から見ると、ビッグデータ分析のトレンドは流れ星のように消えることはありません。データ量が増...
機械学習は急速に発展しています。実用的で高度な機械学習プロジェクトを見つけたい場合、第一の選択肢は ...