LeCun の最新インタビュー: 物理世界が最終的に LLM の「アキレス腱」となるのはなぜでしょうか?

人工知能の分野では、65歳になってもソーシャルメディアで活発に活動しているヤン・ルカンのような学者はほとんどいません。

ヤン・ルカン氏は、率直な批評家として人工知能の分野で常に活躍してきました。彼は常にオープンソースをサポートし、Meta チームを率いて Llama 2 を立ち上げました。Llama 2 は現在、オープンソースの大規模モデル分野の半分を占めています。彼は、多くの人がひどくパニックに陥っている人工知能の終末論に反対しており、AGI の到来は良いことであると固く信じています...

最近、LeCun 氏は再び Lex Fridman 氏のポッドキャストに出演し、オープンソースの重要性、LLM の限界、AI 終末論者が間違っている理由、AGI への道筋などのトピックについて 3 時間近くにわたって会話を交わしました。

視聴ページ: https://youtu.be/5t1vTLU7s40?feature=shared

ポッドキャストから最も興味深い洞察をいくつか厳選しました。そのハイライトをいくつかご紹介します。

LLMの限界

レックス・フリードマン: 自己回帰型法学修士課程は超人的な知能の実現に向けた進歩を遂げる方法ではないとおっしゃいましたね。なぜ彼らは私たちを最後まで連れて行ってくれないのでしょうか?

ヤン・ルカン：いくつか理由があります。まず、知的な行動には多くの特徴があります。たとえば、世界を理解する能力、物理的な世界を理解する能力、物事を記憶して取り出す能力、持続的な記憶、推論、計画などです。これらは、インテリジェントなシステムまたはエンティティ、人間、および動物の 4 つの基本的な特性です。 LLM ではこれらを行うことができないか、非常に原始的な方法でしか行うことができず、物理的な世界を実際には理解していません。 LLM には実際の永続的な記憶がなく、推論することもできず、ましてや計画を立てることもできません。したがって、システムがインテリジェントであると期待しているのに、これらのことが実行できない場合は、間違いを犯していることになります。これは、自己回帰 LLM が役に立たないと言っているのではありません。これらは確かに便利ですが、それらを中心にアプリケーションエコシステム全体を構築できないほど興味深いものではありません。しかし、人間レベルの知能へのパスポートとしては、必須の要素が欠けています。

私たちは言語よりも感覚入力を通じてはるかに多くのことを見ており、直感に反して、私たちが学び知っていることのほとんどは、言語ではなく、観察と現実世界との関わりを通じて得られます。私たちが人生の最初の数年間に学ぶこと、そしてもちろん動物が学ぶことはすべて、言語とはまったく関係がありません。

レックス・フリードマン: つまり、法学修士課程の学生は物理的な世界に対する理解が欠けているということですか?ですから、直感的な物理学、つまり物理的な空間や物理的な現実についての常識的な推論は、あなたにとって特別なことではありません。これは LLM では達成できない大きな飛躍でしょうか?

Yann LeCun:現在使用されている LLM では、さまざまな理由でそれができませんが、主な理由は LLM のトレーニング方法にあります。テキストの一部を取得し、テキストからいくつかの単語を削除してマスクし、空白のトークンに置き換え、遺伝的ニューラルネットワークをトレーニングして、欠落している単語を予測します。このニューラルネットワークを、左側の単語または予測しようとしている単語のみを参照するように特定の方法で構築すると、基本的にテキスト内の次の単語を予測しようとするシステムが得られます。つまり、テキストやプロンプトを入力すると、次の単語を予測させることができます。次の単語を正確に予測することはできません。

つまり、辞書内のすべての可能な単語に対して確率分布を生成します。実際のところ、単語を予測するわけではありません。単語の塊をサブワード単位で予測するので、辞書内の単語の数は限られており、その分布を計算するだけでよいため、予測の不確実性を簡単に処理できます。次に、システムはその分布から単語を選択します。もちろん、この分布では、より高い確率で単語が選択される可能性が高くなります。したがって、その分布からサンプリングして実際に単語を生成し、その単語を入力に移動して、システムが 2 番目の単語を予測しないようにします。

これは自己回帰予測と呼ばれ、そのためこれらの LLM は実際には「自己回帰 LLM」と呼ばれるべきですが、私たちは単に LLM と呼んでいます。このプロセスは、単語が生成される前のプロセスとは異なります。

あなたと私が話すとき、あなたと私はバイリンガルであり、何を言うかを考えますが、それは話している言語とはほとんど関係ありません。数学的な概念について話すとき、私たちが行う思考や与えようとする答えは、それをフランス語、ロシア語、英語のどれで表現するかとはまったく関係がありません。

レックス・フリードマン: チョムスキーは目を回していましたが、わかりました。つまり、言語の前に存在し、言語にマッピングされるより大きな抽象概念があるということですか?

ヤン・ルカン：そうですね、私たちが考えることの多くにおいてはそうです。

レックス・フリードマン: あなたのユーモアは抽象的ですか?あなたがツイートするとき、そしてあなたのツイートが時々少し刺激的なものになる場合、そのツイートが英語にマッピングされる前に、あなたの脳内にその抽象的な表現があるのですか?

ヤン・ルカン：確かに、テキストに対する読者の反応を想像するための抽象的な表現があります。しかし、数学的な概念について考えたり、木で何かを作りたいと想像したり、そのような類の思考は言語とは何の関係もありません。特定の言語で内なる独白をしているわけではありません。あなたは物事のメンタルモデルを想像しています。つまり、このウォーターボトルを 90 度回転させたらどうなるかを想像してくださいと頼んだとしても、それは言語とは何の関係もありません。明らかに、私たちの思考のほとんどはより抽象的な表現レベルで行われ、出力が言語である場合は、何を言うかを計画しますが、出力が筋肉の動きである場合は、答えを出す前に答えを計画します。

LLM はそんなことはせず、ただ本能のままに言葉を並べ立てるだけです。それは少し潜在意識の行動のようなもので、誰かが来て質問をし、あなたはその質問に答えます。答えを考える時間はありませんでしたが、答えは簡単でした。したがって、注意を払う必要はなく、自動的に反応します。それがLLMの仕事です。答えについてはあまり考えていません。多くの知識を蓄積しているため、何かを検索することはできますが、答えを計画せずにトークンを次々に吐き出すだけです。

Lex Fridman: トークンを 1 つずつ生成するのは必然的に単純化されますが、世界モデルが十分に複雑な場合は、一連のトークンが生成される可能性が高く、それは非常に重要なことです。

ヤン・ルカン：しかしこれは、これらのシステムが実際に世界の永続的なモデルを持っているという仮定に基づいています。

ビデオ予測

レックス・フリードマン：それで本当の質問は…世界を深く理解するモデルを構築できるかどうかです。

ヤン・ルカン：予測を通じて構築できるでしょうか？答えはおそらくイエスです。しかし、単語を予測することでそれを構築できるのでしょうか?答えはおそらく「いいえ」です。なぜなら、帯域幅が弱い場合や低い場合、言語は非常に貧弱になり、十分な情報が含まれていないからです。したがって、世界モデルを構築するということは、世界を観察し、世界がなぜそのように動作するのか理解することを意味します。そして、世界モデルの追加コンポーネントは、自分が取る可能性のあるアクションの結果として世界がどのように動作するかを予測できることです。

したがって、実際のモデルは次のようになります。これが T 時点の世界の状態についての私の考えであり、これが私が実行できる可能性のあるアクションです。 T+1 の時点で、世界の予測される状態は何でしょうか?さて、世界の状態は世界に関するすべてを表す必要はなく、このアクションの計画に関連する十分な情報を表すだけでよく、必ずしもすべての詳細を表す必要はありません。

さて、ここで質問です。生成モデルではこれができません。したがって、生成モデルはビデオでトレーニングする必要があり、私たちは 10 年間これを実行しようとしてきました。ビデオを撮影し、システムにビデオを見せ、ビデオのリマインダーを予測するように求められます。基本的に、何が起こるかを予測します。

必要に応じて、大きなビデオモックアップを作成します。これを行うというアイデアは古くからあり、FAIR では私と同僚の何人かが 10 年間これを実行しようとしてきましたが、LLM と同じトリックを実際に実行することはできません。LLM では、前述したように、単語のシーケンスにどの単語が続くかを正確に予測することはできませんが、単語の分布を予測することはできるからです。現在、ビデオを観る場合、ビデオ内のすべての可能なフレームの分布を予測する必要がありますが、それを正しく行う方法はよくわかっていません。

高次元連続空間上の分布を有用な方法で表現する方法がわかりません。これが主な問題であり、これが可能なのは、世界が言葉よりもはるかに複雑で情報に富んでいるからです。テキストは離散的ですが、ビデオは高次元かつ連続的です。ここにはたくさんの詳細があります。ですから、この部屋のビデオを撮影し、ビデオの中でカメラが動き回っていたら、動き回っているときに部屋の中に何があるのかをすべて予測することはできませんでした。また、このシステムは、カメラが回っているときに部屋に何が現れるかを予測することもできません。おそらく、ここが部屋であること、そこには明かりがあること、壁があること、といったことを予測できるでしょう。壁に描かれた絵がどのようなものか、ソファの質感がどのようなものかは予測できません。もちろん、カーペットの質感を予測することは不可能です。したがって、すべての詳細を予測することはできません。

そこで、この問題に対処する 1 つの方法、そして私たちが検討してきた方法は、潜在変数と呼ばれるものを持つモデルを持つことです。ニューラルネットワークに入力される潜在変数は、まだ認識していない世界に関するすべての情報を表す必要があります。カーペット、ソファ、壁の絵画の微妙な質感など、ピクセルを予測する能力を高めるには、システムの予測力を強化する必要があります。

私たちは、ストレートニューラルネットワーク、GAN、VAE、さまざまな正規化オートエンコーダを試しました。また、これらの方法を使用して、画像やビデオの適切な表現を学習し、それを画像分類システムなどの入力として使用できるようにしたいと考えています。基本的にすべて失敗しました。

画像やビデオの破損バージョンから欠落部分を予測しようとするすべてのシステムは、基本的に同じことを行います。つまり、画像またはビデオを取得し、それを何らかの方法で破損または変換し、破損バージョンから完全なビデオまたは画像を再構築しようとします。その後、システムがオブジェクト認識、セグメンテーション、またはその他の目的に使用できる適切な画像表現を内部的に開発できることを期待します。このアプローチは基本的に完全に失敗しますが、テキストの場合は非常にうまく機能します。これは LLM で使用される原則です。

レックス・フリードマン: 失敗の原因はどこにあるのでしょうか?重要な情報をすべて画像内にうまく埋め込むなど、画像をうまく提示するのは難しいですか?映像と映像、映像と映像の一貫性が映像を形作るのでしょうか？あなたがこれまでに失敗してきたことをすべてまとめるとしたら、どのような感じになるでしょうか?

ヤン・ルカン：まず、何が機能しないのかをお話ししなければなりません。他に機能するものもあるからです。したがって、システムに画像の表現を学習させ、破損した画像から良好な画像を再構築するようにトレーニングすることはうまくいきません。

これには、ノイズ除去オートエンコーダのさまざまなバリエーションからなる一連の技術があり、FAIR の同僚の何人かは MAE (マスクオートエンコーダ) と呼ばれるものを開発しました。つまり、基本的には LLM のようなもので、テキストを破損させてシステムをトレーニングしますが、画像を破損し、そこからパッチを削除して、巨大なニューラルネットワークをトレーニングして再構築します。得られる特徴は良くありませんが、良くないのは、同じアーキテクチャをトレーニングし、ラベル付きデータ、画像のテキスト説明などを使用して教師ありトレーニングを行うと、非常に優れた表現が得られ、この自己教師あり再トレーニングを行うよりも認識タスクのパフォーマンスがはるかに優れているためです。

構造は良好で、エンコーダーの構造も良好ですが、画像を再構築するようにシステムをトレーニングしても、長くて優れた画像の普遍的な特徴が生成されるわけではありません。では、選択肢は何でしょうか?もう 1 つのアプローチは、ジョイント埋め込みです。

JEPA (ジョイント埋め込み予測アーキテクチャ)

Lex Fridman: Joint Embedded Architecture と LLM の根本的な違いは何ですか? JEPA は AGI に導いてくれるでしょうか?

Yann LeCun : まず、LLM のような生成アーキテクチャとどう違うのでしょうか? LLM または再構成によってトレーニングされた視覚システムが入力を生成します。これらは破損も変換もされていない生の入力を生成するため、すべてのピクセルを予測する必要があり、システムが実際にすべてのピクセルとすべての詳細を予測するには多くのリソースが必要になります。 JEPA では、すべてのピクセルを予測する必要はなく、入力の抽象的な表現を予測するだけで済みます。これは多くの点ではるかに簡単です。したがって、JEPA システムはトレーニング時に入力からできるだけ多くの情報を抽出することになりますが、抽出されるのは比較的予測しやすい情報のみです。したがって、世の中には予測できないことがたくさんあります。たとえば、自動運転車が街路や道路を走行している場合、道路の周囲に木々があったり、風が強い日だったりするかもしれません。つまり、木の葉は半ば無秩序でランダムに動き回りますが、その動きは予測できず、気にする必要もなく、予測したくもありません。したがって、エンコーダーでは基本的にこれらすべての詳細を排除する必要があります。葉が動いていることはわかりますが、何が起こっているのかは正確にはわかりません。したがって、表現空間で予測を行うときは、すべての葉のすべてのピクセルを予測する必要はありません。これははるかに単純なだけでなく、システムが本質的に世界の抽象的な表現を学習することも可能になり、モデル化および予測できるものは保持され、残りはエンコーダによってノイズとして扱われ、除去されます。

したがって、表現の抽象化のレベルが上がります。考えてみれば、これは間違いなく私たちがいつもやっていることなのです。現象を説明するときは常に、一定の抽象レベルで説明します。あらゆる自然現象を説明するのに、必ずしも量子場理論が使われるわけではありません。それは不可能だ。したがって、量子場理論から原子論、分子、化学、材料、さらには現実世界の具体的な物体に至るまで、世界で起こっていることを説明するには複数のレベルの抽象化が必要です。したがって、すべてを最低レベルでシミュレートすることはできません。これはまさに JEPA の考え方であり、抽象的な表現を自己教師あり方式で学習し、階層的に学習することもできます。ですから、それはインテリジェントシステムの重要な部分であると思います。言語の場合、すでにある程度抽象的であり、予測できない多くの情報を排除するため、これを行う必要はありません。したがって、共同埋め込みや抽象化のレベルを上げることなく、単語を直接予測することができます。

レックス・フリードマン: 言語のことですね。抽象的な表現が無料で手に入るので、言語を使うのが面倒になってしまい、今では視野を広くして、一般的なインテリジェントシステムについて真剣に考えなければなりません。私たちは混乱した物理的現実と現実に対処しなければなりません。そして、完全で豊かで詳細な現実から、推論できる内容やその他あらゆるものに基づいた現実の抽象的な表現へとジャンプするには、実際にそうする必要があります。

ヤン・ルカン：その通りです。表現空間であっても予測によって学習する自己教師ありアルゴリズムは、入力データがより冗長であればあるほど、より多くの概念を学習します。データの冗長性が高くなるほど、データの内部構造をより正確に把握できるようになります。したがって、知覚入力、つまり視覚などの感覚入力には、テキストよりもはるかに多くの冗長な構造があります。言語は圧縮されているため、実際にはより多くの情報を表現できる可能性があります。確かにその通りですが、冗長性も低くなるため、自己監視もそれほど良くありません。

Lex Fridman: 視覚データの自己教師ありトレーニングと言語データの自己教師ありトレーニングを組み合わせることは可能ですか? 10 〜 13 個のトークンについて話していますが、その中には多くの知識が含まれています。これら 10 個または 13 個のトークンは、Reddit のくだらない情報、すべての書籍や記事の内容、そして人類の知性がこれまでに作り出したすべてのものなど、私たち人間が解明したすべてのものを表しています。

ヤン・ルカン：そうですね、最終的にはそうです。しかし、あまりに早くそうすると、不正行為を誘発される危険性があると思います。そして実際、これはまさに現在人々が視覚言語モデルを使って行っていることです。私たちは本質的には不正行為をしており、不完全な視覚システムが画像や動画から適切な表現を学習できるように、言語を支えとして利用しているのです。

これの問題は、画像を入力すると言語モデルを改良できるものの、猫や犬には言語がないため、彼らの知能や世界に対する理解のレベルに近づくことすらできないことです。彼らは言語を話せませんが、どんな LLM よりも世界をはるかによく理解しています。非常に複雑な行動を計画し、一連の行動の結果を想像することができます。これを言語と組み合わせる前に、機械に学習させるにはどうすればよいでしょうか?明らかに、これを言語と組み合わせれば結果が得られますが、その前に、世界がどのように機能するかをシステムに学習させる方法に焦点を当てる必要があります。

実際、私たちが使用した手法は比較できるものではありません。したがって、アーキテクチャが非生成的であるだけでなく、使用する学習手順も非対照的です。私たちは2つの技術を持っています。 1 つは蒸留法に基づいています。この原理を使用する方法は多数あります。DeepMind には BYOL と呼ばれるものがあり、FAIR にはいくつかあり、1 つは vcREG と呼ばれ、もう 1 つは I-JEPA と呼ばれます。 vcREG は蒸留方式ではないと言うべきですが、I-JEPA と BYOL は確かに蒸留方式です。 DINO または DINO とも呼ばれる別のものもあり、これも FAIR から生成されます。これらの方法の背後にある考え方は、完全な入力、たとえば画像を取得し、それをエンコーダーに通して表現を生成し、次に入力を破損または変換し、本質的には同じだが微妙な違いがあるエンコーダーに通して予測子をトレーニングするというものです。

予測子は非常に単純な場合もあれば、存在しない場合もありますが、最初の破損していない入力と破損した入力の関係を予測するようにトレーニングされます。しかし、2 番目のブランチのみをトレーニングします。破損した入力が与えられたネットワークの部分のみをトレーニングします。他のネットワークではトレーニングは必要ありません。ただし、同じ重みを共有しているため、最初のネットワークを変更すると、2 番目のネットワークも変更されます。さまざまなトリックを使用することで、システムが基本的に入力を無視する、先ほど説明したようなクラッシュを防ぐことができます。したがって、この方法は非常に効果的です。 FAIR で開発した 2 つのテクノロジー、DINO と I-JEPA は、この点で非常に効果的です。

最新バージョンは V-JEPA と呼ばれます。基本的には I-JEPA と同じ考え方ですが、ビデオに適用されています。つまり、ビデオ全体を撮影し、その大部分をブロックすることができます。私たちがマスクしているのは、実際にはタイムチューブなので、ビデオ全体のすべてのフレームのクリップ全体です。

これは、優れたビデオ表現を学習できる初めてのシステムです。そのため、これらの表現を教師あり分類器ヘッドに入力すると、ビデオ内でどのようなアクションが起こっているかを非常に高い精度で伝えることができます。ですから、このような品質のものを入手したのは初めてです。

結果は、一部のオブジェクトが消えたり、オブジェクトが突然ある場所から別の場所にジャンプしたり、形状が変わったりするなど、ビデオが物理的に可能であるか、完全に不可能であるかを、私たちのシステムが表現を使用して判断できることを示しているようです。

レックス・フリードマン：これによって、車を運転できるほど世界を十分に理解した世界モデルを構築できるのでしょうか？

ヤン・ルカン：この目標を達成するには、しばらく時間がかかるかもしれません。このアイデアに基づいたロボットシステムはすでにいくつか存在します。必要なのは、わずかに修正されたバージョンです。完成したビデオがあり、そのビデオを未来に移動することを考えてみましょう。そのため、元のビデオではビデオの冒頭部分しか表示されず、後半部分は表示されなかったり、ビデオの後半部分だけがブロックされたりすることがあります。次に、JEPA システムまたは私が説明した種類のシステムをトレーニングして、遮蔽されたビデオの完全な表現を予測できます。ただし、予測子にアクションを提供する必要もあります。例えば、車輪が右に10度回転するとか、そういうことですよね？

したがって、これが車載カメラであり、ハンドルの角度がわかっていれば、見ている画像がどうなるかをある程度予測できるはずです。当然、ビューに表示されるオブジェクトの詳細をすべて予測することはできませんが、抽象的な表現のレベルでは、何が起こるかを予測できる可能性があります。これで、次のような内部モデルができました。「これが T 時点の世界の状態についての私の考えで、これが私が取るアクションです。これが T + 1 秒、T + デルタ T 秒、T + 2 秒での世界の状態の予測です」。このようなモデルがあれば、それを計画に活用することができます。つまり、LMS ではできない、やりたいことを計画する作業ができるようになりました。つまり、特定の結果に到達したり、特定の目標を達成したりしたときです。

したがって、多くの目標を持つことができます。このような物体を持って手を開くと、落ちるだろうと予測できます。特定の力でテーブルに押し付けると、動きます。同じ力でテーブルを押しても、おそらく動かないでしょう。その結果、私たちは心の中に世界の内部モデルを持ち、特定の目標を達成するための行動計画を立てることができるようになります。さて、この世界モデルがあれば、一連のアクションを想像し、その一連のアクションの結果を予測し、最終状態がボトルをテーブルの左側に移動するなどの特定の目標をどの程度満たしているかを測定し、その目標を最小限に抑える一連のアクションを実行時に計画することができます。

私たちは学習について話しているのではなく、推論の時間について話しているので、それが実際の計画なのです。これは最適制御における非常に古典的なものです。これをモデル予測制御といいます。一連の命令に対応する一連の状態を予測する、制御したいシステムのモデルがあります。代わりに、ロールモデルに基づいて、システムの最終状態が設定した目標を満たすように、一連の指示を計画します。ロケットの軌道は、1960年代初頭にコンピュータが発明されて以来、このように計画されてきました。

強化学習

Lex Fridman: 生成モデルを放棄して、ジョイント埋め込みアーキテクチャを採用することをお勧めしますか?あなたは長い間、強化学習を批判してきました。これは法廷証言のように感じられます。確率モデルを放棄して先ほど話したエネルギーベースのモデルを採用し、対照的な方法を放棄して正規化された方法を採用しています。

Yann LeCun : 完全に廃止すべきだとは思いませんが、サンプリングの点で非常に非効率なので、その使用は最小限に抑えるべきだと思います。したがって、システムをトレーニングする正しい方法は、まず主に観察（および場合によっては少しの相互作用）から世界と世界モデルの適切な表現を学習させることです。

レックス・フリードマン：RLHF がこれほどうまく機能するのはなぜでしょうか?

Yann LeCun : 変革効果をもたらすのは人間からのフィードバックであり、それを利用する方法は数多くあります。その中には単なる監督もあり、実際のところ、それは強化学習ではありません。

オープンソース

ヤン・ルカン：AI 業界を構築し、固有の偏りのない AI システムを実現する唯一の方法は、あらゆるグループが専門的なシステムを構築できるオープンソースプラットフォームを持つことです。歴史の必然的な方向性として、AI システムの大部分はオープンソースプラットフォーム上に構築されることになります。

Meta の基盤となるビジネスモデルは、サービスを提供するというものであり、そのサービスは広告または商業顧客によって資金提供されます。

たとえば、WhatsApp 経由で顧客と会話することでピザ店を支援できる LLM があれば、顧客はピザを注文するだけで、システムが「トッピングは何にしますか、サイズはどのくらいにしますか」などを尋ねます。商人がこれにお金を払う、それがモデルです。

あるいは、より古典的なサービスシステムであれば、広告によってサポートされたり、複数のモデルが存在したりすることもあります。しかし、潜在的顧客基盤が十分に大きく、とにかく彼らのためにシステムを構築する必要がある場合は、オープンソースでリリースしても問題はありません。

レックス・フリードマン：メタが賭けているのは、「我々はもっと良い結果を出せるだろうか？」ということです。

ヤン・ルカン：いいえ。当社にはすでに膨大なユーザーベースと顧客ベースがあります。

また、他者がその上にアプリケーションを構築するための基礎モデルとなるオープンソースシステムや基本モデルを提供することも問題ありません。これらのアプリがお客様にとって有用であれば、直接お客様から購入することも可能です。プラットフォームが改善されるかもしれません。実際、私たちはすでにこれを見ています。 LLaMA 2 は数百万回ダウンロードされており、何千人もの人々がプラットフォームの改善方法についてのアイデアを提供してきました。したがって、これにより、システムを幅広いユーザーに提供するプロセスが明らかにスピードアップし、何千もの企業がこのシステムを使用してアプリケーションを構築しています。したがって、このテクノロジーから収益を生み出す Meta の能力は、基盤となるモデルのオープンソース配布によって影響を受けません。

ラマ3

Lex Fridman: LLaMA 3 で最も期待していることは何ですか?

Yann LeCun : LLaMA には、以前の LLaMA よりも大きく、より優れ、マルチモーダルなど、さまざまな改良を加えたさまざまなバージョンがあります。そして、将来の世代には、世界がどのように機能するかを実際に理解できる計画システムがあり、おそらくビデオでトレーニングされているため、世界についての何らかのモデルを持ち、先ほどお話ししたような推論や計画を実行できる可能性があります。

これにはどれくらい時間がかかりますか?この方向の研究が製品ラインに反映されるのはいつでしょうか?分かりませんし、教えることもできません。基本的に、そこに到達するまでにいくつかのブレークスルーを経る必要がありますが、私たちは研究を公開しているので、皆さんは私たちの進捗状況を監視することができます。そこで先週、ビデオトレーニングシステムへの第一歩となる V-JEPA の取り組みをリリースしました。

次のステップは、この種のビデオ創造性を訓練した世界モデルになります。 DeepMind でも同様の研究が行われており、カリフォルニア大学バークレー校でも世界モデルとビデオに関する研究が行われています。多くの人がこれに取り組んでいます。たくさんの良いアイデアが生まれていると思います。私の予想では、これらのシステムは JEPA ライトシステムであり、生成モデルではないため、将来何が起こるかがわかります。

30 年以上前、私たちは組み合わせネットワークと初期のニューラルネットワークに取り組んでいましたが、世界を理解し、記憶し、計画し、推論できるシステムを備えた人間レベルの知能への道を見出しました。進展して実現する可能性があるアイデアがいくつかあり、私はそれについて本当に興奮しています。

私が気に入っているのは、私たちがある程度良い方向に向かっていて、私の脳がホワイトソースに変わったり、私が引退したりする前に成功するかもしれないということです。

Lex Fridman: あなたの興味のほとんどは、まだ理論面、ソフトウェア面にありますか?

Yann LeCun : 私は何年も前はハードウェアの専門家でした。規模は必要ですが、十分ではありません。今後10年は生きられるかもしれないが、それでも短い距離を走りたいと思うだろう。もちろん、エネルギー効率が向上すればするほど、努力の成果も上がります。電力消費を削減する必要があります。現在、GPU は 0.5 キロワットから 1 キロワットの電力を消費します。人間の脳は約 25 ワットの電力を消費しますが、GPU はそれよりはるかに少ない電力を消費します。これに匹敵するには 10 万ワットまたは 100 万ワットが必要なので、その差はかなり大きいです。

汎用性

レックス・フリードマン: あなたはよく、GI はすぐには来ないとおっしゃっています。その背後にある基本的な直感は何ですか?

ヤン・ルカン： SFやハリウッドで広まった、誰かがAGIや人間レベルのAI、AMI（何と呼ぼうと）の秘密を発見し、機械を起動すればAGIが実現するというアイデアは、実現しないでしょう。

これは段階的なプロセスになります。ビデオから世界がどのように機能するかを理解し、適切な表現を学習できるシステムは存在するのでしょうか?人間に見られる規模とパフォーマンスに到達するには、1日や2日ではなく、かなりの時間がかかるでしょう。

システムが物事を記憶できるように、連想記憶をたくさん与えるべきでしょうか?はい、でも明日は起こりません。いくつかの基本的な技術を開発する必要があります。私たちはこうしたテクノロジーを数多く持っていますが、それらを完全なシステムとして連携させるのは別の問題です。

先ほど説明した目標駆動型 AI アーキテクチャのように、推論して計画できるシステムが登場するのでしょうか?はい、ただし正常に動作するようになるまでにはしばらく時間がかかります。これらすべてが連携して機能し、これに基づいて階層的な計画や、さまざまな状況に対して人間の脳と同じように構成できる階層的な表現を学習するシステムが実現するまでには、少なくとも 10 年以上かかるでしょう。なぜなら、私たちがまだ見たことのない、遭遇したことのない問題がたくさんあるため、このフレームワーク内で簡単な解決策があるかどうかはわからないからです。

ここ 10 年ほど、AGI はもうすぐ実現すると主張する人がいますが、それはすべて間違いです。

IQ は人間に関するいくつかのことを測定できますが、人間の形は比較的均一であるためです。ただし、これは 1 つの能力のみを測定するため、一部のタスクには関連していても、他のタスクには関連しない可能性があります。しかし、基本的な事柄が非常に異なる他の知的存在について話しているのであれば、それは意味をなさない。したがって、知能とはスキルの集合体であり、新しいスキルを効率的に習得する能力です。特定のインテリジェントエンティティが所有している、またはすぐに習得できるスキルセットは、別のインテリジェントエンティティのスキルセットとは異なります。スキルセットは多次元的なものであり、高次元空間であるため、あるものが他のものより賢いかどうかを測定したり比較したりすることはできません。それは多次元です。

レックス・フリードマン: あなたは、いわゆる AI 悲観論者に対してしばしば反対の意見を述べています。彼らの見解と、なぜそれが間違っていると思うのかを説明してください。

ヤン・ルカン：AI の悲観論者は、AI が逃げ出したり、制御を奪って基本的に私たち全員を殺してしまうというあらゆる種類の災害シナリオを想像しますが、それはほとんどが間違った一連の仮定に依存しています。

最初の仮定は、超知能の出現は、ある時点で私たちが秘密を発見し、超知能マシンを起動し、私たちがこれまでにこれをしたことがないために、それが世界を乗っ取り、私たち全員を殺すという出来事であるというものです。これは間違っています。これはイベントではありません。

猫と同じくらい賢く、人間の知性のすべての特徴を持っているシステムがありますが、その知性のレベルはおそらく猫やオウムなどのレベルのようなものです。次に、徐々に彼らのインテリジェンスレベルを改善します。また、それらをより賢くするので、それらにいくつかのガードレールを置き、ガードレールをより正常に振る舞う方法を学ぶ必要があります。

自然界では、より知的な種は、他の種を支配し、時には意図的に、時には誤りによって支配するようです。

したがって、「まあ、AIシステムが私たちよりも賢い場合、彼らは私たちを気にかけていないからといって、意図的にそうではないにしても、私たちを一掃するでしょう」と思うでしょう。それは人間に深く染み込んでいます。地位を支配したり、従いたり、地位を獲得したいというこの欲求は、社会種に固有のものです。チンパンジーのような非社会的種にはそのような欲求はなく、私たちと同じように知的です。

ヒューマノイドロボット

Lex Fridman：何百万ものヒューマノイドロボットがすぐに歩き回ると思いますか？

Yann Lecun：すぐにはありませんが、それは起こります。

次の10年間で、ロボット工業は非常に興味深いものになると思います。ロボット工学の台頭は10年、20年待っており、事前にプログラムされた行動やそのようなこと以外に実際には出現していません。主な問題は、まだMoravecのパラドックスです。これらのシステムに、世界がどのように機能し、行動を計画するかを理解するにはどうすればよいですか？このようにして、真にプロフェッショナルなタスクを完了することができます。ボストンダイナミクスが行うことは、基本的に多くの手作りのダイナミックモデルと事前に慎重な計画です。これは、多くの革新と少し認識を備えた非常に古典的なロボット技術ですが、それでもまだ十分ではなく、ホームロボットを作ることができません。

さらに、20時間の運転まで17歳のように訓練できるシステムなど、完全に自律的なL5運転から少し離れています。

したがって、世界のモデル、世界がどのように機能するかを理解するために自分自身を訓練できるシステムがあるまで、ロボット工学を大幅に進歩させることはありません。

<<: Gemini はバグ修正が得意です!ウェブビデオを録画してコードライブラリを提供するだけです。ネットユーザーはじっとしていられません。アクセス権が欲しいのです

>>: