10年以内にAGI?次世代のジェミニは環境を感知できるのか?ディープマインドCEOハサビス氏がAIについて語る

10年以内にAGI?次世代のジェミニは環境を感知できるのか?ディープマインドCEOハサビス氏がAIについて語る

「今後10年でAGIのようなシステムが登場しても驚かないだろう」と、グーグル・ディープマインドの共同創設者兼CEOのデミス・ハサビス氏は、人工知能ポッドキャスト「Dwarkesh Podcast」で語った。

1 時間の番組の中で、ハサビス氏は知能の本質、強化学習、スケーリングとアライメント、AGI、マルチモーダル性などのトピックについて自身の考えを共有しました。マシンハートでは、主要なコンテンツを厳選してまとめ、読みやすいように適切に編集しています。

知性の本質

ドワルケシュ・パテル:最初の質問です。あなたは神経科学のバックグラウンドをお持ちですが、知能についてどのような見解をお持ちですか?

デミス・ハサビス:それは興味深い質問ですね。インテリジェンスは非常に広範囲であり、さまざまな目的に普遍的に使用できます。これは、脳が私たちの周囲の世界を処理する方法に、何らかの高レベルの共通性、何らかのアルゴリズムの共通性があるに違いないことを示唆していると思います。もちろん、特定の機能を果たす脳の特定の部分がありますが、これらすべての根底には何らかの基本原理があるのではないかと思います。

Dwarkesh Patel: 今日の LLM では、特定の分野に関する大量のデータを与えると、その分野で非常に優秀になる傾向があるという事実についてどう思われますか?あらゆる分野で普遍的な改善を達成することはできないでしょうか?

デミス・ハサビス:まず第一に、ある分野で改善が見られると、他の分野でも予想外の改善が見られることがあると思います。たとえば、これらの大規模モデルのプログラミング機能が向上すると、一般的な推論機能も実際に向上する可能性があります。つまり、転移学習の証拠がいくつかあるということです。そしてこれは人間の脳が学習する方法でもあります。チェスや文章作成などをたくさん経験したり練習したりすると、特定の分野を学ぶために一般的な学習テクニックや一般的な学習システムを使用している場合でも、どんどん上達します。

Dwarkesh Patel: 言語とプログラミングを例にとると、ニューラル ネットワークでは、モデルの言語とプログラミングの機能が一緒に向上できるようにするメカニズムがどこかにあるのでしょうか?

デミス・ハサビス:現在の分析技術では、これを判断するにはまだ不十分です。実際、これらのシステムによって構築される表現のメカニズム分析については、多くの研究が必要です。私はこれを仮想脳分析と呼ぶことがあります。ある意味、これは fMRI、つまり実際の脳内の個々の細胞の活動を記録することに少し似ています。この種の分析技術は人工知能とどのように比較できるのでしょうか?この分野には優れた研究成果が数多くあります。たとえば、Chris Olah はこれに取り組んでおり、私は彼の研究がとても気に入っています。現在構築中のこれらのシステムを分析するために導入できる計算神経科学の技術は数多くあります。実際、私は計算神経科学の友人たちにも、この方向で考え、学んだことを応用して大規模モデルを理解するように奨励しようとしています。

Dwarkesh Patel: あなたは神経科学のバックグラウンドをお持ちなので、おそらく他の AI 研究者があまり知らない人間の知能に関する何かを知っていると思います。この分野における知識は何ですか?

デミス・ハサビス:神経科学は大きな助けになります。過去 10 年から 20 年にわたる研究を見てみましょう。実際、私はこのことについて30年以上考え続けてきました。この新しい AI の波の初期段階では、神経科学が数多くの興味深い手がかりを提供しています。その後、強化学習やディープラーニングなどの技術が登場しました。この分野では、経験の再生や注意の概念など、非常に重要になってきた画期的な研究成果もいくつかあります。これらの結果の多くは、脳の働きについての理解から生まれたものですが、もちろん、それらはまったく同じというわけではありません。 1 つは人工システムであり、もう 1 つは自然システムです。これらは、何らかのアルゴリズムへの 1 対 1 のマッピングではなく、むしろ、何らかの方向性を指し示す何らかのインスピレーション (おそらく、何らかのアーキテクチャのアイデア、アルゴリズムのアイデア、または表現のアイデア) のようなものです。結局のところ、脳自体が汎用知能の存在の証拠なのです。人間とはそういうものです。何かが可能だと分かれば、成功するかどうかの問題ではなく、いつか成功するまで一生懸命努力するだけの問題だと分かるので、それに向かって努力しやすくなります。これにより、人々はより早く進歩することができます。

神経科学は、少なくとも間接的には、今日の成功の背後にある多くの人々の考え方に影響を与えてきたと思います。将来的には、計画面で解決すべき興味深い問題がたくさんあると思います。そして、脳はどのようにして世界の正しいモデルを構築するのでしょうか?たとえば、私は脳がどのように想像するかを研究してきましたが、これは精神的なシミュレーションとも考えられます。私たちはこう問います。より良い計画を実行するために、世界の非常に豊かな視覚空間シミュレーションをどのように作成するか。

LLMにおける強化学習

Dwarkesh Patel: LLM にはツリー検索のような機能がありますか?これについてどう思いますか?

デミス・ハサビス:これは非常に有望な研究方向だと思います。私たちは、世界をより正確に予測できるよう、大規模モデルを継続的に改善しています。その結果、彼らはますます信頼できる世界モデルとなるのです。これは明らかに必要ですが、AGI システムにとっては十分な条件ではないと思います。さらに、私たちは AlphaZero のような計画メカニズムにも取り組んでいます。これは、モデルを使用して明示的な計画を実行し、世界の特定の目標を達成するものです。また、ある種の連鎖思考や推論パスと組み合わせたり、検索を使用して可能性の巨大な空間を探索したりすることもあります。これは、現在の大型モデルには欠けている機能だと思います。

Dwarkesh Patel: これらの方法に必要な膨大な計算能力をどうやって得るのでしょうか?この分野の効率性をどのように改善できると思いますか?

デミス・ハサビス:まず第一に、ムーアの法則が役に立つでしょう。コンピューティング能力は年々向上していますが、私たちはサンプル効率の高い方法と、エクスペリエンスのリプレイなどの既存データの再利用に重点を置いています。世界モデルが優れているほど、検索の効率が上がります。たとえば、AlphaGo の検索効率は、総当たり検索を使用する Deep Blue よりもはるかに高いです。ディープ・ブルーが下したそれぞれの決定には、何百万もの可能な動きを検討する必要があったかもしれません。 AlphaGo が次の動きを決めるのに必要なのは、わずか数万回程度です。しかし、人間のチェスの名手は、数百の可能な動きをチェックするだけで、非常に良い次の決定にたどり着くかもしれません。これは、ブルート フォース検索システムにはこれらの動きに対する実際のモデルが存在しないことを示しています。 AlphaGo には非常に優れたモデルがありますが、トップクラスの人間のプレイヤーは囲碁やチェスのより豊富で正確なモデルを持っています。これにより、わずか数回の検索で世界クラスの意思決定を行うことができます。

ドワルケシュ・パテル:しかし、AlphaGo は人間のチャンピオンに勝ちました。

デミス・ハサビス:その通りです。私たちは画期的な仕事をし、DeepMind はそれによって有名になりました。ゲーム内での検索の方が効率的であることは明らかなので、ゲームを検証プラットフォームとして使用します。さらに、ゲーム内で勝利やポイント獲得などの報酬機能を設定するのが簡単になります。これらはほとんどのゲームに組み込まれている報酬メカニズムです。しかし、現実世界のシステムでは、これは非常に困難です。適切な目的関数、適切な報酬関数、適切な目標をどのように定義するのでしょうか?

Dwarkesh Patel: 人間の知能は非常に高いサンプル効率を持っています。これは AlphaGo のようなシステムが答えを得る方法とどう違うのでしょうか?たとえば、アインシュタインはどのようにして相対性理論を思いついたのでしょうか?

デミス・ハサビス:私たちの脳はモンテカルロ木探索を実行しないので、それらは非常に異なります。これは私たちの有機的な脳の働き方ではありません。これを補うために、人間の脳は直感を使います。人間は知識と経験を活用して、アインシュタインの非常に正確な物理モデルのような非常に正確なモデルを構築します。アインシュタインについて、そして彼がどのようにして理論を思いついたかについて読むと、彼は物理システムを数学的に考えるだけでなく、視覚的に考えることに慣れていたことがわかります。これにより、彼はこれらの物理システムについて非常に直感的な感覚を得ることができました。このことから、当時は非常に奇妙に思えたアイデアが彼に浮かびました。

それが私たちが構築する世界のモデルの複雑さと繊細さだと思います。世界のモデルによって、検索していたツリー内の特定のノードに到達でき、その後はそのノードの近くだけを検索すればよいとしたらどうなるか想像してみてください。こうすることで、検索ボリュームが大幅に減少します。

Dwarkesh Patel: まだ答えられていない質問があります。強化学習により、モデルが自己再生合成データを使用してデータのボトルネックの問題を克服できるようになりますか?あなたはこれについて楽観的なようですね。

デミス・ハサビス:はい、私はこれについて非常に楽観的です。まず、特にマルチモーダルデータやビデオデータなど、まだ使用できるデータが大量に残っています。そして明らかに、社会には常にデータが蓄積され続けています。しかし、合成データの作成にも成長の余地がたくさんあると思います。これには、シミュレーションやセルフプレイなど、いくつかの異なるアプローチがあります。シミュレーション アプローチでは、非常にシミュレートされたゲーム環境を使用して、現実に近いデータを生成します。一方、セルフプレイでは、モデル同士がやり取りしたり会話したりします。このアプローチは、AlphaGo と AlphaZero を開発したときに非常にうまく機能しました。

Dwarkesh Patel: では、合成されたデータがモデルのデータセットからのものではなく、新しいデータであることをどうやって確認するのでしょうか?

デミス・ハサビス:これを研究するには、専門分野全体が必要だと思います。この点では、データ管理とデータ分析はまだ初期段階にあります。たとえば、データ分布を分析することで、分布の抜け穴を見つけることができます。これは、公平性や偏りなどの問題にとって非常に重要です。システムからデータを取り出すには、データセットが学習したい分布を代表していることを確認する必要があります。これには、データの特定部分の重みを増やしたり、データのその部分を再生したりするなど、いくつかのトリックを使用できます。データセット内にそのような穴が見つかった場合、生成されたデータを使用してその穴を埋めることも可能と考えられます。

Dwarkesh Patel: 現在、強化学習は注目を集めていますが、DeepMind は実は何年も前から強化学習を研究していました。すでに登場しているが、まだ人々の注目を集めていない同様の研究方向はありますか?

デミス・ハサビス:実際、これは過去数十年間に起こったことです。古いアイデアと新しいアイデアを組み合わせることには大きな可能性があります。たとえば、過去のアイデアをより大規模なモデルや大規模なマルチモーダル モデルと組み合わせると、興味深い結果が得られる可能性があります。

Dwarkesh Patel: 強化学習、LLM、ツリー探索、どの方法が AGI を生み出す可能性を秘めているのでしょうか?

Demis Hassabis: 理論的には、純粋な AlphaZero アプローチが成功しない理由はないと思います。 Google DeepMind とコミュニティの一部の人々は、事前の知識やデータがないことを前提に、すべての知識をゼロから構築する方法を研究しています。これらのアイデアやアルゴリズムは、ある程度の知識があれば使用できるため、価値があると思います。

そうは言っても、現時点で AGI を実現する最も可能性が高く、最も速い方法は、インターネット上にある知識や私たちが収集した知識など、すでに世界に存在している知識を使用することだと私は考えています。また、この情報を処理できる Transformer のような非常にスケーラブルなアルゴリズムも備えています。モデルを何らかの事前情報として使用し、それを基にして予測を実行することで、AGI 学習を開始できます。これをやらない理由はありません。最終的な AGI システムでは、大規模なマルチモーダル モデルが全体的なソリューションの一部になると思われますが、それだけでは AGI としては不十分です。追加の計画検索機能も必要です。

拡張と調整

Dwarkesh Patel: スケーリング仮説が存在します。モデルの規模とデータの分布が拡大されれば、最終的には知能が出現すると推測する人もいます。あなたは同意しますか?

デミス・ハサビス:これは実験的に検証する必要がある質問だと思います。ほとんどすべての人(スケーリング仮説を最初に研究し始めた人々を含む)は、スケーリングによって達成できることに驚きました。今日の大型モデルを見てください。非常によく機能するので、ほとんど理不尽なほど優れています。大きなモデルから浮かび上がる特性の中には、まったく予想外のものもあります。大きなモデルには、何らかの概念的かつ抽象的な力があるように私には思えます。もし私が5年前に戻っていたら、これを実現するにはおそらく別のアルゴリズムの進歩が必要だと言っていたでしょう。おそらくそれは脳の働きに似ているのでしょう。明確で簡潔な抽象概念を求めるなら、私たちはまだ脳をよりよく理解する必要があると思いますが、これらのシステムはそれらを暗黙的に学習できるようです。

もう一つの予想外で興味深い結果は、これらのシステムは、世界のマルチモーダル性の経験がないにもかかわらず、少なくとも最近のマルチモーダル モデルの出現以前は、何らかの形で現実の根拠を獲得しているということです。言語だけでどれだけ多くの情報やモデルを構築できるかというのは本当に驚くべきことです。なぜこのようなことが起こるのか、いくつか仮説があります。人間のフィードバック提供者自身が現実世界に生きる人々であるため、大規模な言語モデルは RLHF フィードバック システムを通じて現実世界の知識を獲得できると思います。私たちは現実の世界に拠点を置いています。したがって、私たちのフィードバックも現実に基づいています。したがって、これにより、モデルに現実の根拠が与えられます。さらに、言語にはより現実的な基盤が含まれているのかもしれません。言語を完全に理解できれば、これまで考えもしなかったようなことを発見できるかもしれませんし、言語学者でさえもすでにこれらの側面を研究しているかもしれません。これは実は非常に興味深い哲学的な質問です。まだ表面をかすめた程度かもしれない。過去の進歩を振り返り、未来を想像するのは楽しいです。

スケーリングに関するご質問に関しては、可能な限りスケーリングする必要があると考えており、実際にそうしています。最終的に漸近線に近づくのか、それとも鉄壁にぶつかるのかについては、これは実験的な問題であり、人によって意見は異なるでしょう。しかし、とりあえずテストしてみるべきだと思います。誰も答えを解明できなかった。しかし同時に、イノベーションと発明への投資も倍増させる必要があります。これは、過去 10 年間に多くの画期的な成果を上げてきた Google Research、DeepMind、Google Brain における私たちのアプローチです。これが私たちが生き残る方法です。

私たちの取り組みの半分はスケーリングに、残りの半分はモデルが大きくなるにつれて必要になる可能性のある将来のアーキテクチャとアルゴリズムの開発に注がれていると言えます。将来的には両方の側面が必要になると思います。ですから、両方の面で最善を尽くす必要があります。実際にそれができるなんて、私たちは幸運です。

Dwarkesh Patel: グラウンディングについてもう少しお話ししましょう。ご想像のとおり、基地の維持を困難にする要因が 2 つあります。 1 つは、モデルがより賢くなると、人間が十分に賢くないために適切な人間ラベルを生成できない領域でもモデルが機能できるようになることです。それは計算についてです。現在、私たちが行っていることは、次のトークンを予測することだけです。これは、モデルが人間のように話したり考えたりすることを制限するガードレールのようなものです。さて、追加の計算が強化学習の形で行われるとどうなるでしょうか。つまり、目標が達成されたことだけがわかっていて、どのように達成されたかは追跡できないという場合です。これら 2 つを組み合わせると、基盤にどのような問題が生じるでしょうか?

デミス・ハサビス:システムが適切に基盤化されていなければ、その目標を適切に達成することはできないと思います。システムが現実世界で実際に目標を達成できるように、ある程度、少なくともある程度は根拠を持つべきだと思います。 Gemini のようなシステムがよりマルチモーダルになり、テキスト データに加えてビデオ、オーディオ、ビジュアル データを処理できるようになると、これらのデータを融合し始めるでしょう。これは実は一種の基盤だと思います。このようにして、システムは現実世界の物理をより深く理解し始めます。

Dwarkesh Patel: 人間よりも賢いシステムを調整するには何をすべきでしょうか?

デミス・ハサビス:シェーン(注:シェーン・レッグ、DeepMind の共同設立者であり、現在は同社の主任 AGI 科学者)と他の多くの人と私は、DeepMind を設立する前からこの問題について考えていました。成功するつもりだったからです。 2010 年には、AGI はおろか、AI に取り組んでいる人はほとんどいませんでした。しかし、私たちは、これらのシステムとアイデアで成功すれば、私たちが作り出したテクノロジーが信じられないほどの変革をもたらすだろうと知っていました。ですから、私たちは 20 年前に、このことについて、良い結果と悪い結果がどうなるかを考えていました。その肯定的な結果は、AlphaFold や科学と数学における科学的発見など、驚くべき科学的成果です。同時に、これらのシステムが理解可能かつ制御可能であることも確認する必要があります。

より厳密に評価されたシステムを得るために多くのアイデアが提案されてきました。しかし、現時点では、システムがユーザーを欺いているかどうか、システムが自身のコードを漏洩しているかどうか、その他の不適切な動作をしているかどうかを判断するのに十分な評価方法とベンチマークがありません。また、AIを分析の補助に使う、つまり適用範囲を狭めたAI(狭義のAI)を使うことを提案する人もいます。一般的な学習機能は備えていませんが、特定のドメイン向けに特別に設計されており、人間の科学者がより一般的なシステムの動作を分析するのに役立ちます。大きな可能性があると私が考える方向性の 1 つは、強化されたサンドボックスまたはシミュレーション環境を作成することです。これは、AI を内部に閉じ込め、外部の攻撃者を締め出すことができる、強化されたサイバーセキュリティを備えた環境です。こうすることで、このサンドボックス内で自由に実験できるようになります。他の人たちは、人間がこれらのシステムの構造を理解できるようにする概念と表現に取り組んでいます。

タイムラインとインテリジェンスの爆発

Dwarkesh Patel: AGI はいつ登場すると思いますか?

デミス・ハサビス:まだ多くの未知数と不確実性があり、人間の創意工夫と努力が常に驚きをもたらすと感じているため、具体的な時期の予測はありません。これらによりタイムラインが変更される場合があります。しかし、2010年にDeepMindを設立したとき、私たちはこのプロジェクトには20年かかるだろうと考えていました。実際、計画通り進んでいるように感じます。通常の 20 年計画には常にさらに 20 年残っているため、これは注目に値します。今後 10 年以内に AGI のようなシステムが登場しても驚きません。

Dwarkesh Patel: AGI があったら、使いますか?これを使用して AI 研究をさらに加速できます。

デミス・ハサビス:それは可能だと思います。それは私たちがどのような決断をするかによります。私たちは社会として、初期の AGI システムや AGI プロトタイプをどのように使用するか決定する必要があります。既存のシステムであっても、セキュリティへの影響を考慮する必要があります。

ジェミニトレーニング

Dwarkesh Patel: 現在、Gemini の開発でどのようなボトルネックが発生していますか?スケーリングが非常にうまく機能するのであれば、それを 1 桁大きくするだけでよいのではないでしょうか。

デミス・ハサビス:まず、実際的な制限があります。データセンターはどの程度の計算能力を持つことができますか?これは実際には非常に興味深い分散コンピューティングの課題につながります。幸いなことに、当社にはこれらの困難な問題や、データセンター間のトレーニングを可能にする方法などに取り組んでいる最高の研究者がいます。ハードウェアの課題もあります。当社では、自社で構築・設計した TPU などのハードウェアがあり、GPU も使用しています。スケーリングの効果に関しては、必ずしも魔法のように機能するとは限りません。スケールアップにはハイパーパラメータのスケーリングも必要であり、スケールごとに異なる種類のイノベーションが必要になります。すべてのスケールで同じレシピを再現できるわけではありません。レシピを微調整する必要があり、それはある意味芸術のようなものです。さらに、新しいデータポイントを取得する必要があります。

Dwarkesh Patel: Gemini の開発で最も驚いたことは何ですか?

デミス・ハサビス:特に驚くようなことはなかったのですが、その規模でトレーニングし、組織の観点から研究できたのは非常に興味深いことでした。

Dwarkesh Patel: 他の研究室のモデルの方が DeepMind の Gemini よりも計算効率が高いと多くの人が考えています。どう思いますか?

デミス・ハサビス:そうではないと思います。実際には、Gemini は噂の GPT-4 とほぼ同じ量の計算能力を使用しますが、おそらくそれよりも少しだけ多く使用します。

Dwarkesh Patel: 2010 年に DeepMind を設立したあなたにとって、現在の AI の進歩で最も驚くべきことは何ですか?

デミス・ハサビス:私の同僚のシェーンにもインタビューしましたね。彼は常に計算曲線の観点から考えており、AI を脳(ニューロンやシナプスがいくつあるか)によく例えます。しかし現在では、脳内のシナプスの数と実行可能な計算量はほぼ同じ桁に達しています。

しかし、より根本的な問題は、私たちが常に一般化と学習に焦点を当ててきたことだと私は思います。これは、私たちが使用するあらゆるテクノロジーの中心にあります。したがって、強化学習、検索、ディープラーニングは、人間の手による事前の知識をあまり必要とせずに、拡張可能で非常に汎用性の高い 3 つのアルゴリズムであると考えられます。これは、当時 MIT などが構築していた AI とは異なり、大量の手動コーディングを必要とするロジックベースのエキスパート システムでした。このアプローチは間違っていることが証明されました。私たちは早い段階でその傾向に気づきました。私たちはゲームを検証プラットフォームとして使用し、結果が非​​常に良好であることがわかりました。結局、それは大成功でした。 AlphaGo のような成功は、他の多くの人に刺激を与えました。もちろん、Google Research と Google Brain の同僚が発明した Transformer もあります。このディープラーニング手法により、モデルは膨大な量のデータを処理できます。これらの技術が今日の成果の基盤となっています。これらはすべて一貫した継承です。すべての技術の変化を予測することはできませんが、私たちは全体的に正しい方向に向かっていると思います。

超人的なAIを管理する

ドワルケシュ・パテル:超人的な知能の可能性についてどう思いますか?それはまだ民間企業によって管理されていますか?具体的にはどのように管理すればよいのでしょうか?

デミス・ハサビス:この技術は大きな影響を与えると思います。いかなる単一の企業、あるいはいかなる単一の業界よりも規模が大きい。これには、市民社会、学界、政府の多くの関係者からの大規模な協力が必要だと思います。良いニュースとしては、チャットボットのような技術が最近広く使用されるようになり、社会の他の部分も目覚め、そのようなシステムの到来と、それとやり取りすることを認識し始めていることです。これはとても良いです。これにより、良い会話の扉が数多く開かれます。

その一例が、数か月前に英国で開催されたAI安全サミットです。大成功だったと思います。私たちは国際的な対話を行い、社会全体でこれらのモデルをどう活用したいのか、どのように活用したいのか、また何に活用してほしくないのかを決める必要があります。

Dwarkesh Patel: 現在の AI システムはすでに非常に強力ですが、その影響がさらに大きくならないのはなぜでしょうか?

デミス・ハサビス:これは、私たちがまだこの新しい時代の始まりにいることを示しています。チャットボット システムを使用して要約を作成したり、簡単なライティング タスクを完了したり、定型文を作成したりするなど、現在のシステムには興味深い使用例がすでにいくつかありますが、これらは日常生活のほんの一部にすぎません。

計画や検索、パーソナライゼーション、メモリ、コンテキスト メモリなど、より一般的なユース ケース向けの新しい機能がまだ必要だと思います。したがって、長いコンテキスト ウィンドウだけでは不十分で、100 ターン前に言ったことも覚えておく必要があります。これらのテクノロジーが成熟すると、より優れた豊富な資料(書籍、映画、音楽など)を見つけるのに役立つ新しい推奨システムなど、新しいユースケースが登場するでしょう。そうすれば、私はこの種のシステムを毎日使うことになるでしょう。 AI アシスタントが私たちの日常生活や仕事にできることは、まだほんの一部に過ぎないと思います。さらに、それらは科学的研究に使用するには信頼性が足りません。しかし、将来、事実性や根拠などの問題が決まれば、これらの AI システムは世界最高の研究アシスタントになるだろうと私は信じています。

ドワルケシュ・パテル:記憶といえば、あなたは 2007 年に、記憶と想像力がいくぶん似ているという論文を書きましたね。現在の AI は単にいくつかのことを記憶しているだけだと言う人もいます。これについてどう思いますか?記憶だけで十分ですか?

Demis Hassabis: 限られたケースでは、すべてを記憶するだけで十分かもしれませんが、元の分布の外では一般化されません。しかし、Gemini や GPT-4 のようなモデルが新しい状況に一般化されることは明らかです。私の論文に関して言えば、私が実際に述べたのは、記憶(少なくとも人間の記憶)は再構築のプロセスであるということです。記憶は正確なテープ記録ではありません。私たちの脳は、見慣れたものをグループ化するようにできています。私もそうかもしれないと考えました。ただ今回は意味的な要素を組み合わせているだけです。脳はそれらを組み合わせて、結果がまったく新しいものであると考えます。現在のシステムには、世界モデルのさまざまな部分を組み合わせて新しいものをシミュレートし、計画に役立てる機能がまだ欠けていると思います。それが想像力と呼ばれるものです。

セキュリティ、オープンソース、セキュリティ第一

Dwarkesh Patel: 他の 2 つの主要な AI ラボのように、Gemini フレームワークをある程度リリースする予定はありますか?

デミス・ハサビス:そうですね、社内で多くのチェックとバランスを取ってきましたし、いくつかのリリースも始めるつもりです。今後数か月間に、多くのブログ投稿や技術論文が公開される予定です。

Dwarkesh Patel: モデルの重みが悪意を持って悪用されるのをどのように防ぐのですか?

デミス・ハサビス:これには2つの側面があります。 1 つはセキュリティであり、もう 1 つはオープン ソースです。セキュリティ、特にネットワーク セキュリティは重要です。 Google DeepMind の私たちはとても幸運です。なぜなら、私たちは Google のファイアウォールとクラウドによって保護されており、これはおそらく世界最高のセキュリティ保護です。これに加えて、DeepMind ではコードベースを保護するための特別な対策を講じています。つまり、二重の保護が受けられるのです。また、強化されたサンドボックスを使用するなど、継続的に改善と強化を行っています。特定の安全なデータセンターやハードウェア ソリューションも検討しています。すべての最先端の研究室はこれを実行すべきです。

オープンソースも重要です。私たちはオープンソースとオープンサイエンスを強く支持しています。私たちは、AlphaFold、Transformer、AlphaGo など、何千もの論文を発表してきました。しかし、中核となる基盤技術については、悪意のある組織、個人、または悪意のある国家がこれらのオープンソース システムを利用して有害な目的を達成するのを防ぐ方法を検討します。これは私たちが答えなければならない質問です。この質問の答えはわかりませんが、すべてをオープンソースにすることを支持する人々から説得力のある答えを聞いたことはありません。そこには何らかのバランスが必要だと思います。しかし、明らかにこれは非常に複雑な問題です。

Dwarkesh Patel: セキュリティに関しては、Anthropic が説明可能性を研究しているように、他のラボも独自の専門分野を持っています。最先端のモデルをお持ちなので、セキュリティの分野でも最先端の研究を行っていくのでしょうか?

デミス・ハサビス:当社は、パフォーマンスの向上だけでなく安全性の向上にも活用できる RLHF などの技術を開発してきました。これらのセルフプレイのアイデアの多くは、新しいシステムの境界条件の自動テストにも可能性があると思います。問題の一部は、これらの非常に一般的なシステムが非常に広範囲の状況に適用可能であることです。先ほど述べたシミュレーションやゲーム、非常にリアルな仮想環境に加えて、自動化されたテスト技術も必要になると思います。私たちはこの分野で長い研究の歴史を持っています。さらに、Google はサイバーセキュリティの専門家やハードウェア設計者を多数抱えているという幸運に恵まれています。これも私たちが得られるセキュリティです。

マルチモダリティとさらなる進歩

Dwarkesh Patel: Gemini のようなシステムの場合、現在、デフォルトの対話方法はチャットです。マルチモーダル性と新しい機能が追加されると、これはどのように変化するのでしょうか?

デミス・ハサビス:私たちはまだ、完全なマルチモーダル システムを理解する初期段階にあります。彼らとやりとりする方法は、現在のチャットボットとは大きく異なります。来年の次世代バージョンには、カメラや電話などを通じて環境を理解する機能が搭載されるのではないかと想像しています。そうすれば次のステップを想像することができます。モデルの理解はますますスムーズになります。ビデオ、サウンド、さらにはタッチも使用できます。センサーを使ったロボットも加われば、世界はもっと面白くなり始めます。今後数年のうちに、マルチモーダル性がロボット工学の分野にとって何を意味するのかがわかると思います。

Dwarkesh Patel: Ilya はかつてポッドキャストで、OpenAI がロボット工学の研究を断念した理由を話してくれました。少なくとも当時は、その分野のデータが十分ではなかったのです。これはまだロボット開発のボトルネックになっていると思いますか?

デミス・ハサビス:私たちは Gato と RT-2 Transformer で素晴らしい進歩を遂げました。私たちはいつもロボットが大好きでした。当社はこの分野でも優れた研究成果を上げています。私たちが今でもロボット工学の研究を続けているのは、それがデータの少ない分野であるという事実が気に入っているからです。これは、サンプリング効率やデータ効率、シミュレートされた環境から現実への転移学習などのトピックを含む、非常に有用な研究方向になると考えています。私たちは常にこれに熱心に取り組んでいます。

実際、イリヤの言う通り、ロボット工学はデータの問題で難しいのです。しかし、ロボット工学に転用でき、非常に一般的な領域で学習し、Gato のようなトークンをあらゆる種類のトークンとして扱うことができる大規模なモデルが登場し始めると思います。これらのトークンは、アクション、単語、タイル、ピクセルなどです。それが私の考えるマルチモーダル性です。しかし当初、そのようなシステムをトレーニングすることは、単純なテキストベースの言語システムよりも困難でした。以前転移学習について話したとき、真のマルチモーダル システムでは、1 つのモダリティが他のモダリティから恩恵を受けることができるとも述べました。たとえば、モデルがビデオをよりよく理解すると、その言語能力も向上します。最終的には、このようなより多用途で、より高性能なシステムが実現するでしょう。

Dwarkesh Patel: DeepMind は、さまざまな分野の科学研究を加速させるために、多くの興味深い研究結果を発表しています。なぜこのようなドメイン固有のソリューションを構築するのでしょうか? 10年か20年後まで待って、AGI に任せてみてはいかがでしょうか?

デミス・ハサビス:AGI がいつ登場するかは分からないと思います。そして私たちはこれまでずっと、AGI が世界に利益をもたらす素晴らしいことを成し遂げるのを待つ必要はないと言ってきました。私は個人的に、科学と医学における AI の応用にも熱心です。また、Nature に掲載された当社の論文の多くは、複数の異なる分野に焦点を当てていることがわかります。世界に影響を与える可能性のある、刺激的な研究の方向性は数多くあります。 Googleの一員として、数十億人のユーザーがいるため、私たちは何十億人もの人々に進歩を迅速に提供し、日常生活を改善、豊かにし、力を与えるのに役立つ大きな機会を与えられて光栄です。

AGIの観点からは、アイデアもテストする必要があります。 AIが密室でそれを構築することで開発を促進することを期待することはできません。なぜなら、それは人々が実際に気にかけている本当のものから離れて内部のメトリックをそらすだけだからです。実際のアプリケーションは、システムが改善しているかどうか、またはデータを改善する必要があるか、サンプル効率を改善する必要があるかを知ることができる多くの直接的なフィードバックを提供します。ほとんどの現実世界の問題にはこれが必要だからです。これにより、研究の方向を継続的に推進し、導き、正しい軌道に乗っていることを確認します。もちろん、裏返しは、AGIがやってくる前に、世界はこの恩恵を受けることです。

Google DeepMind内

Dwarkesh Patel:Geminiの開発には、Google BrainやDeepmindを含むさまざまな機関間のコラボレーションが含まれていました。どのような課題に遭遇しましたか?どのような相乗効果が作成されましたか?

デミス・ハッサビス:この1年は素晴らしい年でした。もちろん、大規模な統合の取り組みと同様に、課題があります。しかし、私たちはそれぞれ、深い強化学習から変圧器まで、それぞれ多くの重要な技術を発明した2つの世界クラスの組織です。ですから、私たちの仕事の多くは、それらを結びつけ、より密接に協力することです。実際、私たちはしばしば過去に協力してきましたが、それが特定のプロジェクトで協力する前に協力していましたが、今ではより詳細で広範な協力です。

ジェミニは、このコラボレーションの最初の結果です。もちろん、コンピューティングリソース、アイデア、エンジニアリング開発作業をまとめるなど、多くのことがより効率的になっています。私たちは現在、この段階にあり、世界クラスのエンジニアリング開発に基づいて最先端のシステムを構築しています。さらなる協力は理にかなっていると思います。

Dwarkesh Patel:あなたとシェーンは、あなたがAIの安全性を心配していたため、DeepMindを設立しました。 AGIの到着は現実的な可能性であると信じています。 Google Brainの研究者は同様の見解を持っていると思いますか?この問題に文化的な違いはありますか?

デミス・ハッサビス:いいえこれが、一般的に2014年にGoogleとチームを組んだ理由の1つです。 GoogleとAlphabet全体(Google BrainやDeepmindだけでなく)がこれらの問題を真剣に責任を持って取っていると思います。私たちのほぼモットーは、これらのシステムを試してみることですが、責任を持って行うことです。私は明らかに技術的な楽観主義者ですが、私たちが世界にもたらすものが変革的だからです。これは非常に重要だと思います。これは、人類によってこれまでに発明された最も重要な技術になると思います。

Dwarkesh Patel:最後の質問。 2010年、他の人がAgiがばかげていると思ったとき、あなたはこの究極の目標について考えていました。このタイプのテクノロジーがゆっくりと離陸しているので、どう思いますか?あなたはあなたの世界のモデルでこれを想像しましたか?

Demis Hassabis:はい、私はこれらを私の世界モデルで、少なくとも技術的な観点から想像してきました。しかし、明らかに、私たちは必ずしも一般の人々がそのような初期段階に関与することを期待していません。 ChatGptなどの一部のアプリケーションはまだいくつかの側面には不足していますが、人々はすでにそれらを使用することに強い関心を持っています。これは非常に驚くべきことです。

また、AlphafoldやAlphagoなど、より専門的なシステムがありますが、一般の人々は数年後には注意を払っています。これにより、今とは異なる環境が作成されます。そして、多くのことが起こっているので、状況はより混乱を招くように見えるかもしれません。

私の唯一の懸念は、この状況を責任を持って、思慮深く、科学的に扱うことができるかどうかです。科学的な方法を使用して対処することです。それが私が楽観的だが慎重なアプローチと呼んでいるものです。私はこれが私たちがAIのようなものに対処する方法だといつも信じていました。すぐに来るこの巨大な流行で私たちが迷子にならないことを願っています。

<<:  ビッグビデオモデルは世界モデルですか? DeepMind/UC Berkeley Chinese: 次のフレームを予測することで世界を変えることができる

>>:  Orange3 の探索: データ マイニングと機械学習の新しい世界を開きます。

ブログ    

推薦する

...

...

インダストリー4.0: ロボットがやってくる

Robotics as a Service は、産業用 IoT (IIOT) 内でますます注目を集め...

Kingsoft Cloudは、スマートシティ構築のパートナーとなり、人間中心のスマートシティエコシステムを構築することを目指しています。

スマートシティはデジタル中国とスマート社会の中核を担うものとして国家戦略のレベルにまで高まり、現在中...

...

AIとコンテキスト脅威インテリジェンスが防衛戦略を変革

企業がサイバーセキュリティに対するプロアクティブなアプローチである脅威露出管理を導入するケースが増え...

...

...

データ収集からディープラーニングまで(メリットも含む)

[[204864]]機械学習 (ML) は、確率論、統計、近似理論、凸解析、アルゴリズム複雑性理論...

Google が暗号化アルゴリズム SHA-1 の廃止を急いでいる理由

[[120276]]ハッシュアルゴリズムのヒルベルト曲線図 (Ian Boyd 提供) Google...

医療診断AIプロジェクトを実施するための10のステップ

【51CTO.com クイック翻訳】ヘルスケアのあらゆる側面において、時間は常に最も貴重な部分である...

ConvNet と Transformer のどちらが優れていますか? Metaが4つの主要な視覚モデルを評価、LeCunが好評価

特定のニーズに基づいてビジュアル モデルを選択するにはどうすればよいでしょうか? ConvNet/V...

NVIDIA GPU が一戦で神となる!黄仁訓は人工知能に賭け、1兆ドル規模のグラフィックカード帝国を築く

AlexNet ニューラル ネットワークから ChatGPT、生成 AI の爆発的な増加まで、NVI...

...