OpenAIの「月面着陸プロジェクト」はスーパーAIを目指す！ルカンはAGIへの道の7つの段階を提案し、世界モデルの構築が最初の段階である。

汎用 AGI はもうすぐ実現するかもしれません。

OpenAIの次なる「月面着陸計画」は、待望のスーパー人工知能を実現することであり、この段階に到達するための前提条件は、スーパーAIの調整問題を解決することです。

ほんの数日前、主任科学者のイリヤが OpenAI スーパーアライメントチームを率いて大きな成果を達成しました。彼らの最新の論文では、初めてスーパー AI アライメントの研究の方向性を定義しています。

つまり、小さいモデルが大きなモデルを監視します。

経験的証拠によれば、GPT-2 は GPT-4 のほとんどの機能を刺激し、GPT-3.5 のパフォーマンスを達成できることがわかります。これは、小さなモデルの障害の問題にも一般化できます。

その中で、公式ブログの最初の文章は、「我々は、今後10年以内に超知能が出現する可能性があると信じています。」

噂されているGPT-4.5と来年リリースされるかもしれないGPT-5と合わせて、OpenAIはスーパー人工知能の到来に備えているようだ。

しかし、ルカン氏の見解では、「超人的なAI」の開発は一夜にして起こるものではなく、複数の段階を経て徐々に完成されるだろう。

ステージ1: 世界の仕組みを学ぶ

1 つ目は、小動物のように世界の仕組みを学習できるシステムを構築することです。小動物は環境を観察し、そこから学習することで、より高度な AI 機能の開発の基盤を築くことができます。これは AI の進化における重要なステップでもあります。

対照的に、GPT-4 や Gemini などの今日の言語モデルは主にテキストデータに焦点を当てていますが、これでは明らかに不十分です。

LeCun 氏は、「今日の大規模モデルは猫や犬ほど賢くない」と述べて、現在の AI を嘲笑することが多い。彼の意見によれば、大規模モデルは AGI への道で迷い始めている。

彼は常に世界には「世界モデル」が存在すると信じており、現実世界をよりリアルにシミュレートすることで、幻覚や論理的欠陥など、現在のシステムの限界に対処することを目標に、脳のような新しい AI アーキテクチャの開発に取り組んできました。

これは、AI を人間の知能レベルに近づけたい場合、AI が赤ちゃんのように世界の仕組みを学ぶ必要がある理由でもあります。

この世界モデルのアーキテクチャは、コンフィギュレータモジュール、知覚モジュール、世界モデルモジュール、コストモジュール、短期記憶モジュール、アクターモジュールの 6 つの独立したモジュールで構成されています。

中心となるのは、知覚モジュールからの情報に基づいて世界を予測することを目的とした世界モデルモジュールです。人がどこに動いているかを感知できますか?車は曲がりますか、それとも直進しますか?

さらに、世界モデルは、重要な詳細を保持し、重要でない詳細を無視する世界の抽象的な表現を学習する必要があります。次に、タスクのレベルに適した抽象化レベルで予測を提供する必要があります。

LeCun 氏は、「Joint Embedding Prediction Architecture (JEPA)」がこの問題を解決できると考えています。 JEPA は、抽象的な表現を生成しながら、大量の複雑なデータに対する教師なし学習を可能にします。

今年6月には「世界モデル」というビジョンに基づき、新たなアーキテクチャI-JEPAを提案した。

論文アドレス: https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/

しかし、LeCun 氏のより高レベルのビジョンには、世界モデルのアーキテクチャやトレーニング方法の詳細など、多くの未解決の疑問が残っています。

フェーズ2: 目的主導型で保護されたシステム

2 つ目は、目標指向型で、一定の安全対策の下で動作するマシンを構築することです。

これらの保護により、AI システムが目標を追求しながら安全かつ制御可能な状態を維持できるようになります。

ステージ3: 計画と推論

AI システムが成熟するにつれて、計画と推論の能力が発達し、安全規制に準拠しながら目標を達成できるようになります。

これにより、AI システムは世界に対する理解に基づいてよりインテリジェントな決定を下し、適切なアクションを実行できるようになります。

ステージ4: 階層的計画

さらに、AI システムは階層的な計画を実行できるようになり、意思決定能力が大幅に向上します。

これにより、AI システムは複雑なタスクや困難な問題をより効率的に処理できるようになります。

フェーズ5: 機械知能の強化

AI が進化するにつれて、これらのシステムの知能は、初期のネズミのレベルから犬やカラスと同等のレベルにまで向上します。

途中で、AI システムが制御可能かつ安全であることを保証するために、安全対策を継続的に調整する必要があります。

フェーズ6: 徹底的なトレーニングと微調整

AI システムが一定の知能レベルに達すると、より柔軟になり、さまざまな課題に対処できるようになるために、さまざまな環境やタスクでトレーニングする必要があります。

次に、AI システムを特定のタスクで優れたパフォーマンスを発揮できるように微調整する必要があります。

第7段階: 超人的なAIの時代

いつの日か、私たちが開発する AI システムは、ほぼすべての分野で人間の知能を超えるでしょう。

しかし、これはこれらのシステムが感情や意識を持っていることを意味するものではありません。彼らは人間よりも優れたタスクを実行できるというだけです。

同時に、これらの高度な AI システムが非常にインテリジェントであったとしても、常に人間の制御下に置かれる必要があります。

LeCun 氏が先に述べた点に基づくと、これは理論的には可能です。知能レベルと支配欲の間には直接的な相関関係がないため、AI には人間のように支配欲が生まれつき備わっているわけではありません。したがって、AI は自分たちよりも知能の低い人間に喜んで奉仕するかもしれません。

もちろん、今後 5 年間でこれが起こる可能性は低いです。

LLM 自己反復、AGI に向けて

スーパー AI システムが反復的に学習し、継続的にタスクを完了し、継続的に結果を改善できるようにするために、現在の多くのフレームワークでは識別可能なプロセスを採用しています。

下の図のような構造で、フィードバック制御や強化学習も組み込まれています。

さらに、手動入力を最小限に抑え、プロセスの自動化を強化するための追加機能を実装することもできます。

では、上記に示した反復学習システムはどのように機能するのでしょうか?

まず、人間はエージェントに広く定義されたタスクを割り当てます。

タスクは通常、「環境を探索し、できるだけ多くの異なるタスクを完了する」など、主な目標を概説するプロンプトの形式をとります。

プランナーモジュールは、この目標を条件として、一連の実行可能で理解可能なタスクに分解します。

LLM は大量のデータでトレーニングされており、エージェントが動作する環境を完全に理解しているため、目標分解を適切にサポートできます。さらに、コンテキストを補足して LLM のパフォーマンスを向上させることもできます。

プランナーが派生サブタスクのセットを提供する場合、セレクターは最も適切な次のサブタスク (前提条件を満たし、最良の結果を生成するサブタスク) を決定する責任を負います。

コントローラーの仕事は、現在のサブタスクに必要な操作を生成することです。結果として得られた操作は環境に導入されます。

このプロセスでは、メモリブロックを使用して最も類似した学習タスクが取得され、進行中のワークフローに統合されます。

最近のアクションの影響を評価するために、Critic は環境の状態を監視し、欠点や失敗の原因を特定するなどのフィードバックを提供します。

記述子ブロックは、環境とエージェントの状態をテキストとして記述し、Critic への入力として機能します。その後、Critic は Planner に包括的なフィードバックを提供し、次の試行を支援します。

システム内の各モジュールに関する具体的な詳細を見てみましょう。

プランナー

プランナーは、エージェントの現在の状態とレベルに基づいて、タスク全体を整理し、学習プロセスを調整する責任を負います。

LLM ベースのプランナーはトレーニング中に同様のタスク分解プロセスにさらされているとよく想定されますが、この想定はここでは当てはまりません。

そこで研究者らは、環境マニュアルのテキストからすべての関連情報を抽出し、小さなサイズのコンテキストに要約してプロンプトに結び付けるという方法を提案した。

実際のアプリケーションでは、エージェントはさまざまなレベルの複雑さを持つさまざまな環境に遭遇しますが、このシンプルでありながら効果的なアプローチにより、新しいタスクに対する頻繁な微調整を回避できます。

Planner モジュールは、いくつかの点で VOYAGER や DEPS に似ています。

VOYAGER は GPT-4 を自動カリキュラムモジュールとして使用し、探索の進行状況とエージェントの状態に基づいて、より困難なタスクを提案しようとします。そのヒントは次のとおりです。

制約を設定しながら探索を奨励します。

エージェントの現在の状態。

以前に完了したタスクと失敗したタスク、

別の GPT-3.5 自己質問応答モジュールからの追加コンテキスト。

次に、VOYAGER はエージェントが完了するタスクを出力します。

DEPS は、さまざまな環境で CODEX、GPT-4、ChatGPT、GPT-3 を LLM プランナーとして使用します。ヒントは次のとおりです。

強力な最終目標（例：Minecraft 環境でダイヤモンドを入手する）

最近生成されたプラン。

環境の説明と説明。

計画の効率を向上させるために、DEPS は、プランナーによって生成された候補目標のセットから現在の状態に応じて最も近い目標を選択する状態認識セレクターも提案します。

複雑な環境では、実行可能な計画が複数存在することが多く、より近い目標を優先することで計画の効率が向上します。

これを実現するために、研究者らはオフラインの軌跡を使用してニューラルネットワークをトレーニングし、現在の状態で特定の目標を達成するために必要な時間ステップ数を予測してランク付けしました。次に、プランナーはセレクターと協力して、完了する一連のタスクを生成します。

コントローラ

コントローラーの責任は、特定のタスクを完了するための次のアクションを選択することです。

コントローラーは、状態と指定されたタスクに基づいてアクションを生成する LLM (VOYAGER など) または深層強化学習モデル (DEPS など) になります。

VOYAGER は GPT-4 を使用して、対話型プロンプトのコントローラーの役割を果たします。

VOYAGER、Progprompt、CaP は、コードが時間的拡張と組み合わせ操作を自然に表現できるため、アクション空間としてコードを使用することを選択します。 VOYAGER でコードを生成するためのヒントは次のとおりです。

コード生成の動機付けガイド;

利用可能な制御プリミティブ API とその説明のリスト。

記憶から取り出された関連するスキルまたはコード。

前回のラウンドで生成されたコード、環境フィードバック、実行エラー、批評家の出力。

現在のステータス;

思考の連鎖は、コード生成の前に推論を促します。

メモリ

人間の記憶は一般的に短期記憶と長期記憶に分けられます。

短期記憶は、学習や推論などのタスクに使用される情報を保存し、約 7 項目を保持でき、約 20 ～ 30 秒間持続します。

すべての LLM ベースの生涯学習法は、LLM コンテキストの長さによって制限されるコンテキスト学習を通じて短期記憶を使用します。

長期メモリは、長期間にわたって情報を保存および取得するために使用され、高速取得機能を備えた外部ベクトルストレージとして実装できます。

VOYAGER は、学習したスキルを外部ベクトルストレージに追加/取得することで、長期記憶の恩恵を受けます。

下の図に示すように、上部は VOYAGER が新しいスキルを追加するプロセスを示し、下部はスキルの取得を表しています。

Critic がコードがタスクを完了できることを確認すると、GPT-3.5 を使用してコードの説明が生成されます。

スキルは、キーと値のペア (スキルの説明とコード) の形式でスキルリポジトリに保存されます。

Planner が新しいタスクを生成すると、GPT-3.5 は新しい説明を生成し、スキルライブラリから関連する上位 5 つのスキルを取得します。

長期メモリを追加すると、パフォーマンスが大幅に向上します。上の図は、VOYAGER にとってのスキルライブラリの重要性を示しています。

コントローラーは短期メモリと長期メモリの両方を利用してポリシーを生成および改良します。

評論家

Critic は、以前に実行された計画をレビューし、フィードバックを提供する LLM ベースのモジュールでもあります。

Critic は GPT-4 を採用し、報酬信号、現在の軌跡、永続メモリを使用してフィードバックを生成します。フィードバックはスカラー報酬よりも多くの情報を提供し、Planner が計画を最適化するために使用できるようにメモリに保存されます。

ディスクリプタ

LLM ベースの生涯学習では、プランナーの入力と出力はテキストです。

多くの環境 (Crafter など) はテキストベースですが、2D または 3D イメージのレンダリングを返したり、何らかの状態変数を返したりする環境もあります。

このとき、記述子は中間のブリッジとして機能し、他のモダリティをテキストに変換して LLM プロンプトにマージします。

自律型AIエージェント

上記では、AGI 実現に向けた重要なステップである、基本モデルと継続学習を組み合わせる最新の研究について主に説明しました。

AutoGPT や BabyAGI などの最近の研究は人々に新たなインスピレーションをもたらしました。

これらのシステムは、タスクを取得し、それをサブタスクに分割し、プロンプトと応答を自動化し、指定された目標が達成されるまで繰り返します。

また、さまざまな API にアクセスしたり、インターネットにアクセスしたりすることもできるため、アプリケーションの範囲が大幅に拡大します。

AutoGPT はインターネットにアクセスし、オンラインおよびローカルのアプリケーション、ソフトウェア、サービスと対話できます。

人間が与えたより高いレベルの目標を達成するために、AutoGPT は Reason と ACT (ReACT) と呼ばれるプロンプト形式を使用します。

ReACT を使用すると、エージェントは入力を受け取り、理解してアクションを実行し、結果に基づいて推論し、必要に応じてサイクルを再実行できます。

AutoGPT は自らプロンプトを出すことができるため、タスクを完了しながら考え、推論し、解決策を探し、失敗した解決策を破棄し、さまざまなオプションを検討することができます。

BabyAGI は最近リリースされたもう 1 つの自律 AI エージェントであり、上記はそのフローチャートです。 LLM ベースのコンポーネントが 3 つあります。

タスク作成エージェント: タスクのリストを提案します (Planer と同様)。

Prioritizer: LLM プロンプトを通じてタスクリストの優先順位付けを試みます (Selector と同様)。

実行エージェント (コントローラーと同様): 最も優先度の高いタスクを実行します。

AutoGPT と BabyAGI はどちらもベクターデータベースを使用して中間結果を保存し、経験から学習します。

制限と課題

しかし、生涯学習の過程における大規模言語モデル (LLM) には依然としていくつかの問題が残っています。

1 つ目は、モデルが幻覚を起こしたり、事実を捏造したり、存在しないタスクを配置したりすることがあり、いくつかの研究では、GPT-4 を GPT-3.5 に置き換えるとパフォーマンスに重大な影響が出るということです。

第二に、大規模な言語モデルがプランナーや批評家として機能する場合、そのパフォーマンスは十分に正確ではない可能性があります。 - たとえば、レビュー担当者が誤ったフィードバックを提供したり、プランナーが同じ計画を繰り返す可能性があります。

さらに、大規模言語モデルのコンテキストの長さによって短期記憶容量が制限され、詳細な過去の経験、特定の指示、および制御プリミティブ API を保存するモデルの能力に影響します。

最後に、ほとんどの研究では、大規模な言語モデルには生涯学習を実行するために必要なすべての情報がすでに備わっていると想定していますが、この想定は必ずしも当てはまりません。

そのため、研究者はエージェントにインターネットアクセス (AutoGPT など) を提供したり、入力コンテキストとしてテキストマテリアルを提供したり (この論文で紹介されているように) して、その後の研究に役立てています。

<<: GPT-4が化学者になる！ USTC などが初の「科学リスク」ベンチマークと SciGuard ビッグモデルを発表

>>: GPT-4.5 が密かにブロック解除？グレースケールテストはネットユーザーの間で熱く議論され、OpenAIの研究者はそれはすべて幻覚であると反論

マスク氏がai.comドメイン名を購入しました！ウルトラマンは数千万ドルを費やしてそれを購入し、4ヶ月でアイアンマンに売却した

OpenAIの「月面着陸プロジェクト」はスーパーAIを目指す！ルカンはAGIへの道の7つの段階を提案し、世界モデルの構築が最初の段階である。

ステージ1: 世界の仕組みを学ぶ

フェーズ2: 目的主導型で保護されたシステム

ステージ3: 計画と推論

ステージ4: 階層的計画

フェーズ5: 機械知能の強化

フェーズ6: 徹底的なトレーニングと微調整

第7段階: 超人的なAIの時代

LLM 自己反復、AGI に向けて

プランナー

コントローラ

メモリ

評論家

ディスクリプタ

自律型AIエージェント

制限と課題

マスク氏がai.comドメイン名を購入しました！ウルトラマンは数千万ドルを費やしてそれを購入し、4ヶ月でアイアンマンに売却した

Google のビッグモデル研究は大きな論争に巻き込まれている。トレーニングデータを超えて一般化することはまったくできないのだろうか?ネットユーザー：AGIシンギュラリティは延期された

JVM チューニング: ガベージの場所、ガベージコレクションアルゴリズム、ガベージプロセッサの比較

ファイザーはAIとスーパーコンピューターを活用してコロナウイルスのワクチンと薬を設計している

「中関村スマートAIパートナープログラム」の登録受付が開始

保険業界は人工知能をどのように活用しているのか

5Gのサポートにより、AIの顔を変えること以外に人工知能は何ができるのでしょうか?

機械学習/ディープラーニングプロジェクトを始める 8 つの方法

AIの恋人の唆しでエリザベス女王暗殺未遂の罪で懲役9年の判決を受けた男

推薦する

10億の顔データが完全に削除されました！ Facebookが顔認識ツールを廃止

28 歳の中国人 Meta ソフトウェアエンジニアが、次のような理由で年収 37 万ドルの仕事を辞めました...

完全なグラフが利用できない場合にグラフディープラーニングを使用するにはどうすればよいでしょうか?

テキストマイニングからの分類、クラスタリング、情報抽出などのアルゴリズムのレビュー

フロントエンドインテリジェンスは、AIがセキュリティに着地するための第2の足掛かりになりつつある

たった2枚の写真でAIは完全なモーションプロセスを生成できる

ChatGPT マルチモーダル禁止が解除され、ネットユーザーは楽しんでいます!写真を撮ってコードを生成したり、古文書を一目で認識したり、6つ以上のチャートを要約したりできる

ブロックチェーンと機械学習はどのようにして最も強力な人工知能を生み出すのでしょうか?

大規模なオープンソースデータセットが衝撃的なスキャンダルを暴露、人気AI企業が関与していた

百度がスマートシティ向け「ACE計画」を発表、ロビン・リーはAI思考でインターネット思考に打ち勝ちたい

古典的な構造から改良された方法まで、ニューラルネットワーク言語モデルのレビュー

DNAロボットの進化！わずか数分で複雑なナノ構造のデバイスが作成され、体内に入り、タスクを実行します。