マルチモーダル世界モデルで未来を予測！カリフォルニア大学バークレー校の新しいAIエージェントは人間の言語を正確に理解し、SOTAを刷新する

現在、強化学習ベースのエージェントは、「青いレンガを拾う」などの指示を簡単に実行できます。

しかし、ほとんどの場合、人間の言語表現は指示の範囲をはるかに超えています。たとえば、「牛乳が切れてしまったようです」...

インテリジェントエージェントにとって、世界におけるこの種の言語の意味を学習することは非常に困難です。

この点に関して、カリフォルニア大学バークレー校の研究チームは、これらの言語を実際に使用して、インテリジェントエージェントが将来をより正確に予測できるようにすることができると考えています。

論文アドレス: https://arxiv.org/pdf/2308.01399.pdf

具体的には、研究者らは新しいタイプのインテリジェントエージェント「Dynalang」を提案しました。

言語のみを使用してアクションを予測する従来のエージェントとは異なり、Dynalang は過去の言語を使用して将来の言語、ビデオ、報酬を予測することで、豊富な言語理解を獲得します。

Dynalang は、環境内でのオンラインインタラクションから学習するだけでなく、アクションや報酬なしで、テキスト、ビデオ、またはその両方のデータセットで事前トレーニングすることもできます。

つまり、新しいエージェントが今回「牛乳がなくなりました」と聞くと、その文が「冷蔵庫の牛乳がなくなった」という意味だと理解することになります。

仕組み

言語を使用して世界を理解することは、世界モデリングのパラダイムに自然に適合します。

Dynalang はモデルベースの RL エージェントである DreamerV3 をベースとしており、環境で動作しながら収集された経験的データを使用して継続的に学習できます。

左: ワールドモデルは、各タイムステップでテキストと画像を潜在表現に圧縮します。この表現から、モデルは元の観測を再構築し、報酬を予測し、次のタイムステップの表現を予測するようにトレーニングされます。直感的に、世界モデルは、テキストで読んだ内容に基づいて、世界で何が見られるかを学習します。

右: Dynalang は、圧縮された世界モデル表現に基づいてポリシーネットワークをトレーニングすることでアクションを選択します。想像上の世界のモデルで繰り返しトレーニングされ、予測される報酬を最大化する行動を取ることを学習します。

一度に 1 つの文または段落を処理する従来のマルチモーダルモデルとは異なり、Dynalang はビデオとテキストを統合されたシーケンスとしてモデル化し、一度に 1 つの画像フレームと 1 つのテキストトークンを処理します。

直感的に言えば、これは人間が現実世界で入力を受け取る方法に似ています。

すべてをシーケンスとしてモデル化することで、言語モデルのようなテキストデータで事前トレーニングできるようになり、強化学習のパフォーマンスが向上します。

言語のヒント

環境内でのエージェントのパフォーマンスを評価するために、研究者は HomeGrid を導入しました。タスクの指示に加えて、エージェントは言語プロンプトも受け取ります。

HomeGrid のプロンプトは、エージェントが人間から学習したりテキストから読み取ったりする知識をシミュレートするだけでなく、タスクの解決には役立つが必須ではない情報も提供します。

- 「将来の観察」：「皿はキッチンにある」など、エージェントが将来観察する可能性のあるものを説明します。

- 「修正」: 「向きを変える」など、エージェントが実行しているタスクに基づいてインタラクティブなフィードバックを提供します。

- 「ダイナミクス」: 「ペダルを踏んで堆肥箱を開ける」など、環境のダイナミクスを説明します。

エージェントは、観察とテキストの対応を区別するための明示的な指示を受けていません。しかし、Dynalang は将来の予測目標を通じて、さまざまな種類の言語を環境と関連付けることを学習することができます。

結果は、言語条件付けにおいて Dynalang が IMPALA および R2D2 よりも大幅に優れていることを示しています。

後者は、さまざまな種類の言語に苦労しただけでなく、指示に指定されている言語以外の言語を使用した場合のパフォーマンスもさらに悪くなりました。

ゲーム評価

メッセンジャーのゲーム環境で、研究者たちは、テキストと視覚的観察の間で複数の推論ホップを必要とする、より長く複雑なテキストからエージェントがどのように学習できるかをテストしました。

エージェントは、各エピソードのダイナミクスを説明するテキスト記述を推論し、それを環境内のエンティティの観察と組み合わせて、どのエンティティからメッセージを取得し、どのエンティティを避けるかを決定する必要があります。

結果は、Dynalang が、特に最も困難なステージ 3 において、テキストと観察に基づく推論タスクに最適化された特殊なアーキテクチャを使用する IMPALA および R2D2、さらに EMMA ベースラインを大幅に上回ることを示しています。

従うべき指示

Habitat のテスト結果では、Dynalang が現実的な視覚的観察を処理し、指示を実行できることが示されています。

つまり、エージェントは自然言語の指示に従って自宅の目的の場所まで移動する必要があります。

Dynalang では、指示に従うことを将来の報酬の予測と見なすことで、同じ予測フレームワークで均一に扱うことができます。

言語生成

言語がエージェントの見るものについての予測に影響を与えるのと同様に、エージェントが観察するものは、エージェントが聞くと期待する言語（たとえば、エージェントが見るものについての真の陳述）に影響を与えます。

LangRoom のアクションスペースに言語を出力することで、Dynalang は環境に関連付けられた言語を生成し、特定の質問への回答を実行できます。

テキスト事前トレーニング

言語を使用して世界モデルを構築することと、世界モデルを使用してアクションを学習することは別であるため、Dynalang はアクションや報酬のラベルなしでオフラインデータを使用して事前トレーニングできます。

この機能により、Dynalang は単一のモデルアーキテクチャ内で大規模なオフラインデータセットを活用できるようになります。

研究者たちは、プレーンテキストデータを使用して Dynalang を事前トレーニングし、トークンの埋め込みをゼロから学習しました。

一般的なテキストデータ (TinyStories、200 万の短編小説) で事前トレーニングした後、モデルは Messenger での下流の RL タスクのパフォーマンスを向上させ、事前トレーニング済みの T5 埋め込みのパフォーマンスを上回ることさえあります。

この作業はエージェントが言語を理解してアクションを実行できるようにすることに重点を置いていますが、プレーンテキスト言語モデルのようにテキストを生成することも可能になります。

研究者たちは、潜在空間で事前トレーニング済みの TinyStories モデルをサンプリングし、各タイムステップでの表現からトークンの観測をデコードしました。

結果は、モデルによって生成された結果が驚くほど一貫していることを示していますが、それでも SOTA 言語モデルよりも品質が低いです。

しかし、このことから、言語生成とアクションを単一のインテリジェントエージェントアーキテクチャに統合することが興味深い研究方向であることもわかります。

著者について

ジェシー・リン

論文の筆頭著者であるジェシー・リン氏は、カリフォルニア大学バークレー校のバークレーAI研究所でアンカ・ドラガン氏とダン・クライン氏の指導を受ける博士課程3年生である。

彼女の研究対象は、人間と協力し、対話できる言語を介したインテリジェントエージェントの構築です。彼女は対話と言語+強化学習にも興味を持っています。現在、彼女の研究は Apple AI Fellowship によってサポートされています。

彼女はMITでコンピューターサイエンスと哲学の二重学位を取得しました。そこで彼女は、ケルシー・アレンとジョシュ・テネンバウムの指導の下、計算認知科学グループで人間にヒントを得た AI 研究に取り組むとともに、Labsix の創設メンバーとして機械学習のセキュリティ研究も行いました。

さらに、彼女は Lilt で、人間と機械の共同作業による機械翻訳/専門家による翻訳のための Copilot の研究と製品開発に携わりました。

<<: エッジAIとは何ですか?

>>: フーリエ演算子効率トークンミキサー: 軽量ビジュアルネットワークの新しいバックボーン

マルチモーダル世界モデルで未来を予測！カリフォルニア大学バークレー校の新しいAIエージェントは人間の言語を正確に理解し、SOTAを刷新する

仕組み

言語のヒント

ゲーム評価

従うべき指示

言語生成

テキスト事前トレーニング

著者について

日本では想像以上にAIが活用されている

大型模型＋ロボット、詳細なレビューレポートはこちら、多くの中国の学者が参加

トレーニングなしでリアルタイムに動的値のアライメントを実現：オープンソースの値アライメント手法OPOは、クローズドソースとオープンソースの両方の大規模モデルで利用可能

McKinsey AI Notes: 19 の業界における 400 を超える人工知能の使用事例を解読すると、1 兆ドルの価値はどこにあるのか?

フロントエンドではアルゴリズムを理解する必要はないと思いますか?実際の例を見てみましょう。

フォーブス：人工知能が解決できる15の社会的課題

2023 年までにデータセンターで注目される AI と ML の 10 大アプリケーション

知っておきたい！AI を活用したサイバー犯罪対策に機械学習を活用する方法

IIHS：自動運転車は交通事故を3分の1しか減らせない

推薦する

マイクロソフトのAI研究者が、クラウドストレージリンクの設定ミスにより、大量の内部データを誤って公開した。

Google がバトルロワイヤルで 3 万人の従業員を解雇、数百人の従業員が AI によって排除される! IMF議長は、世界の雇用の40％が影響を受け、プログラマーの5分の1が困難に直面していると主張

次世代オーディオアシスタント: AI がオーディオ体験をどう形作るか

AIがDevOpsを加速させる10の方法

構造化データのためのテキスト生成技術の研究

データサイエンティスト向けの自動化された機械学習ライブラリ 20 選

人々は長い間、運転免許試験に悩まされてきました。自動運転は、その苦しみを緩和できるのでしょうか？

Oracle データベース LRU アルゴリズムの詳細な説明: LRU チェーン、ダーティブロック、ダーティ LRU チェーン

GPT-4を粉砕せよ！ Google DeepMind CEOが明かす：次世代の大規模モデルはAlphaGoと統合される

RPA大手UiPath独占インタビュー：やがて「1人1台ロボット」の時代が到来

わずか4つの例から、DeepMindの800億のモデルは本当に学習した

人工知能を学ぶには、このコア技術を知っておく必要があります!