マルチモーダル世界モデルで未来を予測!カリフォルニア大学バークレー校の新しいAIエージェントは人間の言語を正確に理解し、SOTAを刷新する

マルチモーダル世界モデルで未来を予測!カリフォルニア大学バークレー校の新しいAIエージェントは人間の言語を正確に理解し、SOTAを刷新する

現在、強化学習ベースのエージェントは、「青いレンガを拾う」などの指示を簡単に実行できます。

しかし、ほとんどの場合、人間の言語表現は指示の範囲をはるかに超えています。たとえば、「牛乳が切れてしまったようです」...

インテリジェントエージェントにとって、世界におけるこの種の言語の意味を学習することは非常に困難です。

この点に関して、カリフォルニア大学バークレー校の研究チームは、これらの言語を実際に使用して、インテリジェントエージェントが将来をより正確に予測できるようにすることができると考えています。

論文アドレス: https://arxiv.org/pdf/2308.01399.pdf

具体的には、研究者らは新しいタイプのインテリジェントエージェント「Dynalang」を提案しました。

言語のみを使用してアクションを予測する従来のエージェントとは異なり、Dynalang は過去の言語を使用して将来の言語、ビデオ、報酬を予測することで、豊富な言語理解を獲得します。

Dynalang は、環境内でのオンライン インタラクションから学習するだけでなく、アクションや報酬なしで、テキスト、ビデオ、またはその両方のデータセットで事前トレーニングすることもできます。

つまり、新しいエージェントが今回「牛乳がなくなりました」と聞くと、その文が「冷蔵庫の牛乳がなくなった」という意味だと理解することになります。

仕組み

言語を使用して世界を理解することは、世界モデリングのパラダイムに自然に適合します。

Dynalang はモデルベースの RL エージェントである DreamerV3 をベースとしており、環境で動作しながら収集された経験的データを使用して継続的に学習できます。

左: ワールド モデルは、各タイム ステップでテキストと画像を潜在表現に圧縮します。この表現から、モデルは元の観測を再構築し、報酬を予測し、次のタイムステップの表現を予測するようにトレーニングされます。直感的に、世界モデルは、テキストで読んだ内容に基づいて、世界で何が見られるかを学習します。

右: Dynalang は、圧縮された世界モデル表現に基づいてポリシー ネットワークをトレーニングすることでアクションを選択します。想像上の世界のモデルで繰り返しトレーニングされ、予測される報酬を最大化する行動を取ることを学習します。

一度に 1 つの文または段落を処理する従来のマルチモーダル モデルとは異なり、Dynalang はビデオとテキストを統合されたシーケンスとしてモデル化し、一度に 1 つの画像フレームと 1 つのテキスト トークンを処理します。

直感的に言えば、これは人間が現実世界で入力を受け取る方法に似ています。

すべてをシーケンスとしてモデル化することで、言語モデルのようなテキストデータで事前トレーニングできるようになり、強化学習のパフォーマンスが向上します。

言語のヒント

環境内でのエージェントのパフォーマンスを評価するために、研究者は HomeGrid を導入しました。タスクの指示に加えて、エージェントは言語プロンプトも受け取ります。

HomeGrid のプロンプトは、エージェントが人間から学習したりテキストから読み取ったりする知識をシミュレートするだけでなく、タスクの解決には役立つが必須ではない情報も提供します。

- 「将来の観察」:「皿はキッチンにある」など、エージェントが将来観察する可能性のあるものを説明します。

- 「修正」: 「向きを変える」など、エージェントが実行しているタスクに基づいてインタラクティブなフィードバックを提供します。

- 「ダイナミクス」: 「ペダルを踏んで堆肥箱を開ける」など、環境のダイナミクスを説明します。

エージェントは、観察とテキストの対応を区別するための明示的な指示を受けていません。しかし、Dynalang は将来の予測目標を通じて、さまざまな種類の言語を環境と関連付けることを学習することができます。

結果は、言語条件付けにおいて Dynalang が IMPALA および R2D2 よりも大幅に優れていることを示しています。

後者は、さまざまな種類の言語に苦労しただけでなく、指示に指定されている言語以外の言語を使用した場合のパフォーマンスもさらに悪くなりました。

ゲーム評価

メッセンジャーのゲーム環境で、研究者たちは、テキストと視覚的観察の間で複数の推論ホップを必要とする、より長く複雑なテキストからエージェントがどのように学習できるかをテストしました。

エージェントは、各エピソードのダイナミクスを説明するテキスト記述を推論し、それを環境内のエンティティの観察と組み合わせて、どのエンティティからメッセージを取得し、どのエンティティを避けるかを決定する必要があります。

結果は、Dynalang が、特に最も困難なステージ 3 において、テキストと観察に基づく推論タスクに最適化された特殊なアーキテクチャを使用する IMPALA および R2D2、さらに EMMA ベースラインを大幅に上回ることを示しています。

従うべき指示

Habitat のテスト結果では、Dynalang が現実的な視覚的観察を処理し、指示を実行できることが示されています。

つまり、エージェントは自然言語の指示に従って自宅の目的の場所まで移動する必要があります。

Dynalang では、指示に従うことを将来の報酬の予測と見なすことで、同じ予測フレームワークで均一に扱うことができます。

言語生成

言語がエージェントの見るものについての予測に影響を与えるのと同様に、エージェントが観察するものは、エージェントが聞くと期待する言語(たとえば、エージェントが見るものについての真の陳述)に影響を与えます。

LangRoom のアクション スペースに言語を出力することで、Dynalang は環境に関連付けられた言語を生成し、特定の質問への回答を実行できます。

テキスト事前トレーニング

言語を使用して世界モデルを構築することと、世界モデルを使用してアクションを学習することは別であるため、Dynalang はアクションや報酬のラベルなしでオフライン データを使用して事前トレーニングできます。

この機能により、Dynalang は単一のモデル アーキテクチャ内で大規模なオフライン データセットを活用できるようになります。

研究者たちは、プレーンテキストデータを使用して Dynalang を事前トレーニングし、トークンの埋め込みをゼロから学習しました。

一般的なテキスト データ (TinyStories、200 万の短編小説) で事前トレーニングした後、モデルは Messenger での下流の RL タスクのパフォーマンスを向上させ、事前トレーニング済みの T5 埋め込みのパフォーマンスを上回ることさえあります。

この作業はエージェントが言語を理解してアクションを実行できるようにすることに重点を置いていますが、プレーンテキスト言語モデルのようにテキストを生成することも可能になります。

研究者たちは、潜在空間で事前トレーニング済みの TinyStories モデルをサンプリングし、各タイムステップでの表現からトークンの観測をデコードしました。

結果は、モデルによって生成された結果が驚くほど一貫していることを示していますが、それでも SOTA 言語モデルよりも品質が低いです。

しかし、このことから、言語生成とアクションを単一のインテリジェントエージェントアーキテクチャに統合することが興味深い研究方向であることもわかります。

著者について

ジェシー・リン

論文の筆頭著者であるジェシー・リン氏は、カリフォルニア大学バークレー校のバークレーAI研究所でアンカ・ドラガン氏とダン・クライン氏の指導を受ける博士課程3年生である。

彼女の研究対象は、人間と協力し、対話できる言語を介したインテリジェントエージェントの構築です。彼女は対話と言語+強化学習にも興味を持っています。現在、彼女の研究は Apple AI Fellowship によってサポートされています。

彼女はMITでコンピューターサイエンスと哲学の二重学位を取得しました。そこで彼女は、ケルシー・アレンとジョシュ・テネンバウムの指導の下、計算認知科学グループで人間にヒントを得た AI 研究に取り組むとともに、Labsix の創設メンバーとして機械学習のセキュリティ研究も行いました。

さらに、彼女は Lilt で、人間と機械の共同作業による機械翻訳/専門家による翻訳のための Copilot の研究と製品開発に携わりました。

<<:  エッジAIとは何ですか?

>>:  フーリエ演算子効率トークンミキサー: 軽量ビジュアルネットワークの新しいバックボーン

ブログ    
ブログ    
ブログ    

推薦する

AI+ビデオ分析: ユビキタスセキュリティリスクのリアルタイム監視

[[352986]] 2020 年の多くの運用上の課題を踏まえて、公益事業会社は、運用する物理的およ...

国内大学、AI専攻の学部生を初めて大規模募集

[[233398]] 「人気商品」は受験者や保護者を惹きつけ、専門職の入学基準が引き上げられている大...

人工知能が教育改革にどのように貢献しているかをご覧ください

人工知能によってもたらされる将来の教育の変革と発展は、新たな機会を生み出すだけでなく、より大きな課題...

Facebookは視覚障害者向けに写真の説明を改善するためにAIを活用

[[377490]]海外メディアの報道によると、フェイスブックは1月21日、視覚障害のあるユーザー向...

ビッグデータと人工知能がもたらす危機:テクノロジーの巨人は私たちの生活を台無しにしてしまうのか?

01 ハイテク時代の失業ゼロ半世紀以上前、有名な数学者ジョン・フォン・ノイマンは、機械を製造するコ...

インテルのAIが破壊された万里の長城の修復にどのように貢献したか、その背後にある秘密が発見された

人工知能がテクノロジーと人文科学の交差点に到達したとき、どのようなエネルギーが解き放たれるのでしょう...

...

...

ハイパーオートメーション — AIの新時代における自動化

ハイパーオートメーションとは何か、そして AI 主導のオートメーションが製品プロセスを改善してより迅...

アストラゼネカはPyTorchベースのアルゴリズムを使用して新薬を発見

[51CTO.com クイック翻訳] Facebookの機械学習フレームワークPyTorchは、20...

...

YOLOの父は抗議を表明するためにCV業界を辞め、軍事やプライバシーのスヌーピングにAIアルゴリズムを使用することを拒否

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

スマートシティを計画する際には、アクセシビリティを忘れないようにしましょう

私たちは、使用するほぼすべてのものが「スマート」な時代に生きています。私たちのデバイスは、長い間、指...

...