マルチモーダル世界モデルで未来を予測!カリフォルニア大学バークレー校の新しいAIエージェントは人間の言語を正確に理解し、SOTAを刷新する

マルチモーダル世界モデルで未来を予測!カリフォルニア大学バークレー校の新しいAIエージェントは人間の言語を正確に理解し、SOTAを刷新する

現在、強化学習ベースのエージェントは、「青いレンガを拾う」などの指示を簡単に実行できます。

しかし、ほとんどの場合、人間の言語表現は指示の範囲をはるかに超えています。たとえば、「牛乳が切れてしまったようです」...

インテリジェントエージェントにとって、世界におけるこの種の言語の意味を学習することは非常に困難です。

この点に関して、カリフォルニア大学バークレー校の研究チームは、これらの言語を実際に使用して、インテリジェントエージェントが将来をより正確に予測できるようにすることができると考えています。

論文アドレス: https://arxiv.org/pdf/2308.01399.pdf

具体的には、研究者らは新しいタイプのインテリジェントエージェント「Dynalang」を提案しました。

言語のみを使用してアクションを予測する従来のエージェントとは異なり、Dynalang は過去の言語を使用して将来の言語、ビデオ、報酬を予測することで、豊富な言語理解を獲得します。

Dynalang は、環境内でのオンライン インタラクションから学習するだけでなく、アクションや報酬なしで、テキスト、ビデオ、またはその両方のデータセットで事前トレーニングすることもできます。

つまり、新しいエージェントが今回「牛乳がなくなりました」と聞くと、その文が「冷蔵庫の牛乳がなくなった」という意味だと理解することになります。

仕組み

言語を使用して世界を理解することは、世界モデリングのパラダイムに自然に適合します。

Dynalang はモデルベースの RL エージェントである DreamerV3 をベースとしており、環境で動作しながら収集された経験的データを使用して継続的に学習できます。

左: ワールド モデルは、各タイム ステップでテキストと画像を潜在表現に圧縮します。この表現から、モデルは元の観測を再構築し、報酬を予測し、次のタイムステップの表現を予測するようにトレーニングされます。直感的に、世界モデルは、テキストで読んだ内容に基づいて、世界で何が見られるかを学習します。

右: Dynalang は、圧縮された世界モデル表現に基づいてポリシー ネットワークをトレーニングすることでアクションを選択します。想像上の世界のモデルで繰り返しトレーニングされ、予測される報酬を最大化する行動を取ることを学習します。

一度に 1 つの文または段落を処理する従来のマルチモーダル モデルとは異なり、Dynalang はビデオとテキストを統合されたシーケンスとしてモデル化し、一度に 1 つの画像フレームと 1 つのテキスト トークンを処理します。

直感的に言えば、これは人間が現実世界で入力を受け取る方法に似ています。

すべてをシーケンスとしてモデル化することで、言語モデルのようなテキストデータで事前トレーニングできるようになり、強化学習のパフォーマンスが向上します。

言語のヒント

環境内でのエージェントのパフォーマンスを評価するために、研究者は HomeGrid を導入しました。タスクの指示に加えて、エージェントは言語プロンプトも受け取ります。

HomeGrid のプロンプトは、エージェントが人間から学習したりテキストから読み取ったりする知識をシミュレートするだけでなく、タスクの解決には役立つが必須ではない情報も提供します。

- 「将来の観察」:「皿はキッチンにある」など、エージェントが将来観察する可能性のあるものを説明します。

- 「修正」: 「向きを変える」など、エージェントが実行しているタスクに基づいてインタラクティブなフィードバックを提供します。

- 「ダイナミクス」: 「ペダルを踏んで堆肥箱を開ける」など、環境のダイナミクスを説明します。

エージェントは、観察とテキストの対応を区別するための明示的な指示を受けていません。しかし、Dynalang は将来の予測目標を通じて、さまざまな種類の言語を環境と関連付けることを学習することができます。

結果は、言語条件付けにおいて Dynalang が IMPALA および R2D2 よりも大幅に優れていることを示しています。

後者は、さまざまな種類の言語に苦労しただけでなく、指示に指定されている言語以外の言語を使用した場合のパフォーマンスもさらに悪くなりました。

ゲーム評価

メッセンジャーのゲーム環境で、研究者たちは、テキストと視覚的観察の間で複数の推論ホップを必要とする、より長く複雑なテキストからエージェントがどのように学習できるかをテストしました。

エージェントは、各エピソードのダイナミクスを説明するテキスト記述を推論し、それを環境内のエンティティの観察と組み合わせて、どのエンティティからメッセージを取得し、どのエンティティを避けるかを決定する必要があります。

結果は、Dynalang が、特に最も困難なステージ 3 において、テキストと観察に基づく推論タスクに最適化された特殊なアーキテクチャを使用する IMPALA および R2D2、さらに EMMA ベースラインを大幅に上回ることを示しています。

従うべき指示

Habitat のテスト結果では、Dynalang が現実的な視覚的観察を処理し、指示を実行できることが示されています。

つまり、エージェントは自然言語の指示に従って自宅の目的の場所まで移動する必要があります。

Dynalang では、指示に従うことを将来の報酬の予測と見なすことで、同じ予測フレームワークで均一に扱うことができます。

言語生成

言語がエージェントの見るものについての予測に影響を与えるのと同様に、エージェントが観察するものは、エージェントが聞くと期待する言語(たとえば、エージェントが見るものについての真の陳述)に影響を与えます。

LangRoom のアクション スペースに言語を出力することで、Dynalang は環境に関連付けられた言語を生成し、特定の質問への回答を実行できます。

テキスト事前トレーニング

言語を使用して世界モデルを構築することと、世界モデルを使用してアクションを学習することは別であるため、Dynalang はアクションや報酬のラベルなしでオフライン データを使用して事前トレーニングできます。

この機能により、Dynalang は単一のモデル アーキテクチャ内で大規模なオフライン データセットを活用できるようになります。

研究者たちは、プレーンテキストデータを使用して Dynalang を事前トレーニングし、トークンの埋め込みをゼロから学習しました。

一般的なテキスト データ (TinyStories、200 万の短編小説) で事前トレーニングした後、モデルは Messenger での下流の RL タスクのパフォーマンスを向上させ、事前トレーニング済みの T5 埋め込みのパフォーマンスを上回ることさえあります。

この作業はエージェントが言語を理解してアクションを実行できるようにすることに重点を置いていますが、プレーンテキスト言語モデルのようにテキストを生成することも可能になります。

研究者たちは、潜在空間で事前トレーニング済みの TinyStories モデルをサンプリングし、各タイムステップでの表現からトークンの観測をデコードしました。

結果は、モデルによって生成された結果が驚くほど一貫していることを示していますが、それでも SOTA 言語モデルよりも品質が低いです。

しかし、このことから、言語生成とアクションを単一のインテリジェントエージェントアーキテクチャに統合することが興味深い研究方向であることもわかります。

著者について

ジェシー・リン

論文の筆頭著者であるジェシー・リン氏は、カリフォルニア大学バークレー校のバークレーAI研究所でアンカ・ドラガン氏とダン・クライン氏の指導を受ける博士課程3年生である。

彼女の研究対象は、人間と協力し、対話できる言語を介したインテリジェントエージェントの構築です。彼女は対話と言語+強化学習にも興味を持っています。現在、彼女の研究は Apple AI Fellowship によってサポートされています。

彼女はMITでコンピューターサイエンスと哲学の二重学位を取得しました。そこで彼女は、ケルシー・アレンとジョシュ・テネンバウムの指導の下、計算認知科学グループで人間にヒントを得た AI 研究に取り組むとともに、Labsix の創設メンバーとして機械学習のセキュリティ研究も行いました。

さらに、彼女は Lilt で、人間と機械の共同作業による機械翻訳/専門家による翻訳のための Copilot の研究と製品開発に携わりました。

<<:  エッジAIとは何ですか?

>>:  フーリエ演算子効率トークンミキサー: 軽量ビジュアルネットワークの新しいバックボーン

ブログ    

推薦する

...

マイクロソフトのAI研究者が、クラウドストレージリンクの設定ミスにより、大量の内部データを誤って公開した。

9月19日、サイバーセキュリティ企業の最新調査によると、マイクロソフトの人工知能研究チームがソフト...

次世代オーディオアシスタント: AI がオーディオ体験をどう形作るか

人工知能(AI)はここ数か月、ビジネス環境における流行語となっています。効率性の向上、コストの削減、...

AIがDevOpsを加速させる10の方法

今年初めに発表されたデロイトのレポートによると、AIベースのソフトウェア開発ツールを提供するスタート...

構造化データのためのテキスト生成技術の研究

1. テキスト生成入門まず、現段階で人気のテキスト生成について紹介します。 1.人工知能の発展段階人...

データ サイエンティスト向けの自動化された機械学習ライブラリ 20 選

[[358537]] 「機械学習の究極の目標の 1 つは、特徴エンジニアリング プロセスをますます自...

人々は長い間、運転免許試験に悩まされてきました。自動運転は、その苦しみを緩和できるのでしょうか?

運転するには運転免許証を持っていることが前提条件であり、運転免許証を取得するには運転免許試験を受ける...

GPT-4を粉砕せよ! Google DeepMind CEOが明かす:次世代の大規模モデルはAlphaGoと統合される

Googleは本当に全力を尽くしています。 AlphaGoとGPT-4に似た大規模モデルを組み合わせ...

RPA大手UiPath独占インタビュー:やがて「1人1台ロボット」の時代が到来

【51CTO.comオリジナル記事】 【はじめに】 2019年後半、RPAは一気に普及したように思わ...

わずか4つの例から、DeepMindの800億のモデルは本当に学習した

知能の鍵となるのは、簡単な指示を与えられて新しいタスクを実行する方法を素早く学習する能力です。たとえ...

...

人工知能を学ぶには、このコア技術を知っておく必要があります!

自然言語処理 (NLP) は、コンピューター サイエンスと人工知能の分野における重要な方向性です。自...

...