Dynalang - 言語を使って世界のモデルを学習する新しいAIテクノロジー

Dynalang - 言語を使って世界のモデルを学習する新しいAIテクノロジー

翻訳者|朱 仙中

レビュー | Chonglou

導入

この記事は、人工知能に関する最新の研究に関する当社の報道の一部です。

人工知能の長年の目標の 1 つは、自然言語の指示に従って現実世界でタスクを効率的に完了できるインテリジェント エージェントを作成することです。大規模言語モデル (LLM) はこの目標に向けて大きな進歩を遂げ、明確に定義されたタスクに対して優れた能力を発揮しています。しかし、現時点では彼らの能力は限られており、世界についてのより広い理解を必要とするタスクに直面したときには、しばしば力不足に陥ります。

カリフォルニア大学バークレー校の科学者による新しい研究論文では、この課題に対する革新的なアプローチが提案されています。この論文では、自然言語を使用して世界のモデルを学習できる強化学習エージェントを設計するための Dynalang と呼ばれる新しい手法を紹介します。このアプローチは、AI にタスクの実行方法を教えるだけでなく、環境のコンテキストを理解して、より強力かつ効率的にタスクを実行できるようにします。

物理世界における大規模言語モデル

PaLM-SayCan は、大規模言語モデル (LLM) を使用して、ロボットが自然言語で指示を実行できるようにします (出典: Google ブログ、アドレス: https://ai.googleblog.com/2023/02/google-research-2022-beyond-robotics.html)。

最近の LLM の進歩は、ロボット工学や現実世界のタスク実行エージェントなど、さまざまな分野で熱狂の波を引き起こしています。 LLM の非常に有望な側面は、言語と視覚データの間のギャップを埋め、視覚言語モデル (VLM) を生み出す能力です。

VLM は、テキストを視覚データにマッピングしたり、その逆を行ったりすることができ、その機能は、テキストから画像へのモデルや AI 画像検索など、さまざまなアプリケーション領域で活用されています。このテクノロジーのより高度な応用は、自然言語コマンドを現実世界のアクションにマッピングすることです。これらは具体化された言語モデルと呼ばれることもあります

現在、強化学習と VLM を組み合わせて、特定の指示を実行できるエージェントをトレーニングする技術があります。

しかし、現在のモデルには明らかな限界があります。たとえば、「青い箱を拾う」などの非常に特殊なタスクのコマンドを実行するのが得意です。しかし、最近のさらなる研究結果により、これらのコマンドに抽象化のレイヤーを追加できるようになり、VLM 搭載エージェントは「絶滅した動物を表すおもちゃを拾う」などのより複雑な指示を理解して実行できるようになりました。

しかし、現実の世界では、コマンドや発話は多くの場合、コンテキストに依存します。たとえば、「私は皿を片付けました」という文は、皿を洗っている場合と料理を配っている場合とでは、エージェントにとって意味が異なる場合があります。カリフォルニア大学バークレー校の研究者らは、「言語がタスクについて語っていない場合、その言語はエージェントが取るべき最善の行動とほとんど関連性がない」と指摘した。

最近、研究者たちは異なるアプローチを提案しました。彼らは、エージェントがタスクをすぐに実行できるようにトレーニングするのではなく、まず言語指示の助けを借りて世界のモデルを学習し、未来を予測するようにトレーニングすべきだと提案している。 「次の表現を予測することで言語モデルが世界知識の内部表現を形成できるようになるのと同様に、将来の表現を予測することでエージェントが言語とその世界との関係を理解するための豊富な学習シグナルが提供されると私たちは仮説を立てています」と研究者らは書いている。

このアプローチにより、AI エージェントは環境のコンテキストを理解し、より強力かつ効率的にタスクを実行できるようになります。

ダイナラン

Dynalang は言語を使用して世界のより良いモデルを学習します (出典: GitHub)

カリフォルニア大学バークレー校の研究者らは、Dynalang と呼ばれる技術を考案しました。研究者らはこれを「オンライン体験から言語と画像の世界のモデルを学習し、そのモデルを使用して行動の仕方を学習するエージェント」と説明しています。この技術は独自のアプローチを採用しており、2 つの異なるトレーニング モードを提供しています。

まず、Dynalang はテキストと視覚的な観察を通じて世界をモデル化することを学びます。 「エージェントが環境内で行動する際にオンラインで収集された経験を使用して、将来の潜在的な表現を予測する世界モデルをトレーニングします」と研究者は説明しています。このアプローチは、人間が環境内での観察を言語にマッピングするために使用する自己教師学習の一種を反映しています。研究者たちはこれを「言語条件付け世界モデル」と呼んでいます。 Dynalang はマルチモーダルであることに注目する価値があります。つまり、テキストを予測するだけでなく、将来の視覚表現の予測もサポートします。

次に、Dynalang は世界モデルとタスク表現の強化学習を通じて行動方針を学習します。 「私たちは、世界モデルの潜在的表現を入力として、タスク報酬を最大化する行動を取るようにポリシーを訓練します」と研究者らは書いている。

本質的に、Dynalang は言語と視覚的観察を通じて世界のモデルを学習し、このモデルを使用してさまざまな環境で効果的に行動する方法を学習することを目的としています。このアプローチにより、さまざまな環境における AI エージェントの堅牢性と効率性が向上する可能性があります。

ダイナランの仕組み

カリフォルニア大学バークレー校の研究者たちは、さまざまな機械学習技術を巧みに組み合わせて Dynalang を開発しました。 Dynalang は本質的に、強化学習ループに基づく構造を持ち、アクションを実行するように設計された人工知能システムです。このループは、エージェント、環境、アクション、状態、報酬で構成されます。 Dynalang の基本的な目標は、収益を最大化するエージェントをトレーニングすることです。

Dynalang はモデルベースの強化学習システムであり、世界のモデルに基づいてアクションと状態を予測します。同時に、過去のアクションのリプレイ バッファーを教師あり学習ストリームとして使用して、世界モデルがトレーニングされます。環境に応じて、アクション スペースは、モーター コマンド、テキスト生成、およびその他の種類のアクションで構成できます。

Dynalang の興味深い機能は、テキストの指示と説明をトークンのストリームとして受信し、画像フレーム情報も渡すことができることです。これは、一連のタスクの開始時に完全な説明テキストを提供する他の手法とは対照的です。 「人間の場合、読む、聞く、話すといった動作は長時間にわたって行われ、その間に新しい視覚入力を受け取り、運動動作を行うことができます」と研究者らは説明しています。「同様に、私たちはエージェントに各タイムステップでビデオフレームと言語トークンを供給し、エージェントはタイムステップごとに運動動作と、該当する場合は言語トークンを生成します。」

言語モデルの多くのアプリケーションと同様に、Dynalang は生データ (テキストと画像) で事前トレーニングすることができ、各モデルの潜在的な表現を学習します。その後、センサーとモーションのより小さなデータセットで微調整することができます。しかし、研究者が指摘するように、1 つの注意点があります。「一般的な言語モデリングの目的とは異なり、モデルは、次のタイム ステップで予測される表現を除いて、接頭辞から次のトークンを予測するように明示的にトレーニングされていません。」

Dynalangはどれくらい効果的ですか?

Dynalang は、言語のヒントと指示を使用して世界のモデルをよりよく学習し、さまざまな種類の環境での作業をサポートします (出典: GitHub)。

Dynalang の研究論文はまだ正式に印刷物として出版されておらず、厳格な査読をまだ受けていないことを意味します。しかし、この論文の著者には、バークレー・ロボット学習研究所所長であり、バークレー人工知能研究所共同所長のピーター・アビール氏など、AI研究で高く評価されている人物も含まれています。これにより、論文の調査結果に一定の信頼性がもたらされます。

研究者たちは、それぞれ独自の設定と課題を持つさまざまな環境で Dynalang をテストしました。可能な場合は、Dynalang のパフォーマンスを同じ環境で実行されているベースライン強化学習モデルと比較しました。

HomeGrid はそのような環境であり、エージェントが言語形式でタスク仕様を受信するだけでなく、オブジェクトの説明、環境内の動的情報、および関連するアクションの修正を含む言語プロンプトも受信するマルチタスク グリッド ワールドです。

「注目すべきことに、HomeGrid のエージェントはプロンプトの意味について直接指導を受けることはなく、プロンプトはそれが参照するオブジェクトや観察から遠く離れていることが多い」と研究者は指摘している。つまり、エージェントはプロンプトの意味を、世界モデルによって観察された状態と関連付けることで学習する必要がある。実験では、Dynalang はこれらの手がかりを活用するのが得意であるのに対し、RL モデルは試行錯誤を通じてアクションの分布を学習する必要があることが示されています。

別の環境である VLN-CE (連続環境での視覚および言語ナビゲーション) では、エージェントは指定された目的地に到達するために 3D 環境内を移動する必要があります。各タスク セットは、環境と、目的地に到達する方法に関する自然言語の指示で構成されます。

実験では、Dynalang はテキストによる指示を環境の観察や行動と結び付けることを学習するため、純粋な RL アプローチよりも目標を達成する上ではるかに効果的であることが示されています。

しかし、著者らは「[Dynalang]はまだ、専門家のデモンストレーションや特殊なアーキテクチャを使用する最先端のVLN手法と競合していない」と警告している。つまり、DynalangはSOTA技術ほど効果的ではないものの、手作業による注釈付けが少なく、ほぼ純粋なデータから学習できるということだ。

この論文では、Messenger ゲーム環境と LangRoom に含まれる質問回答チャレンジという、他の 2 つの興味深い環境についても説明します。これらの環境で Dynalang がどのように動作するかを詳しく分析したい場合は、論文全文を読むことをお勧めします。

この論文の主な発見は、プレーンテキスト データセットでモデルを事前トレーニングすると、最終タスクでのモデルのパフォーマンスが大幅に向上する可能性があるということです。これは、テキストから学習するモデルの能力が、その全体的な有効性の重要な要素であることを示唆しています。

しかし、研究者たちは、Dynalang にはまだかなりの改善の余地があることを認めています。彼らは、長期的な運用をサポートできるより優れた言語モデリング技術とアーキテクチャによって、モデルのパフォーマンスを向上できると考えています。個人的には、より高度なコンバーター モデルと組み合わせた場合にどのように改善されるか興味があります。

さらに、制御された環境よりも予測不可能で複雑なことが多い現実世界で、これらのテクノロジーがどの程度うまく機能するかはまだわかりません。しかし研究者たちは、特にオンラインで入手可能な膨大な量のラベルなしデータを活用するという点で、Dynalang の可能性に楽観的です。 「アクションや報酬なしでビデオやテキストを事前トレーニングする機能は、Dynalangが大規模なネットワークデータセットに拡張できることを示しており、世界で人間と対話する自己改善型マルチモーダルエージェントへの道を開く」と研究者らは書いている。

翻訳者紹介

Zhu Xianzhong 氏は、51CTO のコミュニティ エディターであり、51CTO の専門ブロガー兼講師であり、濰坊の大学のコンピューター教師であり、フリーランス プログラミング コミュニティのベテランです。

原題:新しい AI 技術は言語を使用して世界モデルを学習します、著者: Ben Dickson



<<:  英国は「国家AI研究リソース」としてGPUを購入するために1億3000万ドルを費やす計画だと報じられている。

>>:  知湖橋プラットフォームにおける大型モデルの応用と実践

ブログ    

推薦する

...

...

...

...

7つの機械学習アルゴリズムの7つの重要なポイント

さまざまなライブラリとフレームワークの助けを借りて、たった 1 行のコードで機械学習アルゴリズムを実...

...

...

Ruan Yifeng: Github のオブジェクトカウントアルゴリズム

Github を使用しているときに、次のプロンプトを見たことがありますか? $ gitクローン ht...

AIに切り替えたい人向け:人工知能ガイドはこちら

人工知能とは何でしょうか? なぜ重要なのでしょうか? 人工知能を恐れるべきでしょうか? なぜ突然、み...

...

AIベースでデータプラットフォームの実装を加速

[51CTO.comより引用]データミドルプラットフォームが確立される以前、企業はデータによっても...

...

...

IntelがBigDLディープラーニングフレームワークをリリース、CPUを使ってGPUを攻撃する予定

[51CTO.com クイック翻訳] 先週、Intel は分散型ディープラーニング用のオープンソース...

心でタイピング、中国で脳コンピューターインターフェースの新記録が樹立されました!

手やキーボードを使わず、思考だけに頼って、1分間に691.55ビットをコンピューター画面に出力できま...