エージェントは初めて人間のような感覚を持ち、ハンバーガーを触って熱いか冷たいかを判断します。 UCLAなどが3Dマルチモーダルインタラクティブ具現化知能モデルをリリース

具現化された知能は、ビッグモデルの将来の応用にとって重要な方向性です。

現在、大規模なモデルでサポートされるインテリジェントエージェントは 3D 環境に参加でき、聴覚や視覚だけでなく、触覚などの複数の感覚能力も備えています。

寝室にどんな物があるのか一目でわかります。

ドアベルが鳴ると、LLM が家に来客があることをお知らせします。

大きな模型の NPC がテーブルの上のバナナに触れ、熟していないことに気づき、食べないようにアドバイスします。

物体の温度も感知できます。テーブルの上のハンバーガーが冷えている場合は、食べる前に温めるように指示します。

さらに、LLM の助けにより、これらのエージェントはツールの使用、オブジェクトの検索、ナビゲーション、タスクの分解、その他のタスクも得意とします。

マサチューセッツ大学アマースト校、カリフォルニア大学ロサンゼルス校、MIT-IBM Watson AI ラボの研究者らが、新しい大規模な具現化インテリジェンスモデル MultiPLY を発表しました。

MultiPLY は、インテリジェントエージェントと 3D 環境の相互作用を通じて、言語、アクション、知覚をシームレスに結び付け、大規模モデルの多感覚機能を提供します。

論文アドレス: https://arxiv.org/abs/2401.08577

推論中に、MultiPLY は、エージェントに環境内でアクションを実行し、次のマルチセンサー観測を取得するように指示するアクショントークンを生成できます。

その後、観察結果は状態トークンを介して LLM にフィードバックされ、後続のテキストトークンまたはアクショントークンが生成されます。

物体検索、ツールの使用、多感覚注釈、タスク分解に関する特定のタスク実験では、MultiPLY のパフォーマンスが SOTA を上回りました。

多感覚大型モデル

LLaVA、Flamingo、BLIP-2、PaLM-E などのマルチモーダル大規模モデルは、視覚言語タスクで優れたパフォーマンスを発揮します。しかし、それらは主に 2D シーンの理解に重点を置いており、3D 環境の推論や対話には困難が伴います。

3D シーン理解に関する大規模モデル研究もありますが、これらの LLM には視覚と言語を超えた多感覚情報をキャプチャする能力がありません。対照的に、人間はドーナツに触れることでその柔らかさや温度を感知することができますが、これは現在のマルチモーダル LLM の範囲をはるかに超える能力です。

AIの巨人たちが語るAGIを本当に実現したいのであれば、将来的には大規模な多感覚モデルの構築も不可欠となるだろう。

しかし、課題は、現在、LLM をトレーニングするための多感覚相互作用データが不足しており、3D シーンやオブジェクトの多感覚情報の正しい表現も不足していることです。

人間は、シーンを「オブジェクト中心」の表現に抽象化し、オブジェクトとさらに対話するときにオブジェクトの詳細に焦点を当てることで、これを簡単に行うことができます。

LLM では、オブジェクト中心の表現と詳細な多感覚情報を柔軟に切り替える必要があります。

この目的のために、研究者らは、3D 環境と対話する LLM 駆動エージェントを展開することで、視覚、音声、触覚、温度情報を含むオブジェクト中心の多感覚表現をエンコードできる多感覚 LLM である MultiPLY を提案しました。

多感覚宇宙データセット

この新しいモデルをトレーニングするために、研究者らは、3D 仮想環境で対話中に AI エージェントによって収集された 50 万個のデータを含む大規模な多感覚データセット「Multisensory-Universe」を提案しました。

これらのデータは、多感覚キャプション、質問への回答、対話、操作、タスクの分解など、さまざまなタスクタイプをカバーします。

3Dシーンにインタラクティブなオブジェクトを追加する

具体的には、チームは Habitat-Matterport 3D (HM3D) セマンティックデータセットに基づいてシーンを構築しました。

HM3D データセットには 216 個の 3 次元空間とその中の 3,100 個の部屋が含まれていますが、センサーデータが不十分でタイプが単一であるため、これらのオブジェクトは Habitatsim 環境で相互作用できません。

これを実現するために、研究者はシーンに新しいオブジェクトを導入し、エージェントが Habitatsim を使用してそれらのオブジェクトと対話できるようにしました。

主な情報源は次のとおりです。

ObjectFolder には、衝撃音が暗黙のニューラルフィールドに保存され、オブジェクトの材質で注釈が付けられた 1,000 個のオブジェクトモデルが含まれています。
Objaverse は、幅広いカテゴリを網羅した 800,000 個の 3D オブジェクトのコレクションです。

具体的には、研究者は ChatGPT に ObjectFolder と Objaverse から 1 ～ 10 個の新しいオブジェクトを選択し、新しく追加されたこれらのオブジェクトに適した境界ボックスを生成するように依頼しました。

このプロセス中、ChatGPT はオブジェクトの材質タイプ (セラミック、プラスチック、スチールなど) と特性 (変形可能性、弾性、硬度など)、および温度ラベル (オブジェクトが熱いか、冷たいか、室温かなど) を決定する必要があります。

HM3D の既存のオブジェクトとその境界ボックスに加えて、研究者が ChatGPT に与えたヒントには、いくつかの設定と数ショットの例が含まれています。

似ているオブジェクトをいくつか選択します。たとえば、見た目が似ている 2 つのボトルを選択します。1 つはプラスチック製で、もう 1 つは金属製です。このように、曖昧さを排除するためには、さまざまなセンサーを通じて情報を収集する必要があります。
環境に適合し、組み合わせて使用してタスクを達成できるオブジェクトを選択します。たとえば、キッチン環境では、食材や調理器具を選択できます。

マルチセンサリー宇宙生成パイプライン

新しいオブジェクトのセンサーデータを取得する

- 触る

触覚データの収集には、研究者らは、剛性、弾性、弾塑性物体をシミュレートする MLSMPM 法に基づく DiffTactile 技術を使用しました。

オブジェクトの 3D モデルが DiffTactile システムに配置され、位置決めマーカーを備えたグリッパーが事前に設定された位置でオブジェクトに触れます。触覚センサーは、マーキングポイントの開始位置と終了位置を記録し、バブルが圧縮される度合いを反映します。

- アンビエントサウンド

ナビゲーションや推論を支援するために、各オブジェクトは環境音を発したり、AI エージェントが周囲で何が起こっているかを理解するための手がかりとして機能したりすることができます。

ChatGPT が AudioSet 内のサウンドサンプルを新しく追加されたオブジェクトのセマンティックラベルと一致させるようにガイドします。 AudioSet によって提供されるサウンドの説明に基づいて、ChatGPT は候補オブジェクトのリストからこのサウンドを発する可能性のあるオブジェクトを選択する必要があります。

- 衝撃音

衝撃音とは、物体が打撃を受けたり衝突したりしたときに聞こえる音を指し、物体の材質の種類を識別する上で重要です。

ObjectFolder 内のオブジェクトの暗黙的な音場を照会し、ノック位置と適用された力を指定すると、衝撃音を取得できます。

- 温度

各オブジェクトの温度ラベルに対して、ChatGPT はそれぞれ適切な温度を与える必要があります。

エージェントはシーン構築データを収集する

研究者たちは、大規模な言語モデルによって駆動されるインテリジェントエージェントを使用して、シーン構築に必要なデータを収集しました。

まず、ChatGPT にタスクを設定し、タスクの提案をさせます。次に、3D 環境内のオブジェクトと対話できるインテリジェントエージェントを配置して、タスクを実行し、対話データを収集します。

- タスクの提案を生成する

実行するアクションのリストを指定すると、ChatGPT は特定のタスクを生成し、アクションを表す一連の単語と、オブジェクトの実際のフィードバックラベルに基づいて導出された言語推論結果を生成します。 ChatGPT はすべての材質と温度のラベルにアクセスできるため、「タッチ」アクションの後に「冷たく感じる」などの文章を生成できます。

- インタラクションデータの収集

エージェントは最初に環境をランダムに探索し、初期の RGBD 環境データを収集します。アクションを決定した後、エージェントは環境内のオブジェクトと対話し、感覚的なフィードバックを取得します。たとえば、アクションが「オブジェクトに触れる」場合、エージェントはオブジェクトの触覚情報と温度情報をフィードバックします。

MultiPLYアーキテクチャ

次に、MultiPLY 大規模モデルのトレーニング段階に入ります。

オブジェクト中心のシーン表現

LLM はまず、エージェントが探索した 3D 環境の特徴を入力として受け取り、シーンの予備的な理解を得ます。

研究者たちは 3D-LLM 研究ルートに従い、2D 機能を使用して 3D シーン機能を構築しました。この方法では、適応を必要とせずに、視覚的な特徴を事前にトレーニングされた視覚言語モデルにシームレスに取り込むことができます。

ただし、3D-LLM のポイントクラウドエンコーディングでは、LLM が一度に数千のポイントを処理することが困難になります。

人間が 3D 環境を探索する場合、すべての詳細を記憶する必要なく、シーンを抽象化し、オブジェクトとその位置を大まかに理解します。

同様に、研究チームはオブジェクト中心の抽象表現を使用して 3D シーンを表現しました。

画像内のオブジェクトはコンセプトマップと CLIP エンコーダーを通じてエンコードされ、その後、マルチビュー関連付けを通じて 2D 画像コードが 3D 空間に融合されます。

研究者らは、オブジェクトの視覚的特徴に位置埋め込みも追加し、最終的に抽象的なオブジェクト中心のシーン表現として特徴を取得しました。ここで、はオブジェクトの数です。

3D 環境内のオブジェクトに周囲の音が付随する場合、研究者は CLAP オーディオエンコーダーを使用してその音をエンコードし、1024 次元の特徴を取得します。

オブジェクト中心のシーン表現とアンビエントサウンド表現は、LLM の初期入力として機能し、<SCENE>、</SCENE>、<AMBIENT SOUND>、</AMBIENT SOUND> などのトークンで囲まれます。

アクショントークン

研究者たちは、エージェントと環境の間の相互作用を表す一連のアクショントークンを設計しました。

<SELECT> トークンは、操作するオブジェクトを選択します。オブジェクトは、言語機能（つまり、<SELECT>トークンのLLMの最後の非表示状態）と環境内のオブジェクトのCLIP視覚機能間の注意を介して選択されます。注目度スコアが最大のオブジェクトを選択します。

<NAVIGATE> トークンは、エージェントに選択したオブジェクトに移動する様に要求します。

<OBSERVE> トークンは、エージェントに、選択されたオブジェクトを注意深く検査し、オブジェクトの詳細 (オブジェクトの詳細なポイントクラウドの形式) を取得するように要求します。

<TOUCH> トークンを使用すると、エージェントは選択したオブジェクトに触れて、触覚と温度の情報を取得できます。

<HIT> トークンを使用すると、エージェントは選択したオブジェクトを攻撃して衝撃音を出すことができます。

<PICK-UP> トークンと <PUT-DOWN> トークンを使用すると、エージェントは選択したオブジェクトを拾ったり置いたりすることができます。

<LOOK-AROUND> トークンにより、エージェントは頭を回転させて近くのオブジェクトを取得できます。

ステータストークン

研究者らは、相互作用の結果を LLM にフィードバックするための別のトークンも設計しました。

<OBJECT>: AIエージェントがオブジェクトを<OBSERVE>すると、オブジェクトのポイント情報を記録します。 2D CLIP 特徴から集約された 3D 特徴を取得した後、位置情報を追加して強化します。次に、N 個のポイントで構成されるポイントクラウドが作成されます。各ポイントには 1024 次元の特徴データが含まれます。ここで、N はポイントの総数です。

<衝撃音>: AI エージェントがオブジェクトに <HIT> すると、その結果生じる衝撃音を記録します。これらの音をCLAPオーディオエンコーダーで処理することで、1024次元の衝撃音データが得られます。次に、サウンドマッパー (つまり、処理レイヤー) を使用して、サウンドデータを LLM が処理できる形式に変換します。

<TACTILE>: AIエージェントがオブジェクトを<TOUCH>すると、触覚情報を記録します。触覚感覚はまずヒートマップに変換され、CLIP を使用して処理されます。これらのヒートマップブロックを平均化することで、1024次元の温度特徴データが得られます。次に、触覚マッパー (つまり、処理レイヤー) を使用して、このデータを大規模言語モデルの機能形式に変換します。

<TEMPERATURE>: 温度を記録する場合、温度データはまずヒートマップに変換され、CLIP を使用して処理されます。ヒートマップブロックの平均値を取ることで、1024次元の温度特徴データが得られます。次に、温度マッパー (つまり、処理レイヤー) を使用して、このデータを大規模言語モデルの機能形式に変換します。

トレーニングと推論

モデルアーキテクチャ

ここで、研究者たちは LLaVA をマルチモーダル大規模モデルのバックボーンとして使用しました。

私たちの研究における視覚的特徴は、ConceptGraphs を使用して LLaVA と同じ埋め込み空間に揃えられているため、視覚言語データの事前トレーニングなしで LLaVA の視覚言語プロジェクターを直接使用できます。

他のセンサーモダリティについては、研究者は軽量アダプターを使用しました。これは、センサーの機能を LLaVA のテキストトークン埋め込み空間にマッピングする単一行レイヤープロジェクターです。

モーダルアライメント

前述のように、触覚、聴覚、温度の表現は言語的特徴と一致しません。

最初の段階では、研究者らは、多感覚機能の調整のためにセンサー言語アダプターをトレーニングしました。オーディオ言語の調整には、AudioSet と AudioCaps が使用されます。

衝撃、触覚、熱データについては、研究チームは ChatGPT を使用して、素材と各センサーモダリティと言語間の一貫性を説明する文章のキャプションを生成しました。次に、画像エンコーダーと LLM の重みを固定して、収束を高速化し、言語推論機能を維持します。

Multisensory-Universeデータセットを使用した指示の微調整

第 2 フェーズでは、研究者らは Multisensory-Universe データセットを使用して LLaVA を微調整しました。

トレーニング損失は 2 つの部分で構成されます。1 つ目は LLM 損失で、これは元の LLaVA モデルと同じです。次に、別の損失が追加され、モデルが焦点を合わせる正しいオブジェクトを選択するように強制します。

具体的には、研究者らは、SELECT トークンの LLM の最後の隠し状態と各抽象オブジェクト機能間の注目度を計算しました。

この特徴はシグモイド層を通過し、バイナリクロスエントロピー (BCE) 損失で最適化されます。トレーニングのこの段階では、モデル全体が解凍されます。

研究者らは、128 個の V100 GPU で効率的なトレーニングを行うために FSDP を使用しました。

推論

推論時に、MultiPLY はまずタスクのヒントと抽象的なシーン表現を入力として受け取り、後続のトークンを生成します。アクショントークンが生成されると、エージェントは Habitat-sim 内でアクションを実行し、環境と対話するように指示されます。

エージェントの観察結果は、状態トークンを介して入力として LLM にフィードバックされます。 LLM は現在の状態入力に基づいて次のトークンをさらに生成します。

実験結果

微調整されたモデルが多感覚データセットでトレーニングされた後、研究者らはそれをシミュレートされた環境でテストしました。

これらのテストでは、AI エージェントは MultiPLY によって生成されたアクショントークンに基づいてシミュレートされた環境と対話することができました。

次に、LLM はエージェントがアクションを完了するのを待機し、状態トークンを介してエージェントの観察を受信して次のトークンを生成します。

具体的には、研究者らは、物体検索、道具の使用、多感覚ラベル付け、タスク分解という 4 つの実験シナリオを設計し、各シナリオの詳細なタスク指示、ベンチマーク、分析を提供しました。

オブジェクトの取得

物体検索に関する実験で、研究者たちはいくつかの興味深い結論に達しました。

まず、複数の感覚システムからの情報を処理できるモデルは、単一の種類の情報しか処理できないモデルよりもはるかに優れています。

CLIP や CLAP、および初期の視覚的特徴に依存するモデルは、オブジェクト検索タスクのパフォーマンスが低下します。これにより、2D 画像のみに依存するモデルではなく、複数の感覚情報を組み合わせたモデルの重要性がさらに強調されます。

これは主に、単一の視点からの画像では、特に視点が一貫していなかったり、オブジェクトが遮られていたりする場合に、オブジェクトを認識するのに十分な情報を提供できない場合があるためです。

第二に、LLM は類似性ベースの検索モデルよりもパフォーマンスが優れています。これは、後者がさまざまな感覚情報を区別せずに、単に複数の感覚情報を結合するからであると考えられます。

全体的に、MultiPLY は多くの点でベースラインモデルを大幅に上回っています。

これは、他のモデルがすべての情報を視覚情報とバンドルし、視覚的特徴が他の感覚からの複数の特徴に関連付けられる可能性があるという事実を無視しているためである可能性があります。

MultiPLY は、さまざまな感覚データを個別に操作して推論することで、さまざまな感覚機能を相互に接続できます。

ツールの使用

ツール使用テストでは、これらのバインディングベースの方法はツール使用タスクで非常に悪いパフォーマンスを示しました。

その理由は、これらの方法が物体の複数の感覚情報を分割できない全体として処理するため、材質などの全体から個々の感覚的特徴を区別できないためであると考えられます。

したがって、これらの特性がどのように道具の使用の基礎となるのかを推論することはもちろん、複数の感覚情報を統合した上で物体の実際の機能をどのように分析し理解するかについても不明です。

多感覚ラベリング

下の表から、全体的に 3D ベースの大規模モデルのパフォーマンスが 2D ベースの VLM のパフォーマンスを上回っていることがはっきりとわかります。

LLaVA と 3D-LLM は包括的なデータ表現を入力として使用するため、異なるデータ表現を柔軟に切り替えて相互に作用できるモデルと競合することはできません。

MultiPLY は Pointbind-LLM よりもパフォーマンスが優れています。これは、PointBind が異なる感覚様式のデータ表現を結合し、個々の感覚情報を区別して解析することが困難になるためと考えられます。

タスクの内訳

タスク分解では、インタラクティブな機能を持たないモデルのパフォーマンスは極めて低くなります。これはおそらく、VLM が誤った幻覚を起こしやすいという事実によるものです。

たとえば、シーン内にパンが存在しないにもかかわらず、モデルが「パンを見つけてください」という指示を誤って生成する可能性があります。

MultiPLY は複数の感覚情報を考慮しますが、他のモデルは視覚情報のみに依存しているため、ベースラインモデルを大幅に上回ります。

もう 1 つの理由としては、ベースラインモデルがシーン全体のみを入力として受け取り、シーン内の特定の詳細に正確に焦点を当てることができないことが考えられます。

定性実験

下の図は、特定の環境内のオブジェクトと対話し、複数の感覚情報を取得する MultiPLY の強力な機能を直感的に示しています。

著者について

Yining Hong は UCLA のコンピュータサイエンスの博士課程の学生で、MIT-IBM Watson AI Lab の Gan Chuang 教授と UCLA の Song-Chun Zhu 教授および Ying Nian Wu 教授が指導教員です。

彼女は以前、上海交通大学で学士号を取得しました。

彼女の研究は、3次元の物理世界を積極的に探索し、相互作用すると同時に、そのような環境で常識的な推論を実行できる汎用的な具現化エージェントの開発を目指しています。

必要な主な要素は次のとおりです。

- 3次元世界のモデルを構築する。

- 大規模な具体化ベースのモデルを開発する。

- 視覚的な常識的推論を実装します。

<<:

>>: GPT-5 は 50,000 個の H100 で停止しています。アルトマンは、NVIDIAに代わるAIチップ帝国を築くために、緊急に数十億ドルを調達している。

DAMOアカデミーが新世代の音声認識モデルDFSMNを発表し、オープンソースを発表

エージェントは初めて人間のような感覚を持ち、ハンバーガーを触って熱いか冷たいかを判断します。 UCLAなどが3Dマルチモーダルインタラクティブ具現化知能モデルをリリース

多感覚大型モデル

多感覚宇宙データセット

3Dシーンにインタラクティブなオブジェクトを追加する

新しいオブジェクトのセンサーデータを取得する

エージェントはシーン構築データを収集する

オブジェクト中心のシーン表現

アクショントークン

ステータストークン

トレーニングと推論

オブジェクトの取得

ツールの使用

多感覚ラベリング

タスクの内訳

定性実験

DAMOアカデミーが新世代の音声認識モデルDFSMNを発表し、オープンソースを発表

AIと機械学習プロジェクトのセキュリティを確保する方法

アリペイは65歳以上の高齢者が直接人間サービスを利用できる専用ホットラインを立ち上げた。

インテリジェント製造自動化、中国電子山地がインテリジェント製造の新しいモデルを実践

清華大学がJittorをオープンソース化：国内初の大学開発のディープラーニングフレームワーク、PyTorchへのワンクリック変換が可能

AIミドルプラットフォーム - インテリジェントチャットボットプラットフォームのアーキテクチャとアプリケーション

AIネットワークはこれまで考えられていたよりも攻撃に対して脆弱である

自動化プロジェクトの成功は、ビジネスとITの高度な連携にかかっています。

統計分析と人工知能の9つの有名な大惨事

コンピューティング技術を変えた偉大なアルゴリズムを数えてみましょう

推薦する

ロボットは感染症の蔓延を抑制するためにどのように役立つのでしょうか?

完全に無人運転？ 2035年より前になる可能性は低いです!

2023 年の 5 つの驚くべき自動化の進歩

なぜ人間はヒューマノイドロボットを恐れるのでしょうか?心の奥底から湧き上がる恐怖

eMule プロトコルスライス選択アルゴリズムの分析

Midjourneyが中国のバレンタインデーのために魔法のような絵を描き、ネットユーザーを驚かせた！ローカル再描画機能が新たに開始、マスクとザッカーバーグが八角形の檻の中で戦う

ゲーム「原神」では実際に深層強化学習が使われ、オープンソース化されている

経済の冬の後には人工知能の春が来る

Testin Cloud Testing: テクノロジーを活用して企業の飛躍を支援

ジャック・マー氏：教育はデジタル時代に合わせて変えなければならない、そうでなければ子どもたちは機械と競争できなくなる

早く見て！無料の機械学習コーストップ10