3Dを理解する言語モデルが登場！ UCLA、上海交通大学、MITなどが共同で3D-LLMを提案：パフォーマンスが9%向上

大規模言語モデル (LLM) と視覚言語モデル (VLM) は、画像からの発話や常識的な推論の実行など、さまざまな評価ベンチマークで優れたパフォーマンスを発揮しています。

ただし、これらのモデルのトレーニングプロセスでは 3D の物理世界が導入されないため、空間関係、レイアウト、オブジェクトのフィードバックなど、より豊富な現実世界の概念を理解することはできません。

最近、UCLA、上海交通大学、華南理工大学、マサチューセッツ工科大学などの研究者が共同で、3Dポイントクラウドとその特徴を入力として使用して、3D世界の知識を大規模言語モデルに注入する新しい3D-LLMタスクを提案しました。これにより、記述生成、3D質問応答、タスク分解、3D支援対話、ナビゲーションなど、さまざまな3D関連タスクを実行できるようになります。

論文リンク: https://arxiv.org/pdf/2307.12981.pdf

この考えに基づいて、研究者らは 3 種類のプロンプトメカニズムを設計し、上記のタスクをサポートするために 30 万件を超える 3D 言語データを収集しました。

3D-LLM を効果的にトレーニングするために、まず 3D 特徴抽出器を使用してレンダリングされたマルチビュー画像から 3D 特徴を取得し、次に 2D VLM をモデルのバックボーンとして使用して 3D-LLM ネットワークをトレーニングします。3D ローカリゼーションメカニズムを導入することで、3D-LLM は 3D 空間情報をより適切にキャプチャできるようになります。

ScanQA での実験結果では、提案されたモデルが最先端のベースラインモデルを大幅に上回り、たとえば BLEU-1 メトリックで 9% のパフォーマンス向上を達成したことが示されています。

さらに、3D記述生成や3D支援対話などのデータセットでの実験では、このモデルが2D VLMよりも優れていることが示されています。

定性的な結果では、モデルが既存の LLM および VLM の機能を超えるいくつかのタスクを実行できることも示されています。

3D言語データ生成

インターネットから 2 次元画像とそれに対応するテキストの膨大なデータペアを取得するのは簡単ですが、3 次元のマルチモーダルデータを取得するのは非常に困難です。インターネット上の 3 次元資産は非常に少なく、テキスト注釈を提供することはさらに困難です。

ScanQAやScanReferなどの既存の3D言語データは量と多様性が限られており、各データセットは1つのタスクに限定されています。さまざまな3D関連タスクに使用できる3D言語データセットを自動的に生成する方法は、深く研究する価値があります。

GPT などの大規模言語モデルに触発され、研究者はそのようなモデルを使用して 3D 言語データを収集することを提案しました。

具体的には、プレーンテキスト GPT モデルにデータを生成するよう指示する主な方法は 3 つあります。

1. ボックス、デモンストレーション、指示に基づくプロンプト。

入力は、3D シーン内の部屋とオブジェクトの軸に沿った境界ボックス (AABB) であり、シーンの意味的および空間的な位置情報を提供し、次に GPT モデルに具体的な指示を提供してさまざまなデータを生成します。

研究者らは、生成されるデータの種類を示すために、GPT モデルに 0 ～ 3 個の少数ショットのデモンストレーション例を提供しました。

2. ChatCaptioner に基づいたプロンプト。

ChatGPT 入力プロンプトを使用して、画像に関する一連の有益な質問をし、BLIP-2 モデルを使用してこれらの質問に回答します。

3D 関連データを収集するために、研究者はさまざまな視点からの画像を BLIP-2 に入力し、ChatGPT に質問させてさまざまな領域から情報を収集し、シーン全体のグローバルな 3D 記述を形成しました。

3. リビジョンベースのプロンプトを使用して、あるタイプの 3D データを別のタイプの 3D データに移行できます。

上記のプロセスの後、GPT は主に次の 3D アセットに基づいて、さまざまな種類の 3D 言語データを生成できます。

1. Objaverse には 80 万個の 3D オブジェクトが含まれていますが、言語の説明はオンラインリソースから抽出されており、手動でチェックされていないため、ほとんどのオブジェクトの説明に URL などのノイズが多く含まれていたり、説明を生成できなかったりします。研究者たちは、ChatCaptioner ベースのプロンプト機能を使用して、シーンの高品質な 3D 関連の説明を生成しました。

2. Scannet は、シーン内のオブジェクトのセマンティクスと境界ボックスを提供する、約 1,000 の 3D 屋内シーンの豊富な注釈付きデータセットです。 -

3. 具現化された AI 向けの 3 次元環境データセットである Habitat-Matterport (HM3D)。 HM3DSem はさらに、HM3D の 200 を超えるシーンにセマンティック注釈と境界ボックスを追加します。

3D-LLM

3D特徴抽出器

3D-LLM のトレーニングの最初のステップは、言語機能と一致できる意味のある 3D 機能を確立することですが、大規模な 3D アセットデータセットが不足しているため、事前トレーニングを使用して表現を学習することはできません。

研究者らは、2次元のマルチビュー画像から3次元の特徴を抽出する方法に着想を得て、複数の異なる視点から3次元シーンをレンダリングすることで3次元点の特徴を抽出し、レンダリングされた画像の特徴から3次元の特徴を構築することを提案した。

まず、レンダリングされた画像のピクセル整列した密な特徴が抽出されます。次に、さまざまな種類の 3D データに対して、レンダリングされた画像の特徴から 3D 特徴を構築するための 3 つの方法が設計されています。

1. 直接的な再構築

3D データに基づいて、実際のカメラマトリックスを使用して、3D データからレンダリングされた RGBD 画像からポイントクラウドが直接再構築され、特徴が再構築された 3D ポイントに直接マッピングされます。

このアプローチは、完璧なカメラポーズと固有の特徴を持つ RGBD レンダリングされたデータに適しています。

2. 機能の融合

Gradslam は、2D フィーチャを 3D マッピングに融合するために使用されます。高密度マッピング方法とは異なり、深度と色に加えて、モデルは他のフィーチャも融合します。

このアプローチは、ノイズの多い深度マップレンダリングや、ノイズの多いカメラポーズおよび固有の特徴を持つ 3D データに適しています。

3. 神経分野

ニューラルボクセルフィールドは、3D コンパクト表現を構築するために使用されます。具体的には、密度と色に加えて、ニューラルフィールド内の各ボクセルには特徴があり、MSE 損失を使用して、レイ内の 3D 特徴とピクセル内の 2D 特徴を揃えることができます。

このアプローチは、RGB レンダリングはあるが深度データがない 3D データや、ノイズの多いカメラポーズや組み込みデータに適しています。

3D-LLMのトレーニング

3D 特徴抽出器を使用して 3D 特徴を 2D 画像と同じ特徴空間にマッピングできることを考慮すると、これらの 2D 視覚言語モデルを 3D-LLM のバックボーンとして使用するのは合理的です。

3次元特徴抽出器によって抽出された3次元特徴と2次元特徴が同じ特徴空間にあり、パーセプトロンが同じ特徴次元の任意の入力サイズを処理できることを考えると、任意のサイズのポイントクラウド特徴もパーセプトロンに入力できます。

そこで研究者らは、3D特徴抽出器を使用して、凍結画像エンコーダの特徴と同じ特徴空間で3D特徴を抽出し、事前トレーニング済みの2D視覚言語モデルをバックボーンネットワークとして使用し、調整された3D特徴と収集された3D言語データセットを入力して、3D言語モデルをトレーニングしました。

3Dポジショニング機構

言語の意味に一致する 3D 機能を確立することに加えて、3D 空間情報をキャプチャすることも重要です。

研究者らは、3D LLM の空間情報を吸収する能力を向上させる 3D 位置特定メカニズムを提案しました。

このメカニズムは 2 つの部分から構成されます。

1. 位置埋め込みで3D特徴を強化し、すべての埋め込みを最終特徴として連結する

2. 3D 位置を埋め込み語彙に入れ、境界ボックスを AABB の形式で表し、連続コーナー座標をボクセル整数に離散化します。言語モデルの入力および出力埋め込みでこれらのトークンの重みを解凍します。

実験セクション

ScanQA検証セットとテストセットの実験結果から、ほぼすべての評価指標が大幅に改善されたことがわかります。

たとえば、BLEU-1 メトリックの場合、提案されたモデルは、最先端の ScanQA モデルよりも、検証セットで約 9%、テストセットで約 7% 優れています。

これらの結果は、LLM に 3D を注入することで、モデルによって生成された回答が実際の回答にさらに近くなることを示唆しています。

さらに、3D ベースのベースラインでは、オブジェクト検出器 (VoteNet など) を使用してオブジェクトをセグメント化し、各オブジェクトの特徴をモデルに送信しますが、提案モデルの入力は、明示的なオブジェクト表現のない全体的な 3D 特徴です。

結果は、明示的なオブジェクト表現がなくても、モデルがオブジェクトとその関係についての視覚的推論を実行できることを示しています。

また、シングルビュー画像またはマルチビュー画像を入力とした場合、2D VLM のパフォーマンスは 3D VLM よりもはるかに低くなることがわかります。つまり、マルチビュー画像にもシーン全体の情報が含まれていますが、3D-LLM と比較すると、3D VLM のパフォーマンスは依然としてはるかに低くなります。これは、マルチビュー画像の特徴が乱雑になり、3D 関連の情報が失われるためと考えられます。

<<: 物議を醸す安定CEO：インドのソフトウェアアウトソーシングエンジニアは消滅するかも！人工知能が台頭し、世界から注目を集める！

>>: 新たな調査でAIのROIの急上昇と将来の課題が浮き彫りに