視覚言語モデル (VLM) は、画像の説明、視覚的な質問応答 (VQA)、具体化された計画、アクションの認識など、幅広いタスクで目覚ましい進歩を遂げています。しかし、ほとんどの視覚言語モデルでは、3 次元空間内のオブジェクトの位置や空間関係を理解することが必要なタスクなど、空間推論において依然としていくつかの困難が残っています。 この問題に関して、研究者はしばしば「人間」からインスピレーションを得ています。人間は、体現された経験と進化的発達を通じて、複雑な思考の連鎖や暗算を必要とせずに、目標の相対的な位置などの空間関係を楽々と判断したり、距離や大きさを推定したりできる固有の空間推論スキルを持っています。 直接的な空間推論タスクにおけるこの熟練度は、現在の視覚言語モデルの限界とは対照的であり、「視覚言語モデルに人間のような空間推論能力を与えることは可能か?」という魅力的な研究課題を提起します。 最近、Google は空間推論機能を備えた視覚言語モデル、SpatialVLM を提案しました。
注目すべきは、研究者らが、現在の視覚言語モデルの空間推論機能の限界は、そのアーキテクチャの限界によるものではなく、大規模なトレーニング時に使用される共通データセットの限界によるものである可能性が高いと仮説を立てていることです。たとえば、多くの視覚言語モデルは、限られた空間情報を含む画像と説明のペアを特徴とするインターネット規模のデータセットでトレーニングされています。制限は、空間情報や 3D 対応クエリが豊富な具体化されたデータに対して、高品質の手動注釈を取得することが難しいことです。自動データ生成および拡張技術は、この問題を解決する 1 つの方法です。ただし、これまでのデータ生成研究の多くは、オブジェクトの豊富さと 3D 関係を無視して、実際の意味注釈を備えた写実的な画像を生成することに重点を置いています。 対照的に、私たちは現実世界のデータから直接空間情報を抽出することに重点を置いており、実際の 3D 世界の多様性と複雑さを捉えています。この革新は、2D 画像から 3D 空間注釈を自動的に生成するビジョン モデルの最近の進歩から生まれました。 SpatialVLM システムは、視覚言語モデルのデータ生成とトレーニングを可能にし、空間推論機能を強化します。具体的には、研究者らは、オープン語彙のオブジェクト検出、メトリック深度推定、セマンティックセグメンテーション、オブジェクト中心の記述モデルを組み合わせて、大規模な現実世界のデータの高密度な注釈付けを実現しました。 SpatialVLM は、ビジョン モデルによって生成されたデータを、説明、VQA、空間推論データの混合に基づいて視覚言語モデルをトレーニングするために使用できる形式に変換します。 実験により、本論文で訓練された視覚言語モデルが多くの満足のいく機能を発揮することが示されました。まず、定性的な空間の質問に答える能力が大幅に向上しました。第二に、ノイズの多いトレーニング データであっても信頼性の高い定量的な推定値を提供できます。この能力により、ターゲットのサイズに関する常識的な知識を得られるだけでなく、再調整タスクのオープン語彙報酬注釈にも非常に役立ちます。 3 番目に、自然言語インターフェースに基づき、強力な大規模言語モデルと組み合わせた当社の空間視覚言語モデルは、空間推論チェーンを実行して複雑な空間推論タスクを解決できます。 方法の概要視覚言語モデルが定性的および定量的な空間推論機能を持つようにするために、研究者は視覚言語モデルのトレーニング用に大規模な空間 VQA データセットを生成することを提案しました。具体的には、まず、オープン語彙検出、メトリック深度推定、セマンティックセグメンテーション、ターゲット中心の説明モデルなどの既製のコンピュータービジョンモデルを使用してターゲット中心の背景情報を抽出し、次にテンプレートベースの方法を採用して適切な品質の大規模な空間 VQA データを生成する包括的なデータ生成フレームワークを設計します。この論文では、研究者らは生成されたデータセットを使用して SpatialVLM を直接的な空間推論機能を学習するようにトレーニングし、それを LLM に組み込まれた高レベルの常識的推論と組み合わせて、連鎖思考の空間推論を解き放ちました。 2D画像の空間参照 研究者らは、空間推論の質問を含む VQA データを生成するプロセスを設計しました。具体的なプロセスを図 2 に示します。 1. セマンティックフィルタリング:本論文のデータ合成プロセスでは、最初のステップとして、CLIPベースのオープン語彙分類モデルを使用してすべての画像を分類し、不適切な画像を除外します。 2. 2D 画像からオブジェクト中心の背景を抽出する: このステップでは、ピクセル クラスターとオープン ボキャブラリの説明で構成されるオブジェクト中心のエンティティを取得します。 3. 2D 背景情報から 3D 背景情報へ: 深度推定後、単眼の 2D ピクセルはメートル法スケールの 3D ポイント クラウドにアップグレードされます。この論文は、インターネット規模の画像をオブジェクト中心の 3D ポイント クラウドにアップスケールし、それを使用して 3D 空間推論監視による VQA データを合成した初めての論文です。 4. 曖昧さの解消: 画像内に類似したカテゴリのオブジェクトが複数存在する場合があり、その結果、説明ラベルが曖昧になることがあります。したがって、これらの目標について質問する前に、参照表現が明確であることを確認する必要があります。 大規模空間推論 VQA データセット 研究者らは、合成データで事前トレーニングすることにより、VLM に「直感的な」空間推論機能を組み込みました。したがって、合成には、画像内の 2 つ以下のオブジェクト (A と B で示される) に関する質問と回答のペアに関する空間的推論が含まれます。ここでは主に次の 2 種類の問題を検討します。 1. 定性的な質問: 特定の空間関係についての判断を求めます。たとえば、「2 つのオブジェクト A と B がある場合、どちらが左にありますか?」 2. 定量的な質問: 数値や単位を含む、より詳細な回答を求めます。たとえば、「オブジェクト A はオブジェクト B に対してどれくらい左にありますか?」、「オブジェクト A はオブジェクト B からどれくらい離れていますか?」 ここで、研究者は 38 種類の定性的および定量的な空間推論の質問を指定しました。各質問には約 20 個の質問テンプレートと 10 個の回答テンプレートが含まれていました。 図3は、本論文で得られた合成質問-回答ペアの例を示しています。研究者らは、1,000 万枚の画像と 20 億の直接的な空間推論の質問と回答のペア (定性的な質問が 50%、定量的な質問が 50%) からなる膨大なデータセットを作成しました。 空間推論を学ぶ 直接的な空間推論: 視覚言語モデルは、画像 I と空間タスクに関するクエリ Q を入力として受け取り、外部ツールを使用したり他の大規模モデルとやり取りしたりすることなく、テキスト形式で回答 A を出力します。この論文では、PaLM-E と同じアーキテクチャとトレーニング プロセスを採用していますが、PaLM のバックボーンを PaLM 2-S に置き換えています。次に、元の PaLM-E データセットと著者のデータセットを組み合わせてモデルをトレーニングし、トークンの 5% を空間推論タスクに使用します。 連鎖思考空間推論: SpatialVLM は、概念に基づいた質問を照会するための自然言語インターフェースを提供し、強力な LLM と組み合わせることで、複雑な空間推論を実行できます。 ソクラテスモデルと LLM コーディネーターのアプローチと同様に、この論文では、図 4 に示すように、LLM (text-davinci-003) を使用して SpatialVLM との通信を調整し、連鎖的な思考を促す方法で複雑な問題を解決します。 実験と結果研究者たちは実験的に以下の質問を検証し、答えました。 質問 1: この論文で設計された空間 VQA データ生成およびトレーニング プロセスは、VLM の一般的な空間推論能力を向上させますか?そして、そのパフォーマンスはどうですか? 質問 2: ノイズの多いデータとさまざまなトレーニング戦略が含まれた合成空間 VQA データは、学習パフォーマンスにどのような影響を与えますか? 質問 3: 「直接的な」空間推論機能を備えた VLM は、連鎖推論や具体化された計画などの新しい機能を実現できますか? 研究者らは、PaLM-E トレーニング セットと本論文で設計された空間 VQA データセットを組み合わせてモデルをトレーニングしました。空間推論における VLM の限界がデータの問題であるかどうかを検証するために、研究者らは、現在の最先端の視覚言語モデルをベースラインとして選択しました。この記事の空間 VQA データセットをトレーニングに使用する代わりに、意味記述タスクがこれらのモデルのトレーニング プロセスでかなりの割合を占めます。 空間VQAパフォーマンス 定性的空間 VQA。この質問では、人間が注釈を付けた回答と VLM 出力はどちらも自由形式の自然言語です。そのため、研究者は VLM のパフォーマンスを評価するために、回答が正しいかどうかを人間の評価者が判断しました。さまざまな VLM の成功率は表 1 に示されています。 定量的空間VQA。表 2 に示すように、当社のモデルは両方の指標においてベースラインよりも大幅に優れたパフォーマンスを発揮します。 空間 VQA データが一般 VQA に与える影響 2 番目の疑問は、大量の空間 VQA データと共同でトレーニングされることにより、他のタスクにおける VLM のパフォーマンスが低下するかどうかです。私たちのモデルは、一般的な VQA ベンチマークで空間 VQA データなしでトレーニングされた基本的な PaLM 2-E と比較されます。表 3 にまとめられているように、私たちのモデルは、限られた空間推論の質問を含む OKVQA ベンチマークで PaLM 2-E と同等のパフォーマンスを達成し、空間推論の質問を含む VQA-v2 テスト開発ベンチマークではわずかに優れたパフォーマンスを発揮します。 ViTエンコーダの空間推論への影響 Frozen ViT (対照的なターゲットでトレーニング済み) は、空間推論を実行するのに十分な情報をエンコードしますか?これを調査するために、私たちの実験はトレーニングのステップ 110,000 から開始され、2 つのトレーニング実行 (1 つは Frozen ViT、もう 1 つは Unfrozen ViT) に分割されました。 2つのモデルは70,000ステップトレーニングされ、評価結果は表4に示されています。 ノイズの多い定量的空間回答の影響 研究者らはロボット操作データセットを使用して視覚言語モデルをトレーニングし、モデルが操作フィールドで微細な距離推定を実行できることを発見しました (図 5)。これにより、データの精度がさらに証明されました。 表 5 は、定量的空間 VQA におけるさまざまなガウスノイズ標準偏差が全体的な VLM パフォーマンスに与える影響を比較しています。 空間推論が新たな応用を生む1. 高密度報酬アノテーターとしての視覚言語モデル 視覚言語モデルはロボット工学の分野で重要な用途を持っています。最近の研究では、視覚言語モデルと大規模言語モデルが、ロボットタスクの汎用オープン語彙報酬アノテーターおよび成功検出器として機能し、効果的な制御ポリシーの開発に使用できることが示されています。しかし、VLM の報酬ラベル付け能力は、空間認識能力の不足によって制限されることが多いです。 SpatialVLM は画像から距離やサイズを定量的に推定できるため、高密度報酬アノテーターとして最適です。著者らは実際のロボット実験を実施し、自然言語でタスクを指定し、軌道の各フレームに報酬を注釈付けするように SpatialVLM に依頼しました。 図 6 の各点はターゲットの位置を表し、その色は注釈付きの報酬を示します。ロボットが指定された目標に向かって進むにつれて、報酬が単調に増加することがわかり、高密度報酬アノテーターとしての SpatialVLM の能力が実証されます。 2. 連鎖思考による空間推論 研究者らはまた、基本的な空間的な質問に答える能力が強化されていることから、SpatialVLM が複数段階の推論を必要とするタスクの実行に使用できるかどうかも調査しました。著者らは図1と図4にいくつかの例を示しています。大規模言語モデル(GPT-4)に空間推論サブモジュールとしてSpatialVLMが搭載されると、環境内の3つのオブジェクトが「二等辺三角形」を形成できるかどうかを答えるなど、複雑な空間推論タスクを実行できるようになります。 より詳しい技術的な詳細と実験結果については、原著論文を参照してください。 |
<<: 清華大学チームは、蛍光画像から自己教師あり方式でノイズを除去する空間冗長性ノイズ除去トランスフォーマー法を開発
>>: ポストSORA時代において、CV実践者はどのようにモデルを選択するのでしょうか?畳み込みまたはViT、教師あり学習またはCLIPパラダイム
人間とは異なり、人工ニューラル ネットワークは新しいことを学習するときに以前に学習した情報をすぐに忘...
世界的な技術競争において、人工知能は他の追随を許さない世界的な技術革新の新たな局面において、人工知能...
大ヒット映画とモノのインターネット(IoT)にはどのような関係があるのでしょうか?あなたが思っている...
現在、ますます多くのスタートアップ企業と大手半導体企業が新しい AI チップの発売を競っています。 ...
2021年スタンフォードAIインデックスレポートが正式にリリースされ、過去1年間のAIの全体的な発...
[[354052]] 11月24日、工業情報化部の劉烈宏副部長は人工知能サブフォーラム「人工知能:新...
[[176276]]この記事では、主に、一般的に使用されているいくつかのアルゴリズムの適応シナリオと...
多くの場合、さまざまな組織がさまざまな方法で生成 AI テクノロジーを適用しますが、それがもたらす悪...
人工知能の進歩は前例のない機会をもたらすと同時に、経済的、政治的、社会的混乱ももたらします。専門家は...
否定できない現実として、私たちは自動化の時代に入り、それに伴い人工知能 (AI)、機械学習 (ML)...
[[421986]]過去数年間でインターネットビデオは爆発的な成長を遂げており、ビデオ伝送インフラ...