データのラベル付けは不要、「3D理解」によるマルチモーダル事前トレーニングの時代へ! ULIPシリーズは完全にオープンソースで、SOTAをリフレッシュします

データのラベル付けは不要、「3D理解」によるマルチモーダル事前トレーニングの時代へ! ULIPシリーズは完全にオープンソースで、SOTAをリフレッシュします

3D 形状、2D 画像、および対応する言語記述を整合させることにより、マルチモーダル事前トレーニング手法は3D 表現学習の発展も推進してきました。

しかし、マルチモーダル事前トレーニング フレームワークでデータを収集する既存の方法にはスケーラビリティが欠けており、マルチモーダル学習の可能性は大きく制限されています。最も重要なボトルネックは、言語モダリティのスケーラビリティと包括性にあります。

最近、Salesforce AI はスタンフォード大学およびテキサス大学オースティン校と提携し、3D 理解の新たな章をリードする ULIP (CVP R2023) および ULIP-2 プロジェクトをリリースしました。

論文リンク: https://arxiv.org/pdf/2212.05171.pdf

論文リンク: https://arxiv.org/pdf/2305.08275.pdf

コードリンク: https://github.com/salesforce/ULIP

研究者たちは、3D ポイント クラウド、画像、テキストを使用してモデルを事前トレーニングし、それらを統一された特徴空間に配置するという独自のアプローチを採用しました。このアプローチは、3D 分類タスクで最先端の結果を達成し、画像から 3D への検索などのクロスドメイン タスクに新たな可能性をもたらします。

ULIP-2 では、手動によるラベル付けなしでこのマルチモーダル事前トレーニングが可能になり、大規模に拡張可能になります。

ULIP-2 は、ModelNet40 の下流ゼロショット分類で大幅なパフォーマンス向上を達成し、最大精度 74.0% に達しました。実際の ScanObjectNN ベンチマークでは、わずか 140 万のパラメーターで 91.5% の全体精度を達成し、人間による 3D 注釈なしのスケーラブルなマルチモーダル 3D 表現学習における画期的な進歩を示しています。


3 つの特徴 (3D、画像、テキスト) を位置合わせするための事前トレーニング フレームワークの概略図

コードと公開された大規模なトライモーダル データセット (「ULIP - Objaverse Triplets」および「ULIP - ShapeNet Triplets」) はオープン ソース化されています。

背景

3D 理解は人工知能の分野において重要な部分であり、機械が人間のように 3 次元空間を認識して対話することを可能にします。この機能は、自動運転車、ロボット工学、仮想現実、拡張現実などの分野で重要な用途があります。

しかし、3D データの処理と解釈の複雑さ、および 3D データの収集と注釈付けのコストにより、3D 理解は常に大きな課題に直面してきました。

ULIP

トライモーダル事前トレーニングフレームワークとその下流タスク

ULIP(CVPR2023 で承認済み)は、3D ポイント クラウド、画像、テキストを使用してモデルを事前トレーニングし、それらを統一された表現空間に配置する独自のアプローチを採用しています。

このアプローチは、3D 分類タスクで最先端の結果を達成し、画像から 3D への検索などのクロスドメイン タスクに新たな可能性をもたらします。

ULIP の成功の鍵は、多数の画像とテキストのペアで事前にトレーニングされた、CLIP などの事前調整された画像およびテキスト エンコーダーの使用にあります。

これらのエンコーダーは、3 つのモダリティの機能を統一された表現空間に揃え、モデルが 3D オブジェクトをより効果的に理解して分類できるようにします。

この改善された 3D 表現学習により、モデルの 3D データの理解が強化されるだけでなく、3D エンコーダーがマルチモーダル コンテキストを取得するため、ゼロショット 3D 分類や画像から 3D への検索などのクロスモーダル アプリケーションも可能になります。

ULIP の事前トレーニング損失関数は次のとおりです。

ULIP のデフォルト設定では、α は 0、β と θ は 1 に設定され、各 2 つのモダリティ間の対照学習損失関数は次のように定義されます。ここで、M1 と M2 は 3 つのモダリティのうちの任意の 2 つを指します。

ULIP は画像から 3D への検索に関する実験も実施しており、その結果は次のとおりです。

実験結果は、ULIP 事前トレーニング済みモデルが画像と 3D ポイント クラウド間の意味のあるマルチモーダル機能を学習できることを示しています。

驚くべきことに、最初に取得された 3D モデルは、他の取得された 3D モデルと比較して、クエリ画像の外観に最も近いです。

たとえば、異なる航空機タイプ(戦闘機と旅客機)の画像を検索に使用すると(2 行目と 3 行目)、取得された最も近い 3D ポイント クラウドには、クエリ画像の微妙な違いが保持されます。

ULIP-2

これは、3D オブジェクトのマルチアングルテキスト説明を生成する例です。まず、一連の視点から 3D オブジェクトを 2D 画像にレンダリングし、次に大規模なマルチモーダル モデルを使用して、レンダリングされたすべての画像の説明を生成します。

ULIP をベースにした ULIP-2 は、大規模なマルチモーダル モデルを使用して 3D オブジェクトの包括的な言語記述を生成します。これにより、手動による注釈なしでスケーラブルなマルチモーダル事前トレーニング データを収集し、事前トレーニング プロセスとトレーニング済みモデルの効率を高め、適応性を高めます。

ULIP-2 のアプローチでは、各 3D オブジェクトに対して複数の角度と異なる言語の説明を生成し、これらの説明を使用してモデルをトレーニングし、3D オブジェクト、2D 画像、および言語の説明が特徴空間内で整列されるようにします。

このフレームワークにより、手動による注釈なしで大規模なトライモーダル データセットを作成できるようになり、マルチモーダル事前トレーニングの可能性を最大限に引き出すことができます。

ULIP-2 は、生成された大規模な三峰性データセット「ULIP - Objaverse Triplets」と「ULIP - ShapeNet Triplets」もリリースしました。

2つの三峰性データセットの統計

実験結果

ULIP シリーズは、マルチモーダル ダウンストリーム タスクや 3D 表現の微調整実験において驚くべき成果を達成しました。特に、ULIP-2 の事前トレーニングは、手動による注釈なしで実現できます。

ULIP-2 は、ModelNet40 の下流ゼロショット分類タスクで大幅な改善を達成しました (トップ 1 精度 74.0%)。実際の ScanObjectNN ベンチマークでは、わずか 140 万のパラメーターで 91.5% の全体精度を達成し、手動の 3D 注釈なしでスケーラブルなマルチモーダル 3D 表現学習における画期的な進歩を示しています。

アブレーション実験

どちらの論文も詳細なアブレーション実験を実施しました。

「ULIP: 3D 理解のための言語、画像、ポイント クラウドの統一表現の学習」では、ULIP 事前トレーニング フレームワークに 3 つのモダリティが含まれるため、著者は実験を使用して、モダリティのうち 2 つだけを調整する方がよいか、3 つすべてを調整した方がよいかを調べました。実験結果は次のとおりです。

実験結果から、異なる 3D バックボーン間では、3 つのモダリティをアラインメントする方が 2 つのモダリティのみをアラインメントするよりも優れていることがわかります。これは、ULIP 事前トレーニング フレームワークの合理性も証明しています。

「ULIP-2: 3D 理解のためのスケーラブルなマルチモーダル事前トレーニングに向けて」では、著者らはさまざまな大規模マルチモーダル モデルが事前トレーニング フレームワークに与える影響を調査し、次のような結果を得ました。

実験結果によると、ULIP-2 フレームワークの事前トレーニングの効果は、使用される大規模なマルチモーダル モデルのアップグレードによって向上し、一定の成長の可能性があります。

ULIP-2 では、著者らは、異なる数の視点を使用して 3 峰性データセットを生成すると、全体的な事前トレーニング パフォーマンスにどのような影響が及ぶかについても調査しました。実験結果は次のとおりです。

実験結果によると、事前トレーニング済みモデルのゼロショット分類の効果は、使用される視点の数に応じて増加することがわかりました。

これは、より包括的かつ多様な言語記述がマルチモーダル事前トレーニングにプラスの効果をもたらすという ULIP-2 の見解を裏付けるものでもあります。

さらに、ULIP-2 では、CLIP でソートされたさまざまな Topk 言語の説明を取得することによるマルチモーダル事前トレーニングへの影響も調査しました。実験結果は次のとおりです。

実験結果は、ULIP-2 フレームワークがさまざまな topk に対して堅牢であることを示しています。この論文では、デフォルト設定として top 5 を使用しています。

結論は

Salesforce AI、スタンフォード大学、テキサス大学オースティン校が共同でリリースした ULIP プロジェクト (CVPR2023) と ULIP-2 は、3D 理解の分野に変化をもたらしています。

ULIP は、さまざまなモダリティを統一された空間に調整し、3D 機能の学習を強化し、クロスモーダル アプリケーションを可能にします。

ULIP-2 はさらに一歩進んで、3D オブジェクトの総合的な言語記述を生成し、手動で注釈を付ける必要なしに、多数の三峰性データセットを作成してオープンソース化しました。

これらのプロジェクトは 3D 理解における新たな基準を確立し、機械が 3 次元の世界を真に理解する未来への道を切り開きます。

チーム

Salesforce AI:

Le Xue、Mingfei Gao、Chen Xing、Ning Yu、Shu Zhang、Junnan Li、Caiming Xiong、Ran Xu、Juan carlos niebles、Silvio savarese。

スタンフォード大学:

シルビオ・サヴァレーゼ教授、フアン・カルロス・ニエブレス教授、ジアジュン・ウー教授。

UTオースティン:

ロベルト・マルティン・マルティン教授。

<<: 

>>:  AI を活用してインテリジェントな医療システムを構築するにはどうすればよいでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

AI が生活に統合されると、能力が高ければ高いほど、管理が難しくなります。

2019 年、OpenAI は、特定の「安全制約」に準拠した AI モデルを開発するためのツール ...

...

AIシミュレーターが物理シミュレーションで新たなSOTAを達成!

機械学習により、コンピュータグラフィックス(CG)シミュレーションがよりリアルになります。この方法は...

AIがサイバーセキュリティに与える影響

人工知能(AI)は、人間の知能をシミュレート、拡張、拡大するための理論、方法、技術、アプリケーション...

工業情報化省がロボット産業の「第14次5カ年計画」を発表:2035年までに指定規模以上の製造業でデジタル化が普及する

12月28日、工業情報化部など各部門は「第14次5カ年計画:インテリジェント製造業発展計画」(以下、...

2024年のデータセンターのトレンド: より高温、より高密度、よりスマート

今日のデータセンター業界は、AI テクノロジーの急速な普及、ムーアの法則の減速、そして厄介な持続可能...

日本は変形可能なロボットボールを月に送り込む予定。ボール全体の重さは250グラム

海外メディアの報道によると、日本は5月31日に、特殊な外観の球形ロボットを月に送る予定だ。この球体ロ...

...

気候制御の未来: AI が HVAC システムをどのように変えるか

HVAC システムにおける AI の最も有望な側面の 1 つは、建物とその居住者の固有のニーズを学習...

7つのステップで機械学習モデルを構築する方法

組織が業務を効率化し、ビジネスイニシアチブをサポートするために、実行可能で信頼性が高く、俊敏な機械学...

インダストリー4.0における人工知能

人工知能は、強化された接続性とインテリジェントな自動化を通じて、インダストリー 4.0 に破壊的な変...

ABCの中でビッグデータが最初に遅れをとる理由

[[211451]]人工知能 (AI)、ビッグデータ、クラウドコンピューティングは、今日のインターネ...

...

...