Facebook が ICCV 2021 で 2 つの 3D モデルを公開。自己監督が究極の答えか?

長い間、CV トレーニングは 2 次元データに限定されてきました。3 次元データのラベル付けにはコストがかかるため、専門家が専用のモデルを開発する必要があります。 FacebookはICCV 2021で3DETRとDepthContrastという2つの3Dモデルをリリースしました。これによりモデルの汎用性が全面的に向上し、CV研究が3次元時代に本格的に突入したと言えるでしょう。

大規模データからの事前トレーニングはコンピュータービジョンで広く使用されており、特定のタスクで高性能なモデルを取得するための基礎となっています。

しかし、この方法には致命的な欠陥があり、対象データ型のラベル付きデータが大量にない場合、このモードは使用できません。

たとえば、3D スキャンと認識用のラベル付きデータセットは不足しています。主な理由は、3D データセットの注釈付けには非常に時間がかかり、3D 理解のモデルは通常、トレーニングに使用される特定の 3D データセットに関連する手動のアーキテクチャ設計に依存しているためです。

ICCV 2021 で、Facebook AI は 3DETR と DepthContrast という 2 つの新しいモデルを提案しました。これらは、3D の理解を促進し、簡単に始められるようにする補完的な新しいモデルです。新しいモデルは、簡素化された 3D 理解のための一般的なアーキテクチャを確立し、ラベルを必要としない自己教師学習法を通じてこれらの問題を解決することができます。

コードは現在オープンソースです。

さまざまな理由から、現在の CV モデルは主に 2D 画像に焦点を当てていますが、世界に関する 3D データを理解するためのマシンを構築することが重要です。たとえば、自動運転車は移動して障害物にぶつからないようにするために 3D の理解を必要としますが、AR/VR アプリケーションは、ソファがリビングルームに収まるかどうかを視覚化するなど、実用的なタスクを実行するのに役立ちます。

2D 画像やビデオのデータはピクセルの規則的なグリッドとして表され、3D データはポイント座標として表されます。 3D データは取得とラベル付けが難しいため、通常、3D データセットは画像やビデオデータセットよりもはるかに小さくなります。つまり、全体的なサイズと含まれるクラスまたは概念の数が制限されるのが一般的です。

以前は、3D 理解に重点を置く実務者は、標準の CV アーキテクチャを適応させるために広範なドメイン知識を必要としていました。シングルビュー 3D データ (深度情報も記録する単一のカメラから取得) は、2 台以上のカメラを使用して同じシーンを記録するマルチビュー 3D よりも収集が簡単です。マルチビュー 3D データは、多くの場合、シングルビュー 3D を後処理することによって生成されますが、この処理手順は失敗する可能性があり、一部の研究者は、ソース画像のぼやけやカメラの過度の動きなどの理由により、失敗率が 78% にも達すると推定しています。

DepthContrast は主にこれらの問題に対処します。任意の 3D データ (単一ビューまたはマルチビュー) から自己教師モデルをトレーニングできるため、ラベルのない小さなデータセットを処理するという課題が解消されます。一般的な CV モデルは、たとえ大量の 2D 画像やビデオで事前トレーニングされていたとしても、AR/VR などの複雑なアプリケーションに対して正確な 3D 理解を生み出せる可能性は低いです。

https://arxiv.org/abs/2101.02691

自己教師学習は研究コミュニティと FAIR の主要な関心領域であり、DepthContrast はラベル付きデータを使用せずに強力な 3D 表現を学習する業界における最新の試みです。この研究は、同じく 3D 向けの自己教師あり技術である FAIR の以前の研究 PointContrast を継承しています。

最近では3Dデータを入手する機会が多くあります。センサーとマルチビューステレオアルゴリズムは通常、ビデオや画像に補足情報を提供します。しかし、3D データは取得方法や場所によって物理的特性が異なるため、このデータの意味を理解することはこれまで困難でした。

たとえば、市販の携帯電話センサーから得られる深度データは、LiDAR などの屋外センサーから得られるデータとはかなり異なります。 AI 研究で使用されるほとんどの 3D データは、単一ビューの深度マップの形式で取得され、3D 登録の手順を経て後処理され、マルチビュー 3D が得られます。これまでの研究では、自己教師ありの特徴を学習するためにマルチビュー 3D データに依存しており、トレーニングの目的は主に 3D ポイントの対応を考慮しています。

シングルビューデータをマルチビューデータに変換する際の失敗率は高いですが、DepthContrast は、シングルビュー 3D データのみを使用しても最先端の 3D 機能を学習するのに十分であることを示しています。

3D データ拡張を使用すると、単一ビューの深度マップからわずかに異なる 3D 深度マップを生成できます。 DepthContrast は、コントラスト学習を使用して、これらの強化された深度マップから取得された特徴を揃えることでこれを実現します。

そして研究結果によると、この学習信号は、PointNet++ や Sparse ConvNet などのさまざまな種類の 3D アーキテクチャを事前トレーニングするために使用できることが示されています。

さらに重要なのは、DepthContrast は、屋内でも屋外でも、単一ビューでも複数ビューでも、あらゆるタイプの 3D データに適用できることです。私たちの研究では、DepthContrast で事前トレーニングされたモデルが、ScanNet 3D 検出ベンチマークで絶対的に最先端のパフォーマンスを達成することが示されています。

DepthContrast 機能は、形状分類、オブジェクト検出、セグメンテーションなどのタスクのさまざまな 3D ベンチマークでパフォーマンスを向上させます。

DepthContrast は、自己教師学習が 3D 理解にも有望であることを示しています。実際、DepthContrast は不変の特徴を強化するための学習の基本原理を共有しており、これは Facebook AI の SEER などの自己教師ありモデルの強化に使用されています。

2作目の3DETRは3D Detection Transformerの略称です。このモデルは、Transformer に基づくシンプルな 3D 検出および分類アーキテクチャであり、検出および分類タスク用の一般的な 3D モデルとして使用できます。このモデルは、3D 検出モデルのトレーニングに使用される損失関数を簡素化し、実装を容易にします。そのパフォーマンスは、手動で調整された 3D アーキテクチャと損失関数に依存する既存の最先端の方法と同等か、それを上回ります。

https://arxiv.org/abs/2109.08141

3DETR は、3D シーン (ポイントクラウドまたは XYZ ポイント座標のセットとして表される) を入力として受け取り、シーン内のオブジェクトの 3D 境界ボックスのセットを生成します。この新しい研究は、3D ポイントクラウド内のオブジェクトを検出するための FAIR モデルである VoteNet と、オブジェクト検出の課題を再定義するために Facebook AI によって作成されたよりシンプルなアーキテクチャである Detection Transformers (DETR) に基づいています。

2D 検出の飛躍的な進歩を実現するために、Facebook AI の以前の研究では、Transformer の 3D 理解作業で対処する必要のある 2 つの重要な変更点、および非パラメトリッククエリ埋め込みとフーリエエンコーディングが特定されました。ポイントクラウドは、大量の空きスペースとノイズの多いポイントの間で密度が異なるため、これら両方の設計上の決定が必要になります。

3DETR は、この問題に対処するために 2 つの手法を使用します。フーリエエンコーディングは、DETR やその他のトランスフォーマーモデル/DETR で使用される標準 (正弦波) 埋め込みよりも XYZ 座標を表すのに適した方法です。

第二に、DETR は固定されたパラメータセット (クエリと呼ばれる) を使用してオブジェクトの位置を予測しますが、この設計上の決定はポイントクラウドには適用できないことが結果からわかります。代わりに、シーンからランダムなポイントをサンプリングし、これらのポイントに関連するオブジェクトを予測します。実際には位置を予測するための固定されたパラメータセットはなく、むしろランダムポイントサンプリングが 3D ポイントクラウドの変化する密度に適応します。

Transformer エンコーダーは、ポイントクラウド入力を使用して、一連の自己注意操作を通じてシーン内のオブジェクトの形状と位置の座標表現を生成し、認識に必要なグローバルおよびローカルコンテキストをキャプチャします。たとえば、丸いテーブルの周囲に置かれた椅子の脚や背もたれなど、3D シーンの幾何学的特徴を検出できます。

Transformer デコーダーは、これらのポイントフィーチャを入力として受け取り、ポイントフィーチャとクエリ埋め込みに対して一連のクロスアテンション操作を適用する 3D 境界ボックスのセットを出力します。デコーダーの自己注意は、オブジェクトに焦点を当ててその周囲の境界ボックスを予測していることを示しています。

Transformer エンコーダーは、形状分類などの他の 3D タスクにも使用できるほど汎用的です。

全体的に、3DETR は以前の作業よりも実装が簡単です。 3D ベンチマークでは、3DETR は以前の手作業で作成された 3D アーキテクチャよりも優れたパフォーマンスを発揮します。その設計上の決定は以前の 3D 作業とも互換性があり、研究者は 3DETR のコンポーネントを独自のパイプラインに適応させる柔軟性が得られます。

これらのモデルは、ロボットが世界をナビゲートするのを支援することから、スマートフォンや AR グラスなどの将来のデバイスを使用する人々に豊かで新しい VR/AR エクスペリエンスをもたらすことまで、大きな可能性を秘めています。

携帯電話の 3D センサーが普及したことにより、研究者は自分のデバイスから単一ビューの 3D データを取得してモデルをトレーニングすることもできます。深層対比技術は、このデータを自己教師あり方式で使用するための第一歩です。シングルビューとマルチビューの両方のデータ型を処理することで、DepthContrast は 3D 自己教師学習の潜在的な使用事例を大幅に増やします。

自己教師学習は、テキスト、画像、ビデオ全体の表現を学習するための強力なツールであり続けています。現在、ほとんどのスマートフォンには深度センサーが搭載されており、3D 理解を向上させ、より多くの人が楽しめる新しい体験を生み出す大きな機会が生まれています。

<<: 人工知能とクラウドコンピューティングはアプリケーションエコシステムの形成を加速させている

>>: Auto-Sklearn と Auto-PyTorch を使用して機械学習を自動化する方法