長い間、CV トレーニングは 2 次元データに限定されてきました。3 次元データのラベル付けにはコストがかかるため、専門家が専用のモデルを開発する必要があります。 FacebookはICCV 2021で3DETRとDepthContrastという2つの3Dモデルをリリースしました。これによりモデルの汎用性が全面的に向上し、CV研究が3次元時代に本格的に突入したと言えるでしょう。 大規模データからの事前トレーニングはコンピュータービジョンで広く使用されており、特定のタスクで高性能なモデルを取得するための基礎となっています。 しかし、この方法には致命的な欠陥があり、対象データ型のラベル付きデータが大量にない場合、このモードは使用できません。 たとえば、3D スキャンと認識用のラベル付きデータセットは不足しています。主な理由は、3D データセットの注釈付けには非常に時間がかかり、3D 理解のモデルは通常、トレーニングに使用される特定の 3D データセットに関連する手動のアーキテクチャ設計に依存しているためです。 ICCV 2021 で、Facebook AI は 3DETR と DepthContrast という 2 つの新しいモデルを提案しました。これらは、3D の理解を促進し、簡単に始められるようにする補完的な新しいモデルです。新しいモデルは、簡素化された 3D 理解のための一般的なアーキテクチャを確立し、ラベルを必要としない自己教師学習法を通じてこれらの問題を解決することができます。 コードは現在オープンソースです。 さまざまな理由から、現在の CV モデルは主に 2D 画像に焦点を当てていますが、世界に関する 3D データを理解するためのマシンを構築することが重要です。たとえば、自動運転車は移動して障害物にぶつからないようにするために 3D の理解を必要としますが、AR/VR アプリケーションは、ソファがリビングルームに収まるかどうかを視覚化するなど、実用的なタスクを実行するのに役立ちます。 2D 画像やビデオのデータはピクセルの規則的なグリッドとして表され、3D データはポイント座標として表されます。 3D データは取得とラベル付けが難しいため、通常、3D データセットは画像やビデオ データセットよりもはるかに小さくなります。つまり、全体的なサイズと含まれるクラスまたは概念の数が制限されるのが一般的です。 以前は、3D 理解に重点を置く実務者は、標準の CV アーキテクチャを適応させるために広範なドメイン知識を必要としていました。シングルビュー 3D データ (深度情報も記録する単一のカメラから取得) は、2 台以上のカメラを使用して同じシーンを記録するマルチビュー 3D よりも収集が簡単です。マルチビュー 3D データは、多くの場合、シングルビュー 3D を後処理することによって生成されますが、この処理手順は失敗する可能性があり、一部の研究者は、ソース画像のぼやけやカメラの過度の動きなどの理由により、失敗率が 78% にも達すると推定しています。 DepthContrast は主にこれらの問題に対処します。任意の 3D データ (単一ビューまたはマルチビュー) から自己教師モデルをトレーニングできるため、ラベルのない小さなデータセットを処理するという課題が解消されます。一般的な CV モデルは、たとえ大量の 2D 画像やビデオで事前トレーニングされていたとしても、AR/VR などの複雑なアプリケーションに対して正確な 3D 理解を生み出せる可能性は低いです。 https://arxiv.org/abs/2101.02691 自己教師学習は研究コミュニティと FAIR の主要な関心領域であり、DepthContrast はラベル付きデータを使用せずに強力な 3D 表現を学習する業界における最新の試みです。この研究は、同じく 3D 向けの自己教師あり技術である FAIR の以前の研究 PointContrast を継承しています。 最近では3Dデータを入手する機会が多くあります。センサーとマルチビュー ステレオ アルゴリズムは通常、ビデオや画像に補足情報を提供します。しかし、3D データは取得方法や場所によって物理的特性が異なるため、このデータの意味を理解することはこれまで困難でした。 たとえば、市販の携帯電話センサーから得られる深度データは、LiDAR などの屋外センサーから得られるデータとはかなり異なります。 AI 研究で使用されるほとんどの 3D データは、単一ビューの深度マップの形式で取得され、3D 登録の手順を経て後処理され、マルチビュー 3D が得られます。これまでの研究では、自己教師ありの特徴を学習するためにマルチビュー 3D データに依存しており、トレーニングの目的は主に 3D ポイントの対応を考慮しています。 シングルビュー データをマルチビュー データに変換する際の失敗率は高いですが、DepthContrast は、シングルビュー 3D データのみを使用しても最先端の 3D 機能を学習するのに十分であることを示しています。 3D データ拡張を使用すると、単一ビューの深度マップからわずかに異なる 3D 深度マップを生成できます。 DepthContrast は、コントラスト学習を使用して、これらの強化された深度マップから取得された特徴を揃えることでこれを実現します。 そして研究結果によると、この学習信号は、PointNet++ や Sparse ConvNet などのさまざまな種類の 3D アーキテクチャを事前トレーニングするために使用できることが示されています。 さらに重要なのは、DepthContrast は、屋内でも屋外でも、単一ビューでも複数ビューでも、あらゆるタイプの 3D データに適用できることです。私たちの研究では、DepthContrast で事前トレーニングされたモデルが、ScanNet 3D 検出ベンチマークで絶対的に最先端のパフォーマンスを達成することが示されています。 DepthContrast 機能は、形状分類、オブジェクト検出、セグメンテーションなどのタスクのさまざまな 3D ベンチマークでパフォーマンスを向上させます。 DepthContrast は、自己教師学習が 3D 理解にも有望であることを示しています。実際、DepthContrast は不変の特徴を強化するための学習の基本原理を共有しており、これは Facebook AI の SEER などの自己教師ありモデルの強化に使用されています。 2作目の3DETRは3D Detection Transformerの略称です。このモデルは、Transformer に基づくシンプルな 3D 検出および分類アーキテクチャであり、検出および分類タスク用の一般的な 3D モデルとして使用できます。このモデルは、3D 検出モデルのトレーニングに使用される損失関数を簡素化し、実装を容易にします。そのパフォーマンスは、手動で調整された 3D アーキテクチャと損失関数に依存する既存の最先端の方法と同等か、それを上回ります。 https://arxiv.org/abs/2109.08141 3DETR は、3D シーン (ポイント クラウドまたは XYZ ポイント座標のセットとして表される) を入力として受け取り、シーン内のオブジェクトの 3D 境界ボックスのセットを生成します。この新しい研究は、3D ポイント クラウド内のオブジェクトを検出するための FAIR モデルである VoteNet と、オブジェクト検出の課題を再定義するために Facebook AI によって作成されたよりシンプルなアーキテクチャである Detection Transformers (DETR) に基づいています。 2D 検出の飛躍的な進歩を実現するために、Facebook AI の以前の研究では、Transformer の 3D 理解作業で対処する必要のある 2 つの重要な変更点、および非パラメトリック クエリ埋め込みとフーリエ エンコーディングが特定されました。ポイント クラウドは、大量の空きスペースとノイズの多いポイントの間で密度が異なるため、これら両方の設計上の決定が必要になります。 3DETR は、この問題に対処するために 2 つの手法を使用します。フーリエ エンコーディングは、DETR やその他のトランスフォーマー モデル/DETR で使用される標準 (正弦波) 埋め込みよりも XYZ 座標を表すのに適した方法です。 第二に、DETR は固定されたパラメータ セット (クエリと呼ばれる) を使用してオブジェクトの位置を予測しますが、この設計上の決定はポイント クラウドには適用できないことが結果からわかります。代わりに、シーンからランダムなポイントをサンプリングし、これらのポイントに関連するオブジェクトを予測します。実際には位置を予測するための固定されたパラメータセットはなく、むしろランダムポイントサンプリングが 3D ポイントクラウドの変化する密度に適応します。 Transformer エンコーダーは、ポイント クラウド入力を使用して、一連の自己注意操作を通じてシーン内のオブジェクトの形状と位置の座標表現を生成し、認識に必要なグローバルおよびローカル コンテキストをキャプチャします。たとえば、丸いテーブルの周囲に置かれた椅子の脚や背もたれなど、3D シーンの幾何学的特徴を検出できます。 Transformer デコーダーは、これらのポイント フィーチャを入力として受け取り、ポイント フィーチャとクエリ埋め込みに対して一連のクロス アテンション操作を適用する 3D 境界ボックスのセットを出力します。デコーダーの自己注意は、オブジェクトに焦点を当ててその周囲の境界ボックスを予測していることを示しています。 Transformer エンコーダーは、形状分類などの他の 3D タスクにも使用できるほど汎用的です。 全体的に、3DETR は以前の作業よりも実装が簡単です。 3D ベンチマークでは、3DETR は以前の手作業で作成された 3D アーキテクチャよりも優れたパフォーマンスを発揮します。その設計上の決定は以前の 3D 作業とも互換性があり、研究者は 3DETR のコンポーネントを独自のパイプラインに適応させる柔軟性が得られます。 これらのモデルは、ロボットが世界をナビゲートするのを支援することから、スマートフォンや AR グラスなどの将来のデバイスを使用する人々に豊かで新しい VR/AR エクスペリエンスをもたらすことまで、大きな可能性を秘めています。 携帯電話の 3D センサーが普及したことにより、研究者は自分のデバイスから単一ビューの 3D データを取得してモデルをトレーニングすることもできます。深層対比技術は、このデータを自己教師あり方式で使用するための第一歩です。シングルビューとマルチビューの両方のデータ型を処理することで、DepthContrast は 3D 自己教師学習の潜在的な使用事例を大幅に増やします。 自己教師学習は、テキスト、画像、ビデオ全体の表現を学習するための強力なツールであり続けています。現在、ほとんどのスマートフォンには深度センサーが搭載されており、3D 理解を向上させ、より多くの人が楽しめる新しい体験を生み出す大きな機会が生まれています。 |
<<: 人工知能とクラウドコンピューティングはアプリケーションエコシステムの形成を加速させている
>>: Auto-Sklearn と Auto-PyTorch を使用して機械学習を自動化する方法
[[349442]]人工知能に関する議論は現在、自動運転車、チャットボット、デジタルツイン、ロボット...
通信ネットワークは人工知能の爆発的な発展の基盤であり、人工知能は通信ネットワークの機能を大幅に強化し...
[[204536]] AIと企業にとってビッグデータの重要性とは何でしょうか?ビッグデータマイニング...
企業の人工知能に対する飽くなき需要により、計算集約型の AI アプリケーションを処理するために設計さ...
ワールドカップが本格的に開幕し、大手データおよび人工知能技術組織もワールドカップの予想に参加している...
[51CTO.comからのオリジナル記事]最近、UiPathとSF Supply Chainは共同オ...
ロボットが建設業界で重要な役割を果たすことは間違いありませんが、マッキンゼーのレポートによると、プロ...
GPT はまだ正式にリリースされていませんが、誰かがすでに「先走って」いるのでしょうか? !ほら、社...
過去 20 年間で、世界はテクノロジーにおいて驚異的な進歩を遂げ、人間の生活のさまざまな側面に影響を...
[[205069]] 1. 数学的な定義順序保存回帰は回帰アルゴリズムの一種です。基本的な考え方は、...
最近、Facebook は、自然言語処理とコンピューター ビジョンを使用してロボットが周囲の世界を理...
背景今日のデータ爆発の時代では、言語モデルのトレーニングはますます複雑かつ困難になっています。効率的...
[51CTO.com クイック翻訳] 12月初旬、Googleは著名なAI倫理研究者のティムニット・...
携帯電話の発表会を見れば、AI機能の追加が目に入ります。しかし、多くのユーザーはこれをやや否定的に捉...
[[441598]] AI への準備プロセスの多くは組織の変更です。人工知能の利用には、ニューカラー...