深度に関するあらゆる情報: 大規模なラベルなしデータから深度推定を解き放つ

深度に関するあらゆる情報: 大規模なラベルなしデータから深度推定を解き放つ

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

1 月 24 日の論文「Depth Anything: 大規模なラベルなしデータのパワーを解き放つ」は、香港大学、ByteDance、浙江省研究所、浙江大学によるものです。

この研究では、堅牢な単眼深度推定のソリューションである Depth Anything を提案します。目標は、あらゆる状況であらゆる画像を処理できる、シンプルでありながら強力な基本モデルを構築することです。この目的のために、大規模なラベルなしデータ (約 62M) を収集して自動的に注釈を付けるデータ エンジンが設計されており、これによりデータの範囲が大幅に拡大され、一般化エラーが削減され、データセットのサイズが拡大します。著者らは、データ拡張の可能性を高める 2 つのシンプルだが効果的な戦略を調査します。まず、データ拡張ツールを使用して、より困難な最適化目標が作成されます。これにより、モデルは積極的に追加の視覚的知識を求め、堅牢な表現を取得するようになります。次に、事前トレーニング済みのエンコーダーから豊富な意味的事前確率をモデルが継承するように強制するための補助的な監督が開発されます。著者らは、6 つの公開データセットとランダムに撮影された写真を含む、ゼロショット機能の広範な評価を実施しました。優れた一般化能力を示しています。さらに、NYUv2 と KITTI からの深度情報を使用して微調整し、新しい SOTA を設定します。深度モデルが向上すると、深度条件付きモデルである ControlNet も向上します。

深度推定の例をいくつか示します。

単眼深度推定(MDE)は、ロボット工学[65]、自律運転[63、79]、仮想現実[47]などで広く応用されている基本的な問題であり、単一の画像の深度情報を推定するための基本モデルも必要とします。しかし、数千万のディープラベルを持つデータセットを構築することは難しいため、この点はまだ十分に検討されていません。 MiDaS[45]は、混合ラベル付きデータセットでMDEモデルをトレーニングすることにより、この方向での先駆的な研究を行った。 MiDaS は一定レベルのゼロショット機能を発揮しますが、データ範囲が制限されるため、場合によってはパフォーマンスが低下します。

従来、深度データセットは主にセンサー[18、54]、ステレオマッチング[15]、またはSfM[33]から深度データを取得することによって作成されていましたが、これは高価で時間がかかり、場合によっては扱いにくいものでした。対照的に、この論文では大規模なラベルなしデータに焦点を当てています。ステレオ画像や深度センサーからのラベル付き画像と比較して、単眼のラベルなし画像には次の 3 つの利点があります。(i) (入手が簡単で安価) 単眼画像はほぼどこにでもあるため、特殊な機器を必要とせずに簡単に収集できます。 (ii)(多様性)単眼画像はより広範囲のシーンをカバーできるため、モデルの一般化能力とスケーラビリティにとって極めて重要です。 (iii) (注釈付けが簡単) 事前にトレーニングされた MDE モデルを使用して、ラベルのない画像にディープ ラベルを割り当てるだけで、フィードフォワード推論のステップのみが必要になります。より効率的に、LiDAR [18]よりも高密度の深度マップを生成し、計算集約型のステレオマッチングプロセスを省略します。

深さ何でも

私たちの研究では、ラベル付き画像とラベルなし画像を活用して、より優れた単眼深度推定 (MDE) を実現します。正式には、ラベル付きセットとラベルなしセットはそれぞれ Dl と Du と表記されます。実際の目標は、Dl から教師モデル T を学習することです。次に、T を使用して Du に疑似深度ラベルを割り当てます。最後に、学生モデル S は、ラベル付きセットと疑似ラベル付きセットの組み合わせでトレーニングされます。図に簡単な説明があり、パイプラインは次のように構成されています。実線: ラベル付き画像フロー、点線: ラベルなし画像。特に大規模なラベルなし画像の価値を強調し、S は強い摂動の追加を表します。深度推定モデルが豊富な意味的事前確率を持つことができるように、意味的機能を保持するために、オンライン学生モデルと凍結されたエンコーダーの間に補助的な制約が適用されます。

ラベル付けされた画像の学習

このプロセスはMiDaS[5, 45]のトレーニングに似ています。しかし、MiDaSはコードを公開していないため、まずはアルゴリズムを再現します。具体的には、まず深度値を d = 1/t で視差空間に変換し、その後深度マップごとに 0 から 1 に正規化します。トレーニング中は、アフィン不変性損失を採用します。

堅牢な単眼深度推定モデルを取得するために、6 つの公開データセットから 150 万枚のラベル付き画像を収集しました。次の表に、これらのデータセットの詳細を示します。

MiDaS v3.1 [5](12のトレーニングデータセット)と比較すると、本論文ではラベル付けされたデータセットが少なくなっています。その理由は、1)NYUv2 [54]とKITTI [18]のデータセットはゼロショット評価を保証するために使用されていないこと、2)一部のデータセット(Movies [45]やWSVD [60]など)が利用できないこと、3)RedWeb(解像度が低い)[66]など一部のデータセットの品質が低いことなどです。ラベル付き画像の使用量は少なくなりますが、簡単にアクセスでき、ラベルなし画像が多様化することで、データの範囲が広がり、モデルの一般化能力と堅牢性が大幅に向上します。

さらに、これらのラベル付き画像から学習した教師モデルTを強化するために、エンコーダはDINOv2 [42]で事前学習された重みで初期化されます。実際には、事前に訓練されたセマンティックセグメンテーションモデル[69]を使用して空の領域を検出し、その視差値を0(最も遠い)に設定します。

タグなし画像のパワーを解き放つ

さまざまなラベル付きデータセットを苦労して構築したこれまでの研究とは異なり、この論文では、データカバレッジの拡張におけるラベルなし画像の価値を強調しています。現在では、さまざまなタスクのために、インターネットや公開データセットから多様で大規模なラベルなしコレクションを構築することが現実的になっています。さらに、単眼のラベルなし画像の高密度深度マップは、事前にトレーニングされた高性能の MDE モデルに転送するだけで簡単に取得できます。これは、ステレオ画像やビデオに対してステレオ マッチングや SfM 再構築を実行するよりもはるかに便利で効率的です。さまざまなシーンのラベルなしソースとして、8 つの大規模な公開データセットが選択されます。これらを合わせると 6,200 万枚を超える画像が含まれます。

残念ながら、パイロットスタディでは、この自己学習パイプラインでは改善は達成されず、ラベル付けされた画像が少数しかない場合の観察結果と矛盾しています[55]。十分な数のラベル付き画像がある場合、追加のラベルなし画像から得られる追加の知識は非常に限られています。特に、教師と生徒が同じ事前トレーニングとアーキテクチャを共有していることを考慮すると、明示的な自己トレーニング手順がなくても、ラベルなしセットに対して同様の正しい予測または誤った予測を行う傾向があります。

このジレンマに対処するために、ラベルのない画像に関する追加の視覚的知識を得るために、より難しい最適化目標を学生に課すことを提案します。トレーニング中にラベルのない画像に強い摂動を注入します。これにより、学生モデルは、追加の視覚的知識を積極的に求め、これらのラベルのない画像から不変の表現を取得するようになります。これらの利点は、モデルがオープンワールドにさらに堅牢に対処するのに役立ちます。著者らは2つの形態の摂動を導入した。1つは色のジッタやガウスぼかしなどの強い色の歪みであり、もう1つはCutMix[83]と呼ばれる強い空間の歪みである。単純ではありますが、これら 2 つの変更により、大規模なラベルなし画像でラベル付き画像のベースラインを大幅に改善できるようになります。

CutMix は、ランダムに補間されたラベルなし画像のペアからのラベルなし画像損失を使用してトレーニングされます。

意味支援知覚

セマンティックセグメンテーションタスクを支援することで深度推定を改善する研究[9、21、28、71]がいくつかあります。このような高レベルの意味的に関連する情報は、深度推定モデルに役立ちます。さらに、ラベルなし画像を使用する特定のコンテキストでは、他のタスクからのこれらの補助的な監視信号によって、疑似深度ラベルの潜在的なノイズに対抗することもできます。

そのため、RAM[85]+GroundingDINO[37]+HQ-SAM[26]モデルの組み合わせを使用して、ラベルのない画像にセマンティックセグメンテーションラベルを慎重に割り当てようとする最初の試みが行われました。後処理後、4K クラスを含むクラス空間が生成されます。共同トレーニング フェーズでは、モデルは共有エンコーダーと 2 つの個別のデコーダーを介して深度とセグメンテーションの予測を生成します。残念ながら、何度も試行を重ねても、元の MDE モデルのパフォーマンスを向上させることは不可能でした。画像を個別のクラス空間にデコードすると、意味情報があまりにも多く失われます。これらのセマンティック マスクの情報が限られているため、特にディープ モデルが非常に競争力のある結果を確立している場合は、ディープ モデルをさらに改善することが困難になります。

したがって、私たちの研究は、深度推定タスクの補助的な監督として、より有益な意味信号を見つけることを目指しています。微調整なしで固定重みを使用した場合でも、画像検索やセマンティックセグメンテーションなどの意味的に関連するタスクでDINOv2モデル[42]が優れたパフォーマンスを示したことに非常に驚いています。これらの手がかりに触発されて、私たちはその強力なセマンティック機能を補助的な特徴のアライメント損失を伴うディープモデルに移すことを提案します。特徴空間は高次元かつ連続的であるため、離散マスクよりも豊富な意味情報が含まれています。

著者らは、オンライン特徴fを新しい空間に投影して位置合わせするといういくつかの研究[19]には従わない。これは、初期段階でランダムに初期化されたプロジェクターによって引き起こされる大きな位置合わせ損失が全体の損失を支配しているためである。

特徴のアライメントに関するもう 1 つの重要なポイントは、DINOv2 のようなセマンティック エンコーダーは、車の前面と背面など、オブジェクトのさまざまな部分に対して同様の特徴を生成する傾向があることです。ただし、深度推定では、異なる部分または同じ部分内のピクセルでも深度が異なる場合があります。したがって、ディープ モデルに凍結されたエンコーダーとまったく同じ機能を生成するように徹底的に強制することは役に立ちません。

この問題を解決するために、著者らは特徴の配置に許容値 α を設定しました。コサイン類似度がすでに α を超えている場合、そのピクセルは特徴アライメント損失では考慮されません。これにより、この方法は、DINOv2 のセマンティック認識表現と、ディープ スーパービジョンの部分レベルの識別表現の両方のメリットを享受できるようになります。副作用として、結果として得られるエンコーダーは、ダウンストリーム MDE データセットで優れたパフォーマンスを発揮するだけでなく、セマンティック セグメンテーション タスクでも有望な結果を達成します。また、中レベルおよび高レベルの知覚タスク向けの汎用マルチタスク エンコーダーとしてのエンコーダーの可能性も実証しています。

最後に、総損失は、アフィン不変性損失、ラベルフリー損失、および特徴アライメント損失の平均的な組み合わせです。

オリジナルリンク: https://mp.weixin.qq.com/s/jyAvjoonk557UwZci1zdBQ

<<:  LLaVA-1.6は非常に強力で、Gemini Proを上回り、推論機能とOCR機能が向上しています。

>>: 

ブログ    
ブログ    
ブログ    

推薦する

GPT-4 はハイブリッド大規模モデルを使用しますか?研究により、MoE+命令チューニングにより大規模モデルのパフォーマンスが向上することが証明された

GPT-4 の登場以来、優れた言語理解、生成、論理的推論など、その強力な創発能力に人々は驚嘆してきま...

エッジAI: 人工知能の進化の次のステップ

[[422303]]人工知能(AI)は、かなり長い間、世界中のビジネスにおいて安定した存在となってい...

7BモデルはGPT4-Vを超えます! HKUST などが「グラフ推論質問回答」データセットを公開 GITQA: 視覚的なグラフは推論能力を向上させることができます

グラフ ニューラル ネットワーク (GNN) は、グラフの構造情報を推論に活用するのに優れていますが...

人工知能は「教育革命」を起こしている

人工知能は教育分野に大きな波を起こしている。この傾向は、北京師範大学とiFLYTEKが共催した「人工...

...

...

AIが起こした恐ろしいことは何ですか?

人工知能(AI)について話すとき、いつも恐怖を感じる人がいます。一体何を恐れているのですか?何か証拠...

強化学習を使用して、顧客が注目する広告を選択する方法

[51CTO.com クイック翻訳] 現在、世界中のデジタル広告代理店は、ニュースサイト、検索エンジ...

エッジ AI は何ができるのでしょうか?

人工知能 (AI) は、デバイスがユーザーと最も近接するインタラクションポイントでデータに基づく意思...

MITは、Natureの表紙に掲載され、非コード領域のDNA変異を予測するディープラーニングフレームワークを設計した。

人間の細胞にはそれぞれ多数の遺伝子が含まれていますが、いわゆる「コーディング」DNA配列は、ヒトゲノ...

AIがKing of GloryやStarCraftをプレイしています...その背後にあるテクノロジーを理解していないのですか?ゲームAIのレビューはこちら

[[437808]]人間とコンピュータのゲームは長い歴史があり、人工知能の主要技術を検証するための主...

...

ネイチャー誌は「同じ原稿の複数投稿」を認めるべき時が来たという記事を掲載した。

「私たちの論文を溜め込むのはやめてください」ネイチャー誌のコラムに学者の投稿が掲載される。記事は、...

機械分野におけるLDAトピックモデルを説明する記事

[[211903]]序文このブログ投稿では、第一レベルの数学的導出の観点から LDA トピック モデ...

機械学習について昨日、今日、そして明日に語りましょう

機械学習今日、機械学習は、そのアルゴリズムの1つであるディープラーニングの優れたパフォーマンスを誇っ...