この記事では、CVPR 2022 最優秀学生論文賞を受賞した私たちの研究「EPro-PnP: 単眼物体姿勢推定のための一般化されたエンドツーエンドの確率的視点 n ポイント」について説明します。この論文で研究されている問題は、単一の画像に基づいて 3D 空間内のオブジェクトの姿勢を推定することです。既存の方法のうち、PnP幾何最適化に基づく姿勢推定法は、多くの場合、ディープネットワークを介して2D-3D関連点を抽出します。しかし、最適な姿勢解はバックプロパゲーション中に微分化できないため、姿勢誤差を損失として使用してネットワークの安定したエンドツーエンドのトレーニングを実現することは困難です。現時点では、2D-3D関連点は他のプロキシ損失の監視に依存しており、これは姿勢推定の最適なトレーニング対象ではありません。 この問題を解決するために、我々は理論に基づいた EPro-PnP モジュールを提案しました。このモジュールは、単一の最適なポーズ解ではなく、ポーズの確率密度分布を出力し、微分不可能な最適なポーズを微分可能な確率密度に置き換えて、安定したエンドツーエンドのトレーニングを実現します。 EPro-PnP は汎用性が高く、さまざまな特定のタスクやデータに適用できます。既存の PnP ベースのポーズ推定方法を改善するために使用できるほか、その柔軟性を利用して新しいネットワークをトレーニングすることもできます。より一般的な意味では、EPro-PnP の本質は、一般的な分類ソフトマックスを連続領域に持ち込むことであり、理論的には、ネストされた最適化レイヤーを持つ一般的なモデルをトレーニングするように拡張できます。 論文リンク: https://arxiv.org/abs/2203.13254 コードリンク: https://github.com/tjiiv-cprg/EPro-PnP 1. はじめに私たちは、3D ビジョンにおける古典的な問題、つまり単一の RGB 画像内で 3D オブジェクトの位置を特定する問題を研究します。具体的には、3D オブジェクトの投影を含む画像が与えられた場合、オブジェクト座標系からカメラ座標系への剛体変換を決定することが目標です。この剛体変換はオブジェクトのポーズと呼ばれ、y で表されます。ポーズは、1) 3x1 変位ベクトル t で表すことができる位置コンポーネントと、2) 3x3 回転行列 R で表すことができる方向コンポーネントの 2 つの部分で構成されます。 この問題に対処するために、既存の方法は明示的と暗黙的の 2 つのカテゴリに分けられます。明示的方法は直接姿勢予測とも呼ばれ、フィードフォワードニューラルネットワーク(FFN)を使用して物体の姿勢のさまざまなコンポーネントを直接出力します。通常は、1)物体の奥行きを予測し、2)画像上の物体の中心点の2D投影位置を見つけ、3)物体の向きを予測します(向きの具体的な処理方法はより複雑な場合があります)。物体の実際の姿勢がマークされた画像データを使用することで、姿勢予測結果を直接監視する損失関数を設計することができ、ネットワークのエンドツーエンドのトレーニングを容易に実現できます。ただし、このようなネットワークは解釈可能性に欠けており、小さなデータセットでは過剰適合する傾向があります。 3D オブジェクト検出タスクでは、特に大規模なデータセット (nuScenes など) の場合、明示的な方法が主流となります。 暗黙法は幾何最適化に基づく姿勢推定法であり、最も代表的なものはPnPに基づく姿勢推定法である。このタイプの方法では、まず画像座標系で N 個の 2D ポイント(i 番目のポイントの 2D 座標で示される)を見つけ、同時にオブジェクト座標系でそれらに関連付けられた N 個の 3D ポイント(i 番目のポイントの 3D 座標で示される)を見つける必要があります。各ポイント ペアの関連付けの重み(i 番目のポイント ペアの関連付けの重みで示される)を取得することも必要な場合があります。透視投影制約に従って、これらの N 組の 2D-3D 重み付け関連ポイントは、オブジェクトの最適なポーズを暗黙的に定義します。具体的には、再投影誤差を最小化する物体の姿勢を見つけることができます。 このうち、 は加重投影誤差を表し、 はポーズの関数です。要素ごとの乗算を表す、固有パラメータを持つカメラ投影関数を表します。 PnP 法は、物体の形状がわかっている 6-DOF 姿勢推定タスクでよく使用されます。 PnP ベースの方法では、2D-3D の関連ポイント セットを予測するためにフィードフォワード ネットワークも必要です。直接的な姿勢予測と比較して、ディープラーニングと従来の幾何学的視覚アルゴリズムを組み合わせたこのモデルは、解釈可能性が非常に優れており、一般化パフォーマンスも比較的安定していますが、以前の研究におけるモデルのトレーニング方法には欠陥があります。多くの方法では、中間結果 X を監視するためにプロキシ損失関数を構築しますが、これはポーズの最適な目標ではありません。たとえば、オブジェクトの形状が与えられている場合、オブジェクトの 3D キー ポイントを事前に選択し、対応する 2D 投影ポイントの位置を見つけるようにネットワークをトレーニングできます。これはまた、プロキシ損失が X 内の変数の一部しか学習できないため、十分な柔軟性がないことを意味します。トレーニング セット内のオブジェクトの形状がわからず、X のすべてを最初から学習する必要がある場合はどうなりますか? 明示的手法と暗黙的手法の利点は互いに補完し合います。PnP によって出力されるポーズ結果を監視することで、ネットワークをエンドツーエンドでトレーニングし、関連するポイント セット X を学習できれば、2 つの利点を組み合わせることができます。この目標を達成するために、最近のいくつかの研究では、暗黙的な関数導出を使用して PnP レイヤーのバックプロパゲーションを実装しました。ただし、PnP の argmin 関数は不連続で、いくつかの点で微分不可能であるため、バックプロパゲーションが不安定になり、直接トレーニングの収束が困難になります。 2. EPro-PnP方式の紹介1. EPro-PnPモジュール安定したエンドツーエンドのトレーニングを実現するために、エンドツーエンドの確率的 PnP (EPro-PnP)を提案します。基本的な考え方は、暗黙のポーズを確率分布と見なし、その確率密度がX に関して微分可能であるというものです。まず、再投影誤差に基づいてポーズの尤度関数を定義します。 非情報事前分布が使用される場合、ポーズの事後確率密度は尤度関数の正規化された結果になります。 上記の式は、一般的に使用される分類ソフトマックス式 に非常に近いことがわかります。実際、EPro-PnP の本質は、ソフトマックスを離散しきい値から連続しきい値に移動し、合計を積分に置き換えることです。 2. KLダイバージェンス損失モデルをトレーニングする過程で、物体の真の姿勢がわかれば、目標姿勢分布を定義できます。この時点で、KL ダイバージェンスは、ネットワークのトレーニングに使用される損失関数として計算できます (固定されているため、クロスエントロピー損失関数として理解することもできます)。ターゲットがディラック関数に近づくと、KL ダイバージェンスに基づく損失関数は次の形式に簡略化されます。 これを導関数にすると次のようになります。 損失関数は 2 つの項で構成されていることがわかります。最初の項 ( と表記)は、実際のポーズ値の再投影誤差を削減しようとし、2 番目の項 ( と表記) は、各予測ポーズの再投影誤差を増加させようとします。 2つの方向は反対であり、その効果は下の図(左)に示されています。例として、右側は分類ネットワークをトレーニングするときによく使用される分類クロスエントロピー損失です。 3. モンテカルロポーズ損失KL 損失の 2 番目の項には解析解を持たない積分が含まれているため、数値的に近似する必要があることに注意することが重要です。汎用性、精度、計算効率を考慮して、モンテカルロ法を使用してサンプリングを通じて姿勢分布をシミュレートします。 具体的には、重要度サンプリング アルゴリズムである Adaptive Multiple Importance Sampling (AMIS) を使用して、K 個の重み付けポーズ サンプルを計算します。このプロセスを Monte Carlo PnP と呼びます。 これに基づいて、2 番目の項は重みの関数として近似でき、逆伝播することができます。 ポーズサンプリングの視覚化効果を次の図に示します。 4. PnPソルバーの微分正規化モンテカルロ PnP 損失は、ネットワークをトレーニングして高品質のポーズ分布を取得するために使用できますが、推論フェーズでは、最適なポーズソリューションを取得するために PnP 最適化ソルバーが依然として必要です。一般的に使用されるガウス・ニュートン法とその導関数アルゴリズムは反復最適化を通じて解決され、反復増分はコスト関数の 1 次導関数と 2 次導関数によって決定されます。 PnP の解を真の値に近づけるために、コスト関数の導関数を正規化することができます。正規化された損失関数は次のように設計されます。 その中には、ガウス・ニュートン反復増分があり、コスト関数の 1 次および 2 次導関数に関連し、逆伝播が可能で、距離メトリックを表し、位置に滑らかな L1 を使用し、方向にコサイン類似度を使用します。矛盾がある場合、損失関数は反復増分が実際の真の値を指すように強制します。 3. EPro-PnPに基づく姿勢推定ネットワーク6-DOF ポーズ推定と 3D オブジェクト検出の 2 つのサブタスクに異なるネットワークを使用しました。その中で、6自由度姿勢推定については、ICCV 2019のCDPNネットワークを若干変更し、アブレーション研究のためにEPro-PnPでトレーニングしました。3D物体検出については、ICCVW 2021のFCOS3Dに基づいて新しい変形可能な対応検出ヘッドを設計し、EPro-PnPが物体の形状を知らなくてもネットワークを直接学習できるようにトレーニングできることを実証し、EPro-PnPの応用における柔軟性を実証しました。 1. 6自由度姿勢推定のための密な関連ネットワーク上の図にネットワーク構造を示しますが、出力層は元の CDPN に基づいて変更されています。オリジナルの CDPN は、検出されたオブジェクトの 2D ボックスを使用して領域画像を切り取り、それを ResNet34 バックボーンに入力します。オリジナルの CDPN は、位置と方向を 2 つのブランチに分離します。位置ブランチでは直接予測の明示的な方法を使用し、方向ブランチでは密な関連付けと PnP の暗黙的な方法を使用します。 EPro-PnP を研究するために、修正されたネットワークは密な関連ブランチのみを保持します。その出力は 3 チャネルの 3D 座標マップと 2 チャネルの関連重みであり、関連重みは空間ソフトマックスとグローバル重みスケーリングを受けています。空間ソフトマックスを追加する目的は、重みを正規化して、注目マップと同様の特性を持たせ、比較的重要な領域に焦点を当てられるようにすることです。実験により、重みの正規化は安定した収束の鍵でもあることがわかっています。グローバルウェイトスケーリングはポーズ分布の集中を反映します。ネットワークは、EPro-PnP のモンテカルロポーズ損失のみでトレーニングできます。また、オブジェクトの形状がわかっている場合は、微分正規化と追加の 3D 座標回帰損失を使用してトレーニングすることもできます。 2. 3Dオブジェクト検出のための変形可能な連想ネットワークネットワーク構造は上図のようになります。一般的に、ネットワーク構造は、FCOS3D 検出器と変形可能な DETR に基づいて設計されます。 FCOS3D に基づいて、中心性レイヤーと分類レイヤーは保持され、元のポーズ予測レイヤーはオブジェクト埋め込みレイヤーと参照ポイント レイヤーに置き換えられ、オブジェクト クエリが生成されます。変形可能なDETRを参照すると、参照点に対するオフセットを予測することによって2Dサンプリング位置が得られます(つまり、 が得られます)。サンプリングされた特徴は、アテンション操作を通じてオブジェクト特徴に集約され、オブジェクト レベルの結果 (3D スコア、重量スケール、3D ボックス サイズなど) を予測するために使用されます。さらに、サンプリング後、各点の特徴がオブジェクト埋め込みに追加され、自己注意によって処理され、各点に対応する3D座標と関連する重みが出力されます。すべての予測は、追加の正規化なしで高精度に収束できる EPro-PnP のモンテカルロポーズ損失を使用してトレーニングすることで取得できます。これを基に、微分正則化損失と補助損失を追加して、精度をさらに向上させることができます。 4. 実験結果1. 6自由度姿勢推定タスク実験には LineMOD データセットを使用し、CDPN ベースラインと厳密に比較しました。主な結果は次のとおりです。エンドツーエンドのトレーニングに EPro-PnP 損失を追加すると、精度が大幅に向上することがわかります (+12.70)。微分正則化損失を増やし続けると、精度がさらに向上します。これを基に、元の CDPN のトレーニング結果を使用してエポックを初期化および増やすと (エポックの合計数を元の CDPN の完全な 3 段階トレーニングと一致させる)、精度をさらに向上できます。事前トレーニング済み CDPN の利点の一部は、CDPN トレーニング中に追加されるマスク監視にあります。 上の図は、EPro-PnP とさまざまな主要な方法を比較したものです。より後進的な CDPN を改良した EPro-PnP は、精度が SOTA に近いです。さらに、EPro-PnP はシンプルなアーキテクチャを持ち、姿勢推定は完全に PnP に基づいています。追加の明示的な深度推定や姿勢の改良を必要としないため、効率の面でも利点があります。 2. 3Dオブジェクト検出タスクnuScenes データセットを使用した実験と他の方法との比較結果を上の図に示します。 EPro-PnP は FCOS3D を大幅に改善しただけでなく、当時の SOTA や FCOS3D の別の改良版である PGD も上回りました。さらに重要なのは、EPro-PnP は現在、nuScenes データセットで幾何学的最適化手法を使用してポーズを推定する唯一のツールであるということです。 nuScenes データセットの規模が大きいため、エンドツーエンドでトレーニングされた直接ポーズ推定ネットワークはすでに優れたパフォーマンスを発揮しており、私たちの結果は、ジオメトリ最適化ベースのモデルのエンドツーエンドのトレーニングにより、大規模なデータセットでさらに優れたパフォーマンスを実現できることを示しています。 3. 視覚分析上の図は、EPro-PnP でトレーニングされた密な関連ネットワークの予測結果を示しています。その中で、関連付けられた重みマップは、注意メカニズムと同様に、画像内の重要な領域を強調表示します。損失関数の分析から、ハイライト領域は再投影の不確実性が低い領域に対応し、ポーズの変化に対してより敏感であることがわかります。 3D オブジェクト検出の結果を上の図に示します。左上のビューには、変形関連ネットワークによってサンプリングされた 2D ポイントの位置が表示されています。赤は水平方向の X 成分が高いポイントを表し、緑は垂直方向の Y 成分が高いポイントを表します。緑の点は、通常、物体の上端と下端にあります。その主な機能は、物体の高さから物体までの距離を推測することです。この機能は人工的に指定されたものではなく、完全に自由なトレーニングの結果です。右の図は上面図での検出結果を示しており、青い雲のマップは物体の中心点位置の分布密度を表しており、物体の位置決めの不確実性を反映しています。一般的に、遠くの物体の位置の不確実性は、近くの物体の位置の不確実性よりも大きくなります。 EPro-PnP のもう 1 つの重要な利点は、複雑なマルチモーダル分布を予測することによって方向の曖昧さを表現できることです。上図のように、バリアは回転対称性のため、向きが 180° 異なる 2 つのピークが現れることが多いです。円錐自体は特定の向きがないため、予測結果はあらゆる方向に分散します。歩行者は完全に回転対称ではありませんが、画像が不明瞭で表裏の判別が難しいため、2 つのピークが現れることがあります。この確率的特性により、EPro-PnP では対称オブジェクトの損失関数に対して特別な処理が必要ありません。 V. 結論EPro-PnP は、もともと微分不可能な最適ポーズを微分可能なポーズ確率密度に変換し、PnP 幾何最適化に基づくポーズ推定ネットワークが安定した柔軟なエンドツーエンドのトレーニングを実現できるようにします。 EPro-PnP は、一般的な 3D オブジェクトのポーズ推定問題に適用できます。3D オブジェクトの形状が不明な場合でも、エンドツーエンドのトレーニングを通じてオブジェクトの 2D-3D 関連ポイントを学習できます。したがって、EPro-PnP は、これまでトレーニングが不可能だった、私たちが提案した変形可能な関連ネットワークなどのネットワーク設計の可能性を広げます。 さらに、EPro-PnP は、既存の PnP ベースの姿勢推定方法を改善し、エンドツーエンドのトレーニングを通じて既存のネットワークの潜在能力を引き出し、姿勢推定の精度を向上させるために直接使用することもできます。より一般的な意味では、EPro-PnP の本質は、一般的な分類ソフトマックスを連続領域に持ち込むことです。これは、幾何学的最適化に基づく他の 3D ビジョンの問題に使用できるだけでなく、理論的には、ネストされた最適化レイヤーを持つ一般的なモデルをトレーニングするように拡張することもできます。 |
>>: 自動運転システムにおけるエッジコンピューティング技術
写真は人工知能中国の人工知能はどれほど強力か?将来ロボットが手術を行えるようになるか?多くの中国人は...
私たちはここ数年、自動運転車について話し合い、議論してきました。しかし、道路上では見かけません。これ...
デジタル時代では、ほとんどの人が生活の大部分をモバイル デバイスで過ごすため、セキュリティの必要性は...
予想外かもしれませんが、消費者のかなりの部分は、サイバーセキュリティを生身のサイバーセキュリティ専門...
通常、人間が機械を作るのは、達成するのが難しいタスクを人間が完了するのを助けるためだけです。自然災害...
海外メディアの報道によると、米国防総省は最近、トップレベルの設計を強化し、関連技術の急速な発展を促進...
[[441742]]子どもは成長するにつれて、聴覚、視覚、触覚などの感覚を通して周囲の世界について学...
Facebook は、数十億のノードと数兆のエッジを持つグラフ モデルを効率的にトレーニングできる...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...