本記事では、国立国防科技大学の劉宇教授チームと浙江大学-SenseTime合同研究室の周暁偉教授チームが共同執筆した「リアルタイム6自由度物体追跡のためのディープアクティブ輪郭」と題する論文を紹介しています。この論文は、コンピュータービジョンと人工知能に関するトップクラスの国際会議であるICCV 2023に採択されました。 CAD フレームワーク モデルを提供することで、さまざまな照明条件や部分的な遮蔽下で 3 次元オブジェクトのリアルタイム追跡を実現できます。従来の最適化ベースの方法では、手動の特徴に従ってオブジェクトの CAD モデルの投影をクエリ画像に合わせることでポーズを解決しますが、これは局所的な最適解に陥りがちです。最近の学習ベースの方法では、ディープ ネットワークを使用してポーズを予測しますが、予測精度が限られているか、CAD テクスチャ モデルが必要になります。 この目的のために、研究者の Wang Long 氏と博士課程の学生 Yan Shen 氏は革新的なソリューションである DeepAC を提案しました。 DeepAC は、従来の方法とディープラーニング方法の利点を組み合わせ、6 自由度のオブジェクト追跡の問題を解決するためのディープ アクティブ コンター モデルを提案します。初期ポーズが与えられると、まずオブジェクト CAD モデルが画像平面に投影されて初期アウトラインが取得され、次に軽量ネットワークを使用して、このアウトラインを画像内のオブジェクトの実際の境界と一致するように移動する方法予測が行われ、これによりオブジェクト ポーズの最適化のための勾配が提供されます。最後に、グラウンドトゥルースオブジェクトポーズを使用して、エンドツーエンドの監視で提案モデルをトレーニングするための微分可能な最適化アルゴリズムが提案されています。半合成および実際の 6 自由度オブジェクト追跡データセットでの実験結果は、提案モデルが位置決め精度の点で現在の最先端の方法を大幅に上回り、モバイル端末でリアルタイムのパフォーマンスを実現することを示しています。
背景現在主流の 6 自由度オブジェクト追跡方法は、キーポイントベース、エッジベース、領域ベースの 3 つのカテゴリに分類されます。キーポイント ベースの方法では、2 次元画像と 3 次元オブジェクト モデル間のキーポイント機能を一致させることによってオブジェクトのポーズを解決します。エッジ ベースの方法では、エッジ情報 (明示的または暗黙的) を使用して、連続する 2 つの画像間の相対的なポーズを計算します。領域ベースの方法では、オブジェクト領域と背景領域間の色統計の差を使用してオブジェクトのポーズを解決します。しかし、上記の最適化ベースの方法には共通の欠点があります。それは、手動での機能設計とハイパーパラメータの慎重な調整が必要であり、さまざまな現実のシナリオに確実に適用できないことです。 近年、6DOF オブジェクトの位置特定機能の堅牢性を高めるために、幾何学的パラメータを直接回帰したり、レンダリング比較を使用してポーズを反復的に最適化するなど、エンドツーエンドの学習方法がいくつか提案されています。学習ベースの方法には可能性がありますが、直接回帰法は精度が限られており、一般化能力が低いのに対し、レンダリング比較法は計算量が多く、リアルタイムアプリケーションには適しておらず、テクスチャ付き CAD モデルの提供が必要になります。従来の最適化手法と学習ベースの手法の利点をどのように組み合わせて、CAD メッシュ モデルのみのガイダンスの下でオブジェクトのポーズを正確かつ堅牢にリアルタイムで解決するかは、解決すべき緊急の課題です。 6DOFオブジェクトトラッキングに関する関連研究1 最適化された6自由度物体追跡法 最適化ベースの方法は、6 自由度のオブジェクト追跡問題を解決するためによく使用され、キーポイントベース、エッジベース、領域ベースの 3 つのカテゴリに分けられます。キーポイントベースの方法では、ローカル特徴マッチングまたはオプティカルフロー技術を使用して 2D-3D 対応を確立します。このアプローチは優れたパフォーマンスを示しますが、オブジェクトのテクスチャ モデルを提供する必要があります。この問題を解決するために、研究者らは、物体のエッジ変位を暗黙的または明示的に分析することにより、物体の 6 自由度姿勢の変化を決定するエッジベースの方法を提案しました。たとえば、RAPiD は、投影されたエッジに直交する方向の最大勾配を検索することにより、連続するフレーム間の相対的なポーズを推定します。ただし、エッジベースの方法では、背景に乱雑なものやモーション ブラーがある状況にはうまく対応できません。 近年、領域ベースの方法は、複雑な環境でのタスクの追跡において大きな進歩を遂げました。この研究は、前景と背景のセグメンテーションの統計モデルとオブジェクト投影の境界距離フィールドを効果的に組み合わせてオブジェクトのポーズを最適化する PWP3D の研究にまで遡ることができます。近年、RBGT では、複数の視点から事前に計算されたスパース対応線を導入し、ガウス分布に従う確率モデルを確立し、ニュートン法を使用して物体の姿勢に迅速に収束しています。 SRT3D は、グローバルおよびローカルの不確実性の両方を考慮した滑らかなステップ関数を導入しており、これは既存の方法に比べて大幅に改善されています。ただし、領域ベースのオブジェクト連続ポーズ推定アルゴリズムは、手動で定義された特徴とハイパーパラメータによって制限されます。 2 学習ベースの6自由度物体追跡法 近年、ディープラーニング手法は、6自由度の物体姿勢推定の分野で目覚ましい進歩を遂げています。 1 つのアプローチは、回転と移動のパラメータを直接予測することです。もう 1 つのアプローチは、オブジェクト座標を検出または回帰して 2D-3D 対応を生成し、PnP ソルバーを使用して 6 DOF ポーズを推定することです。ただし、単一のネットワークを通じてオブジェクトの姿勢を予測する場合、その出力は不正確になることがよくあります。 この問題を克服するために、いくつかの研究では反復最適化手法を採用してより正確な結果を達成しました。このタイプの方法の鍵となるのは、反復的な「レンダリング比較」という考え方です。各反復では、現在の推定オブジェクトポーズを使用して 3D テクスチャ モデルがレンダリングされ、レンダリングされたイメージが実際のイメージと比較され、ニューラル ネットワークを使用してポーズが更新され、2 つが徐々に整列されます。現在、学習ベースの方法の主な欠点は、GPU を使用する必要があることです。そのため、仮想現実や拡張現実アプリケーションなどのモバイル アプリケーションへの展開には適していません。また、このタイプの方法では、オブジェクトのテクスチャ モデルを提供する必要がありますが、実際のタスクでは、ユーザーが事前に 3D スキャンまたは手動で設計された CAD メッシュ モデルを取得することがよくあります。 方法上記の背景と関連作業を考慮して、本論文では、従来の方法と学習方法を組み合わせたソリューションを提案します。提案手法では、ビデオシーケンスと初期瞬間の物体の姿勢が与えられた場合、現在のフレームの単一の RGB 画像と前のフレームの物体の姿勢を使用して、現在のフレームの物体の姿勢を解決します。 1 輪郭特徴マップの抽出 前フレームの物体姿勢を利用して、RGB画像から対象物体を含む行列領域を切り出し、MobileNetV2に基づくFPN-Liteネットワークを用いて画像から多層特徴を抽出します。抽出されたマルチスケール特徴マップは として表され、粗いものから細かいものまでの一連の特徴情報が含まれています。このうち、、、はそれぞれスケールsの特徴マップの幅、高さ、次元を表し、は特徴を抽出するための層の数です。この粗から細へのネットワーク設計により、ニューラル ネットワークはより広い空間情報をエンコードできるようになり、物体が大きく移動したときの位置決め精度が向上します。下の図は、FPN-Lite ネットワークによって抽出された一連のマルチレベル特徴マップを視覚化したものです。特徴マップは、最初にPCA を使用して次元が縮小され、次に RGB 画像として表されます。 この論文では、RBGT に触発されて、対応線モデルを使用して 2 次元輪郭の局所領域を記述しています。具体的には、対応線モデルは、2次元輪郭上のいくつかの2次元点を均一にサンプリングし、対応する対応線を確立します。対応する各線は中心点と単位法線ベクトルで構成され、これらは 3D 輪郭点とそれに関連付けられた 3D 法線ベクトルを2D 画像平面に投影することによって取得されます。これらの 2 次元点セットを特徴マップ上で補間およびサンプリングすることにより (PyTorch の grid_sample 関数を使用)、サンプリングされた 2 次元輪郭点の数である輪郭特徴マップを生成できます。 2 境界マップ予測 この論文では、画像の端の外側の領域を削除するように動的に設定される境界確率マップを予測するための軽量ネットワークを設計しています。境界確率マップでは、座標の値は、2 次元の点が対応する線の境界である確率を表します。ネットワークの一般化能力を向上させるために、この論文では、従来の統計的手法に基づいて得られた前景確率マップと境界確率マップを、軽量ネットワークの入力として輪郭特徴マップと融合しています。 上の図は、境界予測モジュールの順方向伝播プロセスの詳細を示しています。これは、前景確率マップ、境界確率マップ、輪郭特徴マップという 3 つの異なる入力を使用します。この情報は、さまざまな段階で連結操作を使用してニューラル ネットワークに組み込まれ、境界確率マップを予測します。実験では、従来の統計情報と深層特徴をネットワーク入力として融合すると、位置決めアルゴリズムのパフォーマンス指標が大幅に向上することが示されています。 3 ポーズの最適化 このセクションでは、軽量ネットワーク学習によって得られた境界確率マップに基づいて、反復最適化手法を使用して、現在のフレーム内のオブジェクトの姿勢を復元します。ポーズの反復更新の各ラウンドで、2D 輪郭点と 3D 輪郭点間の再投影誤差は次のように計算されます。 このうち、は投影プロファイルの法線ベクトル、はそれぞれ k 番目のフレームにおけるオブジェクトの回転と移動であり、 π はピンホール カメラ モデルの投影関数を表します。 その中には、それぞれ x および y 画像空間方向の焦点距離と光学中心があります。ポーズが与えられた場合、再投影距離は、 i 番目の行の対応する線上の 3D 輪郭点の投影の位置を表します。この場所が境界点となる可能性の推定値は次のとおりです。 各対応する線上の境界点の尤度推定値は互いに独立しているため、すべての対応する線の全体的な尤度推定値は次のようになります。 このセクションの目的は、尤度推定値を最大化するポーズを見つけることです。 尤度推定を最大化するために、このセクションでは反復ニュートン法と Tikhonov 正則化を使用してポーズ ソリューションを最適化します。具体的な姿勢更新方法は以下の通りです。 ここで、H はヘッセ行列、g は勾配ベクトル、 3×3 単位行列です。および はそれぞれ 3D 回転と 3D 移動の正規化パラメータを表します。 3次元回転 R はリー群に属するため、リー代数の指数写像で表すことができます。 ここで、3次元ベクトルはリー代数空間の要素なので(3)であり、の歪対称行列です。したがって、ポーズは6 つの自由度を持つ変数で表すことができます。連鎖律によれば、ヘッセ行列 H と勾配ベクトル g は次のように計算されます。 カメラ座標空間における3D 輪郭点の位置はどこですか。は、カメラ座標空間点に対する再投影誤差の1次偏微分であり、その計算式は次のとおりです。 このセクションでは、 6自由度姿勢に対するカメラ座標空間内の3次元点の1次偏微分を計算するために、古典的な摂動モデルを使用して次の式を導出します。 以前に提案されたネットワークモデルをエンドツーエンドでトレーニングするために、このサブセクションでは2つの近似法を採用しての1次導関数を推定します。最初の近似法では、対応する各線の平均と分散を直接使用して導関数を計算します。導関数は次のように計算されます。 2番目の近似法は、3次元輪郭の投影点付近の領域の境界確率を使用します。具体的な計算式は次のとおりです。 これら 2 つの近似方法には異なる特性があります。最初の近似は、対応する各線上の境界位置を直接学習するために使用され、高速収束を実現します。 2 番目の近似は、ポーズを微調整するためにローカル境界確率を学習するために使用されます。さらに、分散は各対応する線の不確実性を特徴付けるために使用され、ポーズ解決プロセスの堅牢性を高める役割を果たします。境界不確実性が物体の姿勢予測に与える影響を分析するために、本論文では、境界不確実性の値が小さい領域を暖色(赤)で表す、色グラデーションベースの視覚化手法を採用しています。下の図からわかるように、オブジェクトの遮蔽されていない境界はポーズの予測に役立ちますが、遮蔽された境界は比較的重要ではありません。 4 ネットワーク監視 この論文で提案されている方法は、各反復最適化後に得られる姿勢と実際の姿勢との差に基づいています。 ここで、P は Huber ロバストカーネル関数です。難しい例がモデルトレーニングに悪影響を及ぼすのを避けるために、この論文では条件付き損失関数を採用しています。つまり、前回の反復最適化後に得られたポーズは、真の解に近い場合にのみ損失関数の計算に含められます。ある反復最適化後に得られたポーズが真の解から大きく外れている場合、対応する損失項は無視されます。これにより、モデルは信頼性の高いトレーニング サンプルのみを使用するようになります。 結果1 最適化ベースの手法との比較 (1)RBOTデータセット RBOTデータセットでは、5cm− 5◦のリコール率を使用して位置決め精度を評価しています。具体的には、各フレーム画像が正しく配置されているかどうかは、その移動誤差が 5 cm 未満、回転誤差が 5 ◦未満であるかどうかによって決まります。 実験結果によると、通常の照明と動的な照明、シーンの遮蔽下では、既存の最適化ベースの方法はパフォーマンスの上限に非常に近く、SRT3DとLDT3Dの5cm− 5◦のリコール率は95%に近いかそれを超えています。これら 3 つのケースすべてにおいて、DeepAC は同様のパフォーマンスを示し、通常の照明と動的な照明のケースではわずかにリードし、シーン オクルージョンのケースではわずかに遅れをとりました。しかし、ノイズの場合、提案手法は他の最適化ベースの手法を大幅に上回り、5cm−5 ◦ のリコール率は83.2%から88.0%に向上しました。この結果は、DeepACが画像ノイズに対して堅牢であることを証明しています。 (2)BCOTデータセット 本論文では、提案手法を BCOT データセットで実験的に検証し、ADD-(s) d とセンチメートル度リコールを使用して姿勢推定の精度を評価します。 RBOTデータセットで実施された実験とは異なり、アルゴリズムの高精度な位置決め能力を評価するために、ADD-0.02d、ADD-0.05d、ADD-0.1d、2cm−2 ◦リコール率というより厳しい評価指標がBCOTデータセットに追加されています。ここで、d はオブジェクト モデルの 3D 境界ボックスの最大長を表します。 実験結果によると、DeepAC は、すべてのしきい値で ADD-(s) d および cm-degree リコールに関して他の最適化ベースのベースライン メソッドよりも優れていることがわかりました。特に、非常に厳格なADD-(s) d基準の下では、提案された方法は、2位のLDT3Dと比較して、ADD-0.02d、ADD-0.05d、ADD-0.1dでそれぞれ9.1パーセントポイント、14.1パーセントポイント、9.6パーセントポイント改善され、大きな利点を示しています。これらの結果は、DeepAC が高精度の位置決め能力を備えていることを十分に実証しています。 (3)OPTデータセット この論文では、OPTデータセットについて、まず異なる誤差しきい値sの下でADD-(s) dスコアを計算し、次に曲線下面積(AUC)スコアを計算することでビデオシーケンスにおける物体姿勢推定の品質を測定します。誤差閾値sの範囲は[0, 0.2]に設定されます。 以下の表は、DeepAC が 6 つのオブジェクトに対して現在の最先端の最適化ベースの方法よりも優れており、AUC スコアが大幅に向上したことを示しています。平均 AUC スコアに関しては、DeepAC は 16.69 を達成し、2 位の方法である SRT3D よりも 6.10% 高くなっています。これらの結果は、DeepAC が実際のシナリオで優れた追跡機能を備えていることを示しています。 2 学習ベースの方法との比較 DeepAC モデルがさまざまなデータセットに対して優れた一般化能力を持っていることを確認するために、この論文では、RBOT データセットに対して現在最も先進的な学習ベースの方法との比較実験を実施しました。この論文では、「ピエロ」オブジェクト(テクスチャマップが正しくないため)を除くすべてのシーケンスをテストセットとして選択し、平均ADD-(s) dとセンチメートル度の再現率を評価指標として使用しました。他の学習ベースの方法と公平に比較するために、提案された方法 DeepAC は同じトレーニング データと方法を使用し、DeepAC− と表記されます。 実験結果によると、他の一般的な学習ベースの方法の位置決め精度は DeepAC の精度よりもはるかに低いことが示されており、これは DeepAC がさまざまなデータ セットに対して非常に強力で安定した一般化能力を持っていることを十分に実証しています。 3 アブレーション分析 この論文では、アブレーション実験を使用して、DeepAC の 3 つの主要な設計がオブジェクトの 6 自由度位置決めパフォーマンスに与える影響を分析します。具体的には、1) 統計情報の統合、2) 多層特徴抽出、3) 境界不確実性の推定です。実験は RBOT および BCOT データセットで実行され、結果は次の表に示されています。 応募の見通し研究成果は民間・軍事両分野に幅広く応用できます。民間分野では、この研究は拡張現実、ロボット操作、人間とコンピュータの相互作用など、多くのアプリケーションに利用できます。軍事分野では、この研究は、複雑な照明条件下での無人航空機や巡航ミサイルによるターゲットのリアルタイムの多角度追跡と攻撃をサポートするために使用できます。 |
<<: ByteDanceのLi Hang: 言語ビッグモデルに関するいくつかの観察と考察
[51CTO.comより引用]現在、人工知能に代表される新世代の情報技術は、高速成長から高品質発展へ...
[[198733]]今年 3 月に開催された NVIDIA の GTC 2017 カンファレンスでは...
科学技術の継続的な発展により、多くの業界で「ロボット」が使用され、効率が向上するだけでなく、人件費も...
[[337768]]現在、世界中のあらゆる部門が人工知能(AI)の研究を行っています。 AI の画...
今日は引き続き、パーセプトロンをベースにしたニューラルネットワークモデルを紹介します。パーセプトロン...
日常生活では、情報を提示する次の 2 つの方法によく遭遇します。表示される情報量はどちらも同じですが...
小売業の経営者は、長期的な顧客関係の構築を妨げる在庫管理の問題に直面することがよくあります。小売在庫...
[[433351]]強化学習AIは囲碁、スタークラフト、王者栄耀などのゲームで絶対的な優位性を持って...
「GitHub Copilot のようなコード補完ツールは、100 万人以上の開発者に使用されており...
シンガポールは、都市国家内での違法行為を阻止するためにロボットを活用している。しかし、ロボット警官が...
[[320126]] [51CTO.com クイック翻訳]ソフトウェア定義広域ネットワーク (SD-...
大規模言語モデルをトレーニングする最後のステップは、モデルの動作が確立された人間の社会的価値観と一致...