国立国防技術大学は、モバイル環境下で高精度のオンラインRGB-D再構成を実現するROSEFusionを提案

国立国防技術大学は、モバイル環境下で高精度のオンラインRGB-D再構成を実現するROSEFusionを提案

最近、国立国防科技大学の徐凱教授のチームは、高速移動に対するランダム最適化に基づくオンライン RGB-D 再構成法である ROSEFusion を提案しました。追加のハードウェア支援なしで、深度情報のみに依存して、カメラ移動の最大線速度 4 m/s、角速度 6 rad/s で高精度のオンライン 3D 再構成を実現します。

2011 年の KinectFusion の登場以来、RGB-D カメラに基づくリアルタイムのオンライン 3D 再構築は、3D ビジョンとグラフィックスの分野における研究のホットスポットとなっています。過去 10 年間で数多くの優れた方法やシステムが登場しました。現在、オンライン RGB-D 再構成は、拡張現実やロボット工学などの分野で広く使用されており、徐々に「人間・機械・物体」空間知能 (空間​​ AI) を実現する重要な技術へと発展しています。

オンライン RGB-D 再構築の基盤となる技術は RGB-D SLAM です。マッピング部分では、リアルタイム 3D 再構築に特に適した深度融合技術が使用されています。一般的に、深度マップの融合には、切り捨て符号付き距離フィールド (TSDF) に基づくボリューム融合と、表面フラグメントに基づくポイントベースの融合という 2 つの基本的な方法があります。カメラ追跡部分は、一般的にフレーム間のフレーム登録方式(特徴方式と直接方式を含む)とフレームからモデルへの ICP 方式に分けられます。

現在、一般的なオンライン RGB-D 再構成方法では、カメラが比較的ゆっくりと移動する状況 (平均線速度 < 0.5 m/s、平均角速度 < 1 rad/s など) のみを処理できます。カメラの動きが速すぎると、カメラの追跡が失敗し、再構築結果が誤っている可能性があります。これは、オンライン 3D 再構築の効率に大きく影響します。RGB-D カメラを搭載したスキャナーはカメラを慎重に動かす必要があり、急激な動きや揺れがあると、以前のスキャンが役に立たなくなる可能性があります。高速カメラ移動のサポートが不足しているため、ロボットやドローンなどの分野でのオンライン RGB-D 再構成の実用化も大きく制限されます。

高速カメラモーションでのオンライン RGB-D 再構築には、2 つの主な課題があります。まず、SO(3)におけるカメラ姿勢追跡には、非線形最小二乗最適化が関係する。勾配降下法を用いてこれを解く場合、線形近似の前提は、前のフレームと次のフレーム間の回転が小さいことである。高速カメラ移動における大きな角度の回転は、問題の非線形性を増大させ、最適化が局所最適に陥りやすくなる。 2 番目に、カメラの動きが速いと (特に薄暗い状況では)、RGB 画像に深刻なモーション ブラーが発生し、信頼性の高い RGB 機能 (またはピクセル) の追跡が不可能になります。これは、ORB-SLAM などの RGB ベースのカメラ追跡方法にとって致命的です。簡単に考えられるアプローチは、慣性計測ユニット (IMU) によって出力される高フレーム レートの直線加速度と角速度を使用してカメラの追跡を支援することです。しかし、IMU の初期化はそれほど堅牢ではなく、読み取り値はドリフトします。さらに重要なのは、IMU をカメラと時間的および空間的に同期する必要があることです。これらの要因により、推定バイアスとエラーの蓄積が発生し、システムの複雑さも増大します。

追加のハードウェアを使用せずに、高速カメラ移動下でオンライン RGB-D 再構築を実現することは可能ですか?最近、国立国防科技大学の徐凱教授のチームは、高速移動に対するランダム最適化に基づくオンライン RGB-D 再構成法である ROSEFusion を提案しました。追加のハードウェア支援なしで、深度情報のみに依存して、最大線速度 4 m/s、角速度 6 rad/s で移動するカメラで高精度のオンライン 3D 再構成を実現します。

以下は、高速カメラ移動時のリアルタイムオンライン再構築の効果を示しています(ビデオは加速されていません)。オペレーターがカメラを非常に速く振ったため、RGB 画像にひどいモーション ブラーが発生したことがわかります。このような場合でも、ROSEFusion はカメラの姿勢を非常に正確かつ安定して追跡し、正確な 3D 再構築を取得できます。

ROSEFusion は、グローバル ポーズ最適化やループ クロージャ検出を行わずに、高速移動する RGB-D シーケンスで最先端のカメラ トラッキングと 3D 再構築精度を実現し、通常速度のシーケンスでは、これまでの最良の方法 (グローバル ポーズ最適化を含む) に匹敵します。この作品はSIGGRAPH 2021で発表されました。

  • 論文リンク: https://arxiv.org/abs/2105.05600
  • コードとデータセットのリンク: https://github.com/jzhzhang/ROSEFusion

1. 基本的な考え方

この研究は、カメラの動きが速いと RGB 画像にモーション ブラーが発生しますが、深度画像にはほとんど影響がないという基本的な観察に基づいています。高速モーションによる深度マップへの影響は、画像全体にわたるピクセル深度値の混合ではなく、前景と背景の間の遷移における深度値のオーバーシュートまたはアンダーシュートとして現れることが多い[1]。前述のオクルージョン境界における偽信号は、ハードウェア(多くの深度カメラではすでに実装されている)に基づいて簡単に検出して除去することができ[2]、その結果、オクルージョン境界における深度値は空になります(図1を参照)。この場合、深度マップのみに基づいたカメラトラッキングの実装を検討するのは自然なことです。しかし、深度マップの特徴点の識別性と堅牢性は RGB 画像の特徴点に比べてはるかに劣るため、深度マップの特徴点の検出とマッチングに関する研究は比較的少ないです。

図 1: カメラの高速移動により RGB 画像に深刻なモーション ブラーが発生した場合 (左)、対応する深度マップ (右) にはオクルージョン境界に穴があいているだけで、画像全体にピクセルのブラーは発生しません。

カメラのポーズを解決するための非線形最適化に関しては、勾配降下法では大きな角度の回転をうまく処理できないため、ROSEFusion ではランダム最適化法を使用します。私たちの知る限り、これはこの分野におけるランダム最適化に基づく最初のオンライン RGB-D 再構築方法です。確率的最適化アルゴリズムの基本的なプロセスは、ソリューション空間を継続的にランダムにサンプリングし、サンプリングされた各ソリューションの最適性 (適応度とも呼ばれる) を評価し、その適応度に基づいて次のサンプリング ラウンドをガイドすることです。したがって、適応度関数とサンプリング戦略は、確率的最適化アルゴリズムの 2 つの重要な側面です。優れた適応度関数は、ソリューションの最適性に対する強力な識別力と低い計算コストを備えている必要があります。適切なサンプリング戦略では、サンプリングによって最適なソリューションをできるだけ早くカバーできる必要があります。

2. 深度からTSDFへの適応機能

モーション ブラーの影響を最小限に抑えるために、ROSEFusion は深度マップに基づくカメラ トラッキングを実装します。したがって、適応度関数も深度マップに基づいて計算されます。直感的なアイデアとしては、隣接する 2 つのフレームの深度マップのマッチングと登録を計算することです。しかし、深度マップにはノイズが多く含まれていることが多く、深度マップの特徴点の識別性と堅牢性は低く、さらに、カメラの動きが速い場合、正確な再投影マッチング関係を計算することが難しく、フレーム間のマッチングと登録に適していません。 ROSEFusion は、深度から TSDF への適応関数計算方法を使用します。現在の深度マップを考慮すると

、深度カメラの候補カメラポーズ

対応する観測尤度関数は次のようになります。

グローバル座標系の3Dポイントの現在のTSDFフィールドです。

TSDF 値が 0 に近いほど、ポイントは再構築されたサーフェスに近くなります。最大尤度推定法は最適化に使用されます

式(1)の負の対数をとると、次の最適化目的が得られます。

候補カメラポーズ

適応度関数

現在の TSDF フィールドとの適合性。直感的な概略図については図 2 を参照してください。これは、フレーム間のマッチングと登録を計算する必要のない、純粋に幾何学的な(RGB に依存しない)ポーズ適応測定です。

図 2: 深度から TSDF に基づくカメラポーズ適応性 (最適性) の計算: カメラポーズ変換後の TSDF フィールド内の深度マップに対応する 3D ポイント クラウドの値の合計。

3. ランダム最適化に基づくカメラポーズトラッキング

粒子フィルタ最適化(PFO)は近年提案され、粒子フィルタの概念[3]に基づいて設計されたランダム最適化アルゴリズムです。パーティクルフィルタリングは非常に有名な状態推定アルゴリズムであり、シーケンス観測に基づく重要度サンプリングを通じて観測尤度を最大化し、状態の真の分布をシミュレートします。初期のSLAMアルゴリズムの多くはフィルタリング手法に基づいていました[4]。ただし、この記事で取り上げる粒子フィルタの最適化は、状態推定アルゴリズムではなく、最適化アルゴリズムであることに注意してください。直感的に言えば、この方法では、各フレームのカメラ姿勢の最適化には複数の粒子再サンプリング (フィルター反復) が含まれますが、従来の粒子フィルター ベースの SLAM アルゴリズムでは、各フレームの姿勢推定は 1 回の粒子再サンプリングに対応します。図 3 に示すように、ROSEFusion では、SLAM の各フレーム (下付き文字は t) のポーズ最適化に、複数の粒子フィルタ最適化反復 (下付き文字は k) が含まれます。

図3: ROSEFusionの確率グラフモデル: 左半分はSLAMの確率グラフモデル、右半分はカメラポーズの特定フレームの粒子フィルタ最適化プロセスです。パーティクル フィルタリングに基づく SLAM は連続フレームの順次ポーズ推定ですが、ROSEFusion のパーティクル フィルタ最適化は特定のフレーム ポーズの順次反復最適化です。

パーティクルフィルタの最適化プロセスは次のようになる。前のフレームのカメラポーズを中心に、多数の6DポーズがSE(3)空間にパーティクルとしてサンプリングされる。

初期の重みはすべて 1 です。各反復では、粒子は最初に重みに従って再サンプリングされ、次に動的モデルに従って再サンプリングされます。

粒子を動かし、観測尤度に基づいて粒子の重みを更新します。

。最適なポーズが粒子群によってカバーされるか、最大反復回数に達するまで、上記の手順を繰り返します。上記の尤度関数

これが前述の適用性機能です。

しかし、粒子フィルタの最適化には、多数の粒子のサンプリングと重みの更新が伴い、計算オーバーヘッドが高く、オンライン再構築のリアルタイム要件を満たすことが困難です。さらに、優れたダイナミクスモデルを構築する方法

最適化の効率を向上させる鍵となります。この目的のために、本論文では、粒子群知能を組み合わせてフィルタリング最適化手法を改善し、粒子群内の現在の最適解を十分に活用して粒子の動きを誘導し、粒子群知能に基づく動的モデルを実現します。同時に、多数の粒子をサンプリングして更新する際の計算オーバーヘッドを回避するために、この論文では事前サンプリングされた粒子群テンプレート (PST) を提案しています。これは、群知能によって誘導される粒子セットを事前サンプリングし、粒子セットを継続的に移動およびスケーリングして、粒子を駆動して最適解をカバーするという目標を達成するものです。図 4 と 5 は、事前にサンプリングされた粒子群テンプレートとその動きおよびスケーリングの概略図を示しています。

図 4: 事前サンプリングされた粒子群テンプレート (PST) と反復最適化中のその動きおよびスケーリングの概略図。

図 5: カメラポーズの最適化の各フレームでは、粒子群テンプレートを、最適解に収束するか、最大反復回数に達するまで、複数回移動および拡大縮小する必要があります。

k回目の反復では、まずPST全体を前のステップで最も適応性の高い粒子の位置に移動させ、次にPST楕円体をその軸の長さが

満足度(図6参照):

で、

PST楕円体の異方性の度合いを表し、

PST 楕円体のスケールを表します。直感的には、v は 2 つの隣接するステップの最適解間の変位ベクトルです。したがって、PST 楕円体は、最適解が現れる方向に沿ってより広い範囲を検索します。この検索範囲は、前のステップの最高の適応性に反比例するため、最適解に近づくほどアルゴリズムは小さくなり、収束しやすくなります。式(3)は確率的勾配降下法における運動量更新メカニズムを利用している。

図6: 粒子群テンプレートは各反復ステップで移動および拡大縮小します。拡大縮小には運動量更新メカニズムが使用されます。

以下のビデオでは、目的関数の最適化 (右上) と PST の更新 (右下) を含む深度マップポーズ最適化プロセスを視覚化しています。このビデオでは、PST の異方性の度合い (楕円体の形状) と PST 内のポーズの方向分布 (楕円体の色) のみを視覚化しており、PST のスケールは右上隅の円の半径に反映されています。目的関数は極めて非凸であり、ROSEFusion は最適なポーズに非常に堅牢に収束できることがわかります。

実装では、PST と TSDF の両方が GPU に保存され、各粒子のフィットネス計算は GPU 内で並列に完了し、高い計算効率を実現します。各反復の計算時間は約 1 ミリ秒で、各フレームには約 20 ~ 30 回の反復が必要です。 CPU は、PST の移動およびスケーリング パラメータの計算のみを担当します。これにより、CPU と GPU 間のデータ交換の量も最小限に抑えられます。

4. 実験結果と評価

オンライン RGB-D 再構築用の既存の公開データセットには、高速カメラ移動による RGB-D シーケンスが含まれていることはほとんどありません。したがって、本論文では、高速カメラモーション用の最初の RGB-D シーケンス データセット FastCaMo を提案します。データセットは合成と実際の2つの部分に分かれています。合成データセットFastCaMo-Synthは、FacebookのオープンソースReplica屋内シーンデータセットに基づいて構築されています。著者は、高速で移動するカメラの軌跡を合成し、RGBマップと深度マップをレンダリングしました。同時に、RGB画像に合成モーションブラーを追加し、深度マップに合成ノイズを追加しました。実際のデータセットFastCaMo-Realには、著者がKinect DKを使用してスキャンした12の異なるシーンの24のRGB-Dシーケンスが含まれています。カメラの速度が速いため、真の値として高品質のカメラ軌跡を取得することは困難です。著者はレーザースキャナーを使用してシーンの完全な3D再構築を取得し、3D再構築の完全性と精度を測定することでカメラトラッキングの精度を評価しました。 FastCaMo データセットのカメラ速度は、線速度 4.6 m/s、角速度 5.7 rad/s に達し、これまでの公開データセットをはるかに上回っています。

この論文では、FastCaMo上で2つの重要なオンラインRGB-D再構成手法であるBundleFusion[5]とElasticFusion[6]を比較しています。結果は図7と図8に示されています。 ROSEFusion の軌跡精度と再構築品質 (完全性と精度を含む) は、他の 2 つの方法よりも大幅に高いことがわかります。 ROSEFusion が、グローバルポーズ最適化、ループ閉鎖検出、およびフレームの破棄を行わずにこのパフォーマンスを達成していることは注目に値します。

図 7: FastCaMo-Synth 高速シーケンスにおけるカメラ軌道精度 (ATE) の比較 (青が最良)。

図 8: FastCaMo-Real 高速シーケンスの再構築品質 (完全性と精度) の比較 (青が最高)。

公開データセットETH3D[7]には、高速カメラ移動(camera_shake)のRGB-Dシーケンスが3つ含まれています。図9は、これら3つのシーケンスに対するさまざまな方法の比較を示しています。ROSEFusionは、すべてのシーケンスで最高のカメラ追跡効果を実現します。

図 9: ETH3D の camera_shake シーケンスにおけるカメラ軌道精度 (ATE) の比較 (青が最良)。

図10は、camera_shake_3シーケンスとカメラ軌道精度曲線(異なるポーズ精度でのフレーム比率)の再構築効果の比較を示しています。

図 10: ETH3D camera_shake_3 シーケンスにおける再構成とカメラ追跡精度 (ATE) の比較。

通常の速度での RGB-D シーケンスでは、ROSEFusion は現在の最良アルゴリズムに匹敵するカメラ追跡精度も達成できます (図 11)。 SOTA アルゴリズムには通常、グローバルポーズ最適化が含まれますが、ROSEFusion には含まれません。

図 11: ICL-NUIM データセットの一般的な速度シーケンスにおけるカメラ軌道精度 (ATE) の比較 (青が最高、緑が 2 番目に良い)。

図 12 は、ポーズ最適化中の PST の 2D 視覚化を示しており、PST ベースの粒子フィルタ最適化 (この論文の方法)、粒子群最適化アルゴリズム (PSO)、および通常の粒子フィルタ最適化 (PST なし) の最適化プロセスを比較しています。 PST に基づく粒子フィルタ最適化は、最適解を迅速に探索する速度と収束の点で明らかな利点があることがわかります。

図 12: さまざまな最適化方法の 2D 視覚化プロセスの比較 (青の方が優れています)。PST に基づく粒子フィルター最適化 (3 行目) は、より優れたソリューションに迅速に収束できます。

次のビデオは、屋内シーン全体をすばやくスキャンするプロセスを示しています (ビデオは高速化されていません)。このシーケンスには多くの速い動きも含まれています。スキャン中に、部屋の照明が部分的に消灯されました。 ROSEFusion の最適化方法は純粋に幾何学的であり、RGB イメージングとは関係がないため、上記の状況を非常に堅牢に処理できます。

この論文を通じて、著者らは高速カメラ移動のための SLAM/オンライン再構成問題にコミュニティの注目を集めたいと考えています。既存の方法は、一般的に RGB 画像の特徴またはピクセル マッチングに基づいており、勾配降下法を使用して非線形最適化問題を解決します。高速カメラモーションによって引き起こされる RGB 画像のモーション ブラーと、大角度回転最適化によって引き起こされる高度な非凸/非線形問題のため、従来の方法ではカメラのポーズ追跡を効果的に実現することが困難でした。 ROSEFusion は、ランダム最適化法を使用して SLAM の視覚オドメトリ問題を解決し、純粋な幾何学的適合関数の計算と組み合わせて、IMU の支援なしでカメラの動きの高速オンライン再構築を実現します。もちろん、ROSEFusion をグローバルポーズ最適化やループ閉鎖検出と組み合わせて、より高品質の 3D 再構築を実現することもできます。実際、後者も確率的最適化に基づいて実装できる可能性があります。

<<:  予想外?今年の建国記念日に最も多く目にするのはドローンかもしれません!

>>:  言語モデルは本来の役割を果たしていないため、DETRよりも優れたパフォーマンスでオブジェクト検出に使用されています。

ブログ    
ブログ    

推薦する

人工知能は人材採用において利益よりも害をもたらす可能性がある

近年、企業が履歴書の解析や応募者の選考に自動評価、デジタル面接、データ分析を導入するようになり、採用...

AIをベースとしたイベントインテリジェント分析システム構築の実践

1. 背景現在、仮想化やクラウドコンピューティングなどの新技術の普及により、企業のデータセンター内の...

私たちの重要なインフラは人工知能に対応できるでしょうか?

ChatGPT を楽しみや機能のために使用する個人から、タスクの自動化に人工知能 (AI) を適用...

中国と米国の人工知能の格差はどれほど大きいか:米国の人材総数は中国の約20倍

昨年上半期、メディアはかつてアンドリュー・ン氏が妻のために百度を去ったという話題を熱く議論していた。...

生成 AI は SOC アナリストにどのような力を与えるのでしょうか?

今日のサイバーセキュリティの脅威がますます深刻化する中、セキュリティ オペレーション センター (S...

情報フローシナリオにおけるAIGCの実践

1. パーソナライズされたタイトル生成パーソナライズされたタイトル生成とは、ユーザー コンテンツとパ...

これらの仕事は今後5年以内に機械に置き換えられる可能性があり、8500万人が解雇される危険にさらされている。

5G ネットワークの誕生と普及により、5G ネットワークのサポートにより、モノのインターネットの新...

自動運転のゴールドラッシュ、このトラックの価値は少なくとも3000億ドル

[[384274]]市場主導型の自動運転プロセスの第2フェーズが始まるにつれ、自動運転の商業化が議題...

AIが再び大学入試小論文に挑戦、強力なハードコア技術で「数秒」の文章作成を実現

昨日(6月7日)、2022年度全国大学入学試験が始まりました。午前中に中国語科目試験が終了し、中国語...

...

2019 年の AI、セキュリティ、IT 運用、IoT に関する主な予測

次の技術変化が始まる前に、将来の発展の方向を予測・判断し、技術変化に伴う可能性のある困難を軽減する必...

...

...

...

特定の文字を削除するためのアルゴリズム設計とCコードの実装

1. 要件の説明長い文字列と短い文字列を入力し、短い文字列に現れる文字を長い文字列から削除するプログ...