SLAMアルゴリズム分析：ビジュアルSLAMの難しさを把握し、技術開発の全体的な傾向を理解する

SLAM（Simultaneous Localization and Mapping）は、業界では視覚分野における空間測位技術の最先端方向として認識されています。中国語に翻訳すると「Simultaneous Localization and Mapping」となります。主に、未知の環境で移動するロボットの測位とマッピングの問題を解決するために使用されます。今回も、Yuemian Technologyの上級研究員であるZhao Ji氏がSLAMの方向からスタートし、より詳細な技術内容を皆様にお見せします。

趙冀：Yuemian Technologyの上級研究員。彼は2012年に華中科技大学で博士号を取得し、2012年から2014年までCMUロボット研究所で博士研究員として勤務しました。彼はサムスン研究所で深度カメラ、SLAM、人間とコンピュータの相互作用の研究に従事してきました。現在は空間認識技術の研究開発に注力しています。

現在、技術開発のスピードは非常に速く、AR/VR、ロボット、ドローン、無人運転などの分野でユーザーエクスペリエンスを向上させるには、それをサポートする最先端の技術がさらに必要です。SLAMもその1つです。実際、携帯電話が Wi-Fi とデータネットワークから切り離されると、SLAM のない無人車両やロボットのようなものになるだろうと誰かが例えました。

SLAM は主に空間内でのカメラの配置を解決し、環境のマップを作成します。これは、より人気のある起業の方向性のいくつかに見られます。

VR/AR の観点では、SLAM で取得したマップと現在の視野角に基づいて、重ね合わせた仮想オブジェクトが適切にレンダリングされます。これにより、重ね合わせた仮想オブジェクトがよりリアルに見え、違和感がありません。
ドローンの分野では、SLAM を使用してローカルマップを作成し、ドローンの自律的な障害物回避と経路計画を支援することができます。
自動運転の観点では、SLAM 技術を使用して視覚的な走行距離計機能を提供し、他の測位方法と統合することができます。
ロボットの位置決めとナビゲーションに関しては、SLAM を使用して環境のマップを生成できます。このマップに基づいて、ロボットは経路計画、自律探索、ナビゲーションなどのタスクを実行します。

SLAM 技術の開発には 30 年以上の歴史があり、多くの技術分野が関わっています。多くのステップが含まれており、各ステップは異なるアルゴリズムを使用して実装できるため、SLAM テクノロジはロボット工学やコンピュータービジョンの分野でも注目されている研究分野です。

SLAM技術の簡単な分析

SLAM の完全な英語名は Simultaneous Localization and Mapping で、中国語では「Simultaneous Localization and Mapping」と呼ばれます。 SLAM は、ロボットが未知の環境内を移動するときに、環境を観察して自身の移動軌跡を決定し、同時に環境のマップを構築するという問題を解決しようとします。 SLAM テクノロジーは、この目標を達成するために必要な多くのテクノロジーの集合体です。

SLAM 技術は非常に広範囲にわたります。さまざまなセンサー、アプリケーションシナリオ、コアアルゴリズムに応じて、SLAM を分類する方法は数多くあります。異なるセンサーに応じて、LIDAR に基づく 2D/3D SLAM、深度カメラに基づく RGBD SLAM、視覚センサーに基づく視覚 SLAM (以下、vSLAM と呼ぶ)、視覚センサーと慣性ユニットに基づく視覚慣性オドメトリ (以下、VIO と呼ぶ) に分類できます。

LiDAR に基づく 2D SLAM は比較的成熟しています。2005 年には、Sebastian Thrun らの古典的な書籍「Probabilistic Robotics」で 2D SLAM が非常に徹底的に研究および要約され、LiDAR SLAM のフレームワークが基本的に決定されました。一般的に使用されているグリッドマッピング手法には 10 年以上の歴史があります。 Googleは2016年に、IMU情報を統合し、2Dと3DのSLAMの処理を統一できるLiDAR SLAMプログラムCartographerをオープンソース化しました。現在、2D SLAM は掃除ロボットにうまく適用されています。

[[195879]]

深度カメラをベースにしたRGBD SLAMもここ数年で急速に発展しました。 Microsoft の Kinect の発売以来、RGBD SLAM 研究の波が巻き起こっています。わずか数年で、KinectFusion、Kintinuous、Voxel Hashing、DynamicFusion など、いくつかの重要なアルゴリズムが登場しました。 Microsoft の Hololens には RGBD SLAM が統合される予定で、深度センサーが機能する状況では非常に良好な結果を達成できます。

視覚センサーには単眼カメラ、双眼カメラ、魚眼カメラなどがあります。視覚センサーは安価で屋内でも屋外でも使用できるため、vSLAM は研究のホットな話題となっています。 monoSLAM などの初期の vSLAM は、ロボット工学の分野におけるフィルタリング手法の延長線上にありました。現在、より多く使用されているのは、コンピュータービジョンの分野における最適化手法、具体的には、構造からの動きのバンドル調整です。 vSLAM では、視覚的特徴を抽出する方法に応じて、特徴方式と直接方式に分けられます。現在、vSLAM の代表的なアルゴリズムとしては、ORB-SLAM、SVO、DSO などがあります。

視覚センサーはテクスチャのない領域ではうまく機能しません。慣性測定ユニット (IMU) は、内蔵のジャイロスコープと加速度計を通じて角速度と加速度を測定し、カメラの姿勢を推測できますが、推測された姿勢には累積誤差があります。視覚センサーとIMUは相互補完性が高いため、両者の測定情報を融合するVIOも研究のホットスポットとなっています。さまざまな情報融合方法に応じて、VIO はフィルタリングベースの方法と最適化ベースの方法に分けられます。 VIO の代表的なアルゴリズムとしては、EKF、MSCKF、事前積分、OKVIS などがあります。 Google の Tango タブレットは VIO を効果的に実現します。

一般的に、LIDAR と深度カメラに基づく SLAM と比較すると、視覚センサーに基づく vSLAM と VIO は十分に成熟しておらず、操作が困難です。通常、他のセンサーと統合するか、何らかの制御された環境で使用する必要があります。

Visual LAM が難しいのはなぜですか?

センサーの計測情報を分析することで定性的な分析を行います。 LiDAR または RGBD カメラは、環境のポイントクラウドを直接取得できます。ポイントクラウド内の点については、特定の位置と距離に障害物点があることがわかります。視覚センサーは、グレースケール画像またはカラー画像を取得します。画像内のピクセルについては、特定の方向に障害物があることと、障害物の周囲の局所的な外観のみを伝えることができますが、障害物までの距離を伝えることはできません。点までの距離を計算するには、カメラを特定の位置に移動して再度観察し、三角測量の原理に基づいて推測する必要があります。

原則は明確ですが、実際に実行するのは簡単ではありません。まず、2 つの画像内の対応する点を見つける必要があります。これには、特徴点の抽出とマッチング、または準密な点間のマッチングが含まれます。今日までのコンピュータービジョンの発展において、vSLAM のパフォーマンスと速度の要件を満たす特徴抽出およびマッチングアルゴリズムは実際には存在しません。一般的な特徴点抽出アルゴリズムの中で、性能面ではSIFT>SURF>ORB>FAST、効率面ではFAST>ORB>SURF>SIFTと考えられます（大なり記号の左側の方が優れていることを表します。性能には主にマッチング精度、特徴点の数、空間分布などが含まれます）。パフォーマンスと効率の妥協点を得るために、通常は FAST または ORB が使用され、パフォーマンスが優れている SIFT や SURF などは放棄されなければなりません。

第二に、画像座標とマッチングポイントの空間座標の関係は非線形であり、たとえば、2D-2D ポイントの対応はエピポーラ幾何学を満たし、2D-3D ポイントの対応は PnP 制約を満たします。このような一致は多数あり、通常、2 つのフレーム間の一致は数十から数百に及びます。これらの一致により多数の制約が導入され、推定される変数間の関係が複雑になります。より良い推定値を得るためには、通常、最適化問題を確立し、複数の変数を全体として最適化する必要があります。理論的には、これは非線形最小二乗最適化問題に過ぎませんが、非線形制約、多数の制約、エラーや外れ値があり、計算時間を許容範囲内に制御する必要があるため、実装は容易ではありません。キーフレーム技術は現在広く使用されており、問題のスケールを制御したり、問題のスパース性を維持したりするために多くの方法が使用されています。

円は最適化される変数 (カメラのポーズ、特徴点の空間座標) を表し、極は制約 (位置合わせジオメトリ、PnP など) を表します。画像ソース: https://www.pinterest.com/81chevycowper/70s-80s-toys/

上記では、vSLAM の 2 つの問題点を分析しました。前者ではフロントエンドの機能を追跡することが難しくなり、後者ではバックエンドの最適化が難しくなります。効率的で堅牢な vSLAM システムを構築することは、依然として非常に困難な作業です。効率の観点から、SLAM はリアルタイムで実行する必要があります。リアルタイムで実行できない場合は、SLAM とは言えません。リアルタイム性を考慮しなければ、動きから構造を復元する効果はより高くなります。堅牢性の観点から見ると、脆弱なシステムはユーザーエクスペリエンスの低下と機能の制限につながります。

vSLAM コアアルゴリズム

準備段階には、センサーの選択とさまざまな調整が含まれます。 PTAMアルゴリズム以降、Visual SLAMのフレームワークは基本的に固定化されました。通常、フロントエンド追跡スレッド、バックエンドマッピング最適化スレッド、ループクローズスレッドの 3 つのスレッドが含まれます。

フロントエンドの追跡スレッドには主に次のものが含まれます。

特徴抽出と特徴マッチング。
エピポーラ幾何学、PnP、剛体運動、リー代数などのマルチビュー幾何学に関する知識。

バックエンド最適化スレッドには、数値最適化に属する非線形最小二乗最適化が含まれます。ループ閉鎖検出スレッドには、本質的には画像検索の問題である場所認識が含まれます。 VIO の場合、フィルタリングアルゴリズム、状態推定などのコンテンツも含まれます。

SLAM アルゴリズムを分解してみると、使用されている技術は比較的伝統的なものであることがわかりました。現在普及しているディープラーニングの「ブラックボックスモデル」とは異なり、SLAM の各リンクは基本的にホワイトボックスであり、非常に明確に説明できます。ただし、SLAM アルゴリズムは上記のアルゴリズムの単純な重ね合わせではなく、多くのトレードオフを伴う体系的なプロジェクトです。オープンソースプログラムだけを実行すると、中核となる競争力がなくなります。製品を作る場合でも、学術研究を行う場合でも、創造性を発揮するにはさまざまなテクノロジーに精通している必要があります。

SLAMの今後の開発動向

VSLAM の開発は非常に満足のいくものと思われます。各リンクは先行技術に基づいて少しずつ最適化され、同時に他の方向の最新の成果も常に吸収されています。短期的には、既存の枠組みの中で継続的な改善が確実に行われるでしょう。長期的な傾向については、IEEE TRO 2016 に「SLAM の過去、現在、未来: ロバスト知覚時代に向けて」というレビュー記事があります。数人の著名な学者が、SLAM の動向について論文の中で非常によくまとめています。ここで、私が興味を持った点について、個人的な考えを述べたいと思います。

新しいセンサーの出現により、SLAM は今後も活力を得続けるでしょう。高品質の生の情報を直接取得できれば、SLAM の計算負荷を大幅に軽減できます。たとえば、近年では、低電力で高フレームレートのイベントカメラ（ダイナミックビジョンシステム、DVS とも呼ばれる）が SLAM で徐々に使用されるようになっています。このタイプのセンサーのコストを削減できれば、SLAM 技術の状況に多くの変化がもたらされるでしょう。

ディープラーニングは多くの分野で無敵であるため、多くの研究者がディープラーニングのエンドツーエンドの考え方を使用して SLAM プロセスを再構築しようと試みてきました。現在、SLAM の特定の側面をディープラーニングに置き換えようとする取り組みがいくつかあります。しかし、これらの方法は圧倒的な利点を示しておらず、従来の幾何学的手法が依然として主流となっています。ディープラーニングブームの中、SLAM のあらゆる側面が徐々にディープラーニングの成果を吸収し、その結果、精度と堅牢性が向上します。おそらく将来的には、SLAM の一部の側面がディープラーニング全体に置き換えられ、新しいフレームワークが形成されるでしょう。

SLAM はもともと環境の幾何学的情報のみに焦点を当てていましたが、将来的には意味情報とさらに統合されるはずです。ディープラーニング技術の助けにより、現在のオブジェクト検出およびセマンティックセグメンテーション技術は急速に発展しており、画像から豊富なセマンティック情報を取得できます。これらの意味情報は、幾何学的な情報を推測するのに役立ちます。たとえば、既知のオブジェクトのサイズは重要な幾何学的な手がかりとなります。

<<: 厳しい期限内で機械学習を行う方法: ラベル付きニュースの構築

>>: 人工知能の3つの段階：統計学習から文脈適応へ移行中