自動運転の3D視覚認識アルゴリズムを理解するための1万語

自動運転アプリケーションでは、最終的には 3D シーン認識が必要になります。理由は簡単です。車は画像からの認識結果に基づいて運転することはできません。人間のドライバーでさえ、画像に基づいて運転することはできません。物体の距離やシーンの奥行き情報は 2D 認識結果に反映されないため、この情報は自動運転システムが周囲の環境について正しい判断を下すための鍵となります。

一般的に、自動運転車の視覚センサー（カメラなど）は、車体上部または車内のバックミラーに設置されます。位置に関係なく、カメラが取得するのは、透視図による現実世界の投影（世界座標系から画像座標系へ）です。この視覚は人間の視覚システムに非常に似ているため、人間のドライバーには簡単に理解できます。しかし、透視図法には、物体のスケールが距離によって変化するという致命的な問題があります。そのため、認識システムが画像から前方の障害物を検知したとしても、車両から障害物までの距離や、障害物の実際の三次元形状や大きさはわかりません。

画像座標系（透視図）とワールド座標系（鳥瞰図） [IPM-BEV]

3D空間情報を取得するには、LiDARを使用するのが最も直接的な方法です。一方、LiDAR によって出力される 3D ポイントクラウドは、障害物の距離とサイズ (3D オブジェクト検出) やシーンの深度 (3D セマンティックセグメンテーション) を取得するために直接使用できます。一方、3D ポイントクラウドを 2D 画像と融合して、2 つが提供するさまざまな情報を最大限に活用することもできます。ポイントクラウドの利点は、距離と奥行きを正確に認識できることであり、画像の利点は、より豊富な意味情報です。しかし、LiDAR には、コストが高い、車載グレードの製品の量産が難しい、天候の影響が大きいなどの欠点もあります。したがって、カメラのみに基づいた 3D 認識は、依然として非常に有意義で価値のある研究方向です。この記事の次のセクションでは、シングルカメラとデュアルカメラに基づく 3D 認識アルゴリズムについて詳しく紹介します。

単眼3D知覚

単一のカメラ画像に基づいて 3D 環境を認識することは不適切設定問題ですが、いくつかの幾何学的制約と事前の知識を使用してこのタスクを完了することができます。また、ディープニューラルネットワークを使用して、画像の特徴から 3D 情報を予測する方法をエンドツーエンドで学習することもできます。

物体検出

単一カメラによる 3D オブジェクト検出 (M3D-RPN からの画像)

画像の逆変換前述のように、画像は現実世界の 3D 座標から 2D 平面座標への投影です。したがって、画像から 3D オブジェクト検出を実行する最も直接的な方法は、2D 画像を 3D ワールド座標に逆変換し、ワールド座標系でオブジェクト検出を実行することです。理論的にはこれは不適切設定問題ですが、追加情報 (深度推定など) や幾何学的仮定 (ピクセルが地面の上にあるなど) の助けを借りて解決できます。 BEV-IPM[1]は、画像を透視図から鳥瞰図（BEV）に変換することを提案した。ここでは 2 つの仮定があります。1 つは、路面がワールド座標系と平行で高さがゼロであること、もう 1 つは、車両自体の座標系がワールド座標系と平行であることです。前者は路面が凹凸のある場合には満たされませんが、後者は車両姿勢パラメータ（ピッチとロール）を通じて修正することができ、これは実際には車両座標系とワールド座標系の調整です。現実世界では画像内のすべてのピクセルの高さがゼロであると仮定すると、ホモグラフィ変換を使用して画像を BEV ビューに変換できます。 BEV ビューでは、YOLO ネットワークベースの方法を使用して、ターゲットの下部ボックス、つまり路面と接触する部分の長方形を検出します。 Bottom Boxの高さはゼロなので、GroudTruthとしてBEVビューに正確に投影してニューラルネットワークをトレーニングできます。同時に、ニューラルネットワークによって予測されたBoxは、その距離も正確に推定できます。ここでの前提は、ターゲットが路面と接触している必要があるということであり、これは車両や歩行者のターゲットでは一般的に満たされます。

BEV-IPMのもう一つの逆変換方法は、正投影特徴変換（OFT）[2]を使用する。アイデアは、CNN を使用してマルチスケールの画像特徴を抽出し、これらの画像特徴を BEV ビューに変換し、最後に BEV 特徴に対して 3D オブジェクト検出を実行することです。まず、BEV視点で3Dグリッドを構築する必要があります（本稿の実験のグリッド範囲は80m×80m×4m、グリッドサイズは0.5mです）。各グリッドは、透視変換によって画像上の領域（簡単にするために長方形の領域として定義されます）に対応し、この領域内の画像特徴の平均がグリッドの特徴として使用され、3D グリッド特徴が得られます。計算量を削減するために、3D グリッドフィーチャを高さの次元で圧縮 (加重平均) して 2D グリッドフィーチャを取得します。最終的なオブジェクト検出は 2D グリッド機能に対して実行されます。 3D グリッドの 2D 画像ピクセルへの投影は 1 対 1 ではありません。複数のグリッドが隣接する画像領域に対応する場合があり、その結果、グリッド機能があいまいになります。そのため、検出対象となる物体はすべて路面上にあり、高さの範囲が非常に狭いことも想定する必要があります。そのため、本稿の実験で使用した 3D グリッドの高さはわずか 4 メートルであり、地上の車両や歩行者をカバーするには十分です。しかし、交通標識を検出する場合、物体が地面に近いことを前提とするこのような方法は適用できません。

正投影フィーチャ変換

上記の方法は両方とも、物体が地面の上にあるという仮定に基づいています。また、深度推定の結果を利用して疑似点群データを生成するというアイデアもある。代表的な研究としてはPseudo-LiDAR[3]がある。深度推定の結果は、一般的に追加の画像チャネル（RGB-D データに類似）と見なされ、画像ベースのオブジェクト検出ネットワークは、3D オブジェクト境界ボックスの生成に直接使用されます。著者は記事の中で、深度推定に基づく 3D オブジェクト検出の精度が LiDAR ベースの方法よりもはるかに劣る主な理由は、深度推定の精度が十分でないからではなく、データ表現方法に問題があるからだと指摘しています。まず、画像データでは遠くの物体の領域が非常に小さいため、遠くの物体の検出が非常に不正確になります。第二に、隣接するピクセル間の深度差が非常に大きい場合（オブジェクトのエッジなど）があり、畳み込み演算を使用して特徴を抽出すると問題が生じます。これら 2 つの点を考慮して、著者らは、入力画像を深度マップに基づいて LiDAR によって生成されるものと同様の点群データに変換し、点群と画像の融合アルゴリズム (AVOD や F-PointNet など) を使用して 3D オブジェクトを検出することを提案しました。疑似 LiDAR 方式は特定の深度推定アルゴリズムに依存せず、単眼または双眼からの深度推定を直接使用できます。この特殊なデータ表現方法により、疑似 LiDAR は 30 メートルの範囲内で物体検出の精度を 22% から 74% に向上させることができます。

実際のLiDARポイントクラウドと比較すると、疑似 LiDAR 方式では 3D オブジェクト検出の精度にまだ一定のギャップがあります。これは主に深度推定の精度が不十分なこと (双眼は単眼よりも優れています) によるもので、特にオブジェクト周囲の深度推定誤差が検出に大きな影響を与えます。そのため、疑似LiDARもそれ以来多くの拡張を遂げてきました。疑似LiDAR++[4]はロービームLiDARを使用して仮想点群を強化します。擬似Lidar End2End[5]は、F-PointNetのオブジェクトボックスの代わりにインスタンスセグメンテーションを使用します。 RefinedMPL[6]は前景点のみに仮想点群を生成し、点群の数を元の数の10%に減らし、誤検出の数とアルゴリズムの計算の複雑さを効果的に減らすことができます。キーポイントと 3D モデル自動運転アプリケーションでは、検出する必要のある多くのターゲット (車両や歩行者など) は、サイズと形状が比較的固定されており、既知です。この事前知識を使用して、ターゲットの 3D 情報を推定できます。 DeepMANTA[7]はこの方向における先駆的な研究の一つです。まず、Faster RNN などの従来の画像オブジェクト検出アルゴリズムを使用して 2D オブジェクトボックスを取得し、車両上の重要なポイントを検出します。次に、これらの 2D オブジェクトボックスとキーポイントをデータベース内のさまざまな 3D 車両 CAD モデルと照合し、最も類似性の高いモデルを 3D オブジェクト検出の出力として選択します。

ディープマンタ

3D-RCNN[8]は、画像に基づいてシーン内の各オブジェクトの3D形状と姿勢を回復するための逆グラフィックス法を提案した。基本的な考え方は、ターゲットの 3D モデルから開始し、パラメータ検索を通じて画像内のターゲットに最も一致するモデルを見つけることです。これらの 3D モデルには通常、多くの制御パラメータと大きな検索空間があるため、従来の方法では高次元パラメータ空間での最適解の検索がうまく機能しません。 3D-RCNN は PCA を使用してパラメータ空間の次元 (10-D) を削減し、ディープニューラルネットワーク (R-CNN) を使用して各ターゲットの低次元モデルパラメータを予測します。予測されたモデルパラメータを使用して各ターゲットの 2 次元画像または深度マップを生成することができ、GroudTruth データと比較して得られた損失を使用してニューラルネットワークの学習をガイドすることができます。この損失はレンダリングおよび比較損失と呼ばれ、OpenGL に基づいて実装されています。 3D-RCNN 方式では大量の入力データが必要であり、Loss の設計が比較的複雑であるため、エンジニアリングでの実装が困難です。 3D-RCNN MonoGRNet[9]は、単眼3D物体検出を4つのステップに分割することを提案し、これを使用して2D物体ボックス、物体の3D中心の深さ、物体の3D中心の2D投影位置、および8つのコーナーポイントの3D位置を予測します。まず、画像内の予測された 2D オブジェクトボックスが ROIAlign 操作を通じて処理され、オブジェクトの視覚的特徴が取得されます。これらの特徴は、オブジェクトの 3D 中心の深さと 3D 中心の 2D 投影位置を予測するために使用されます。これら 2 つの情報を使用して、オブジェクトの 3D 中心点の位置を取得できます。最後に、3D 中心の位置に基づいて、8 つのコーナーポイントの相対位置が予測されます。 MonoGRNet は、物体の中心のみをキーポイントとして利用し、2D と 3D のマッチングはポイント間の距離の計算であると考えられます。 MonoGRNetV2[10]は中心点を複数のキーポイントに拡張し、深度推定に3D CADオブジェクトモデルを使用します。これは、先に紹介したDeepMANTAや3D-RCNNと非常によく似ています。

MonoGRNet Monoloco[11]は主に3D歩行者検出の問題を解決します。歩行者は、より多様な姿勢や変形を持つ非剛体物体であるため、車両よりも検出が困難です。 Monoloco もキーポイント検出に基づいており、キーポイントの相対的な 3D 位置を使用して深度を推定できます。例えば、歩行者の肩から腰までの長さ 50 cm に基づいて歩行者の距離を推定できます。この長さを基準として使用する理由は、人体のこの部分は変形が最も少なく、最も高い精度で深度を推定できるためです。もちろん、他の重要なポイントも深度推定のタスクを完了するための補助として機能します。 Monoloco は、多層の完全接続ネットワークを使用して、歩行者と主要地点の位置との距離を予測し、予測の不確実性も提供します。

モノロコ

まとめると、上記の方法はすべて、2D 画像からキーポイントを抽出し、それを 3D モデルと照合して、ターゲットの 3D 情報を取得します。このタイプの方法では、ターゲットの形状モデルが比較的固定されていると想定されます。これは、車両の場合は一般的に問題ありませんが、歩行者の場合は比較的困難です。さらに、このような方法では、2D 画像上の複数のキーポイントにラベルを付ける必要があり、これにも非常に時間がかかります。 2D/3D幾何学的に制約されたDeep3DBox[12]は、この方向における初期の代表的な研究です。 3D オブジェクトボックスでは、中心、サイズ、方向を表す 9 つの次元変数が必要です (3D 方向はヨーに簡略化できるため、7 次元変数になります)。画像の 2D オブジェクト検出では、4 つの既知の変数 (2D 中心と 2D サイズ) を持つ 2D オブジェクトボックスを提供できますが、これは 7 または 9 の自由度を持つ変数を解決するには不十分です。 3 つの変数グループのうち、サイズと方向は視覚的特徴と比較的密接な関係があります。たとえば、物体の 3D サイズはそのカテゴリ (歩行者、自転車、自動車、バス、トラックなど) と高い相関関係があり、視覚的な特徴によって物体のカテゴリを予測できます。中心点の 3D 位置については、透視投影によって生じる曖昧さのため、視覚的な特徴だけで予測することは困難です。したがって、Deep3DBox では、まず 2D オブジェクトボックス内の画像特徴を使用して、オブジェクトのサイズと方向を推定することを提案します。次に、2D/3D 幾何拘束を使用して中心点の 3D 位置を解決します。この制約は、画像上の 3D オブジェクトボックスの投影が 2D オブジェクトボックスによってしっかりと囲まれること、つまり、3D オブジェクトボックスの少なくとも 1 つのコーナーポイントが 2D オブジェクトボックスの各エッジ上に見つかることです。以前に予測されたサイズと方向をカメラのキャリブレーションパラメータと組み合わせて使用することで、中心点の 3D 位置を解決できます。

2Dと3Dのオブジェクトボックス間の幾何学的制約（画像は参考文献[9]より）

2D/3D 制約を活用するこのアプローチでは、非常に正確な 2D オブジェクトボックス検出が必要です。 Deep3DBox のフレームワークでは、2D オブジェクトボックスの小さなエラーでも、3D オブジェクトボックスの予測が失敗する可能性があります。 Shift R-CNN [13]の最初の2つのステージはDeep3DBoxと非常によく似ており、どちらも2Dオブジェクトボックスと視覚的特徴を使用して3Dのサイズと方向を予測し、次に幾何学的制約を使用して3Dの位置を解きます。ただし、Shift R-CNN では、最初の 2 つのステージで取得した 2D オブジェクトボックス、3D オブジェクトボックス、カメラパラメーターを入力として組み合わせる 3 番目のステージが追加され、完全に接続されたネットワークを使用して、より正確な 3D 位置を予測します。

Shift R-CNN が2D/3D 幾何学的制約を使用する場合、上記の方法はすべて、一連のスーパー制約方程式を解くことによってオブジェクトの 3D 位置を取得します。このプロセスは後処理ステップであり、ニューラルネットワーク内にはありません。 Shift R-CNN の第 1 ステージと第 3 ステージも個別にトレーニングされます。 MVRA[14]は、この超制約方程式の解法プロセスをネットワークに組み込み、画像座標のIoU損失とBEV座標のL2損失を設計して、それぞれオブジェクトボックスと距離推定の誤差を測定し、エンドツーエンドのトレーニングの完了を支援しました。このように、オブジェクトの 3D 位置予測の品質は、以前の 3D サイズと方向の予測にもフィードバック効果をもたらします。 3D オブジェクトボックスを直接生成します。前に紹介した 3 つの方法はすべて 2D 画像から始まります。画像を BEV ビューに変換するもの、2D キーポイントを検出して 3D モデルと一致させるもの、2D および 3D オブジェクトボックスの幾何学的制約を使用するものなどがあります。さらに、密な 3D オブジェクト候補から始めて、2D 画像上の特徴を通じてすべての候補ボックスにスコアを付ける一連の方法があります。スコアの高い候補ボックスが最終出力になります。この戦略は、オブジェクト検出における従来のスライディングウィンドウ方式に多少似ています。 Mono3D[15]はこのタイプの代表的な手法である。まず、オブジェクトの以前の位置 (Z 座標は地面上) とサイズに基づいて、高密度の 3D 提案ボックスが生成されます。 KITTI データセットでは、フレームごとに約 40K (車両) または 70K (歩行者と自転車) の候補ボックスが生成されます。これらの 3D 候補ボックスは画像座標に投影された後、2D 画像上の特徴を使用してスコア付けされます。これらの特徴は、セマンティックセグメンテーション、インスタンスセグメンテーション、コンテキスト、形状、および場所の事前情報から得られます。これらすべての特徴を組み合わせて候補ボックスにスコアを付け、スコアの高いものが最終候補として選択されます。これらの候補は CNN を通じて再度スコア付けされ、最終的な 3D オブジェクトボックスが得られます。

Mono3D M3D-RPN[16]はアンカーベースの手法である。このメソッドは、それぞれ 2D および 3D オブジェクトボックスを表す 2D アンカーと 3D アンカーを定義します。 2D アンカーは画像上の高密度サンプリングによって取得され、3D アンカーのパラメータはトレーニングセットデータから得られた事前知識に基づいて決定されます。具体的には、各 2D アンカーは、IoU に従って画像に注釈が付けられた 2D オブジェクトボックスと照合され、対応する 3D オブジェクトボックスの平均を使用して 3D アンカーのパラメータが定義されます。 M3D-RPN は、標準的な畳み込み演算 (空間不変性) と深度を考慮した畳み込み演算の両方を使用することに留意してください。後者は、画像の行 (Y 座標) を複数のグループに分割し、各グループは異なるシーン深度に対応し、異なる畳み込みカーネルを使用して処理されます。

M3D-RPN におけるアンカー設計と深度を考慮した畳み込み

Mono3D と M3D-RPN は、ある程度の事前知識は利用しますが、依然として密なサンプリングに基づいてオブジェクト候補やアンカーを生成するため、必要な計算量が非常に大きく、実用性に大きく影響します。その後のいくつかの方法では、2 次元画像の検出結果を使用して検索空間をさらに縮小することが提案されました。 TLNet[17]は2次元平面上にアンカーを密に配置します。アンカー間隔は 0.25 メートル、方向は 0 度と 90 度、サイズはターゲットの平均です。画像上の 2 次元検出結果は、3 次元空間に複数の円錐を形成し、これを通じて背景の多数のアンカーをフィルタリングできるため、アルゴリズムの効率が向上します。フィルタリングされたアンカーは画像に投影され、ROI プーリング後に取得された特徴は、3D オブジェクトボックスのパラメータをさらに調整するために使用されます。

TLTNet SS3D[18]は、CenterNet構造に似たネットワークを使用して、オブジェクトカテゴリ、2Dオブジェクトボックス、3Dオブジェクトボックスなど、画像からさまざまな2Dおよび3D情報を直接出力し、より効率的なシングルステージ検出を採用しています。ここでの 3D オブジェクトボックスは、一般的な 9D または 7D 表現 (この表現は画像から直接予測することが困難) ではなく、画像から予測しやすく、距離 (1-d)、方向 (2-d、sin と cos)、サイズ (3-d)、および 8 つのコーナーポイントの画像座標 (16-d) など、より多くの冗長性を含む 2D 表現であることに注意してください。 2D オブジェクトボックスの 4D 表現と合わせて、合計 26D の機能が存在します。これらすべての特徴は、3D オブジェクトボックスを予測するために使用されます。予測プロセスは、実際には 26D の特徴に最も一致する 3D オブジェクトボックスを見つけることです。特別な点は、解決プロセスがニューラルネットワーク内で実行されるため、微分可能である必要があることです。これは、この記事の主なハイライトでもあります。 SS3D はシンプルな構造と実装のおかげで、最大 20FPS の速度で実行できます。

SS3D FCOS3D[19]も単一段階の検出方法ですが、SS3Dよりもシンプルです。 3D オブジェクトボックスの中心を 2D 画像に投影して 2.5D 中心 (X、Y、深度) を取得し、これを回帰ターゲットの 1 つとして使用します。さらに、回帰ターゲットには 3D のサイズと方向もあります。ここでの方向は、角度 (0-π) + 方位の組み合わせとして表されます。

FCOS3Dスモーク[20]

CenterNet に似た構造を通じて画像から 2D および 3D 情報を直接予測するという同様のアイデアも提案されました。 2D 情報には、画像上のオブジェクトのキーポイント (中心点とコーナーポイント) の投影位置が含まれ、3D 情報には、中心点の深さ、サイズ、方向が含まれます。画像の位置と中心点の深度を使用して、オブジェクトの 3D 位置を復元できます。各コーナーポイントの 3D 位置は、3D サイズと方向を通じて復元できます。上記で紹介したシングルステージネットワークのアイデアは、複雑な前処理 (画像逆変換など) や後処理 (3D モデルマッチングなど) を必要とせず、また正確な幾何学的制約 (2D オブジェクトボックスの各エッジで 3D オブジェクトボックスの少なくとも 1 つのコーナーポイントを見つけるなど) も必要とせずに、画像から 3D 情報を直接回帰することです。これらの方法では、さまざまなオブジェクトの実際の平均サイズや、2D オブジェクトのサイズと深さの間の対応関係など、少量の事前知識のみが使用されます。この事前知識により、オブジェクトの 3D パラメータの初期値が定義され、ニューラルネットワークは実際の値からの偏差を回帰するだけで済むため、検索空間が大幅に縮小され、ネットワーク学習の難易度が軽減されます。

深度推定

前のセクションでは、初期の画像変換、3D モデルマッチング、2D/3D 幾何学的制約から、最近の画像からの 3D 情報の直接予測に至るまで、単眼 3D オブジェクト検出の代表的な方法を紹介しました。この考え方の変化は、主に畳み込みニューラルネットワークの深度推定における進歩によるものです。これまでに紹介したシングルステージ 3D オブジェクト検出ネットワークのほとんどには、深度推定ブランチが含まれています。ここでの深度推定は密なピクセルレベルではなく疎なオブジェクトレベルのみですが、オブジェクトの検出には十分です。物体検出に加えて、自動運転の認識にはセマンティックセグメンテーションというもう一つの重要なタスクがあります。セマンティックセグメンテーションを 2D から 3D に拡張する最も直接的な方法の 1 つは、高密度の深度マップを使用して、各ピクセルにセマンティック情報と深度情報の両方を持たせることです。上記の 2 つの点を組み合わせると、単眼深度推定は 3D 認識タスクにおいて非常に重要な役割を果たします。前のセクションで紹介した 3D オブジェクト検出方法と同様に、完全畳み込みニューラルネットワークも高密度深度推定に使用できます。以下では、この方向性の現在の開発状況を紹介します。単眼深度推定の入力は画像であり、出力も画像（通常は入力と同じサイズ）であり、各ピクセル値は入力画像のシーン深度に対応します。このタスクは、セマンティックセグメンテーションの出力が各ピクセルのセマンティック分類である点を除いて、画像セマンティックセグメンテーションと多少似ています。もちろん、入力はビデオシーケンスにすることもでき、カメラやオブジェクトの動きによってもたらされる追加情報を使用して、深度推定の精度を向上させます (ビデオのセマンティックセグメンテーションに対応)。前述のように、2D 画像から 3D 情報を予測することは不適切な問題であるため、従来の方法では、幾何学情報や動き情報などの手がかりを使用して、手動で設計された特徴を通じてピクセル深度を予測します。セマンティックセグメンテーションと同様に、推定の精度を向上させるために、スーパーピクセル法や条件付きランダムフィールド (CRF) 法がよく使用されます。近年、ディープニューラルネットワークはさまざまな画像認識タスクで画期的な進歩を遂げており、深度推定も例外ではありません。多くの研究により、ディープニューラルネットワークは、手動で設計されたものよりも優れたトレーニングデータを通じて特徴を学習できることが示されています。このセクションでは、主にこの教師あり学習ベースの方法を紹介します。両眼視差情報、単眼デュアルピクセル差分情報、ビデオモーション情報などの使用など、その他の教師なし学習のアイデアについては、後で紹介します。この方向における初期の代表的な研究は、Eigenら[21]によって提案されたグローバルキューとローカルキューの融合に基づく方法である。単眼による奥行き推定の曖昧さは、主にグローバルスケールから生じます。たとえば、実際の部屋と記事で紹介されているおもちゃの部屋は、画像で見ると大きく異なっているように見えるかもしれませんが、実際の被写界深度は大きく異なります。これは極端な例ですが、実際のデータセットには部屋や家具のサイズのばらつきがまだあります。したがって、この方法では、画像に対して多層畳み込みとダウンサンプリングを実行してシーン全体の記述的特徴を取得し、それを使用してグローバル深度を予測することを提案します。次に、別のローカルブランチ (比較的高い解像度) を使用して、画像のローカル領域の深度を予測します。ここで、グローバル深度はローカルブランチへの入力として使用され、ローカル深度の予測に役立ちます。

グローバル情報とローカル情報の融合[21]参考文献[22]ではさらに、畳み込みニューラルネットワークによって出力されるマルチスケール特徴マップを使用して、異なる解像度の深度マップを予測することが提案されている（[21]には2つの解像度しかない）。これらの異なる解像度の特徴マップは、連続的な MRF を通じて融合され、入力画像に対応する深度マップが得られます。

マルチスケール情報融合[22]上記の両論文は、畳み込みニューラルネットワークを使用して深度マップを回帰しています。別のアイデアは、回帰問題を分類問題に変換することです。つまり、連続した深度値を離散的な間隔に分割し、各間隔をカテゴリとします。この方向の代表的な研究はDORN[23]である。 DORN フレームワークのニューラルネットワークもエンコードとデコードの構造ですが、デコードには完全接続層を使用し、特徴抽出には拡張畳み込みを使用するなど、細部に違いがあります。

DORN 深層分類前述のように、深度推定はセマンティックセグメンテーションタスクと類似点があるため、受容野のサイズも深度推定にとって非常に重要です。前述のピラミッドノットと拡張畳み込みに加えて、最近人気のトランスフォーマー構造はグローバル受容フィールドを備えているため、このようなタスクにも非常に適しています。文献[24]では、Transformerとマルチスケール構造を使用して、予測の局所的な精度と全体的な一貫性を同時に確保することを提案した。

高密度予測のためのトランスフォーマー

両眼3D知覚

画像内の事前知識やコンテキスト情報は活用できますが、単一目的の 3D 認識の精度は完全に満足できるものではありません。特にディープラーニング戦略を採用する場合、アルゴリズムの精度はデータセットのサイズと品質に大きく依存します。データセットに登場していないシーンの場合、アルゴリズムは深度推定とオブジェクト検出に大きな偏差を生じます。両眼視は遠近法の変換によって生じる曖昧さを解決できるため、理論的には 3D 知覚の精度を向上させることができます。ただし、双眼鏡システムには、ハードウェアとソフトウェアの両方において比較的高い要件があります。ハードウェアに関しては、正確に位置合わせされた 2 台のカメラが必要であり、車両の運転中は常に位置合わせが正確でなければなりません。ソフトウェアの観点から見ると、アルゴリズムは 2 台のカメラからのデータを同時に処理する必要があり、計算の複雑さが増し、アルゴリズムのリアルタイムパフォーマンスを確保することがさらに困難になります。一般的に、両眼視知覚に関する研究は単眼視知覚に比べて比較的少ないです。以下にいくつかの代表的な論文を取り上げ紹介します。さらに、AI Day で Tesla が実演した 360° 認識システムなど、システムアプリケーションレベルになりがちな多目的な作業もあります。

物体検出

3DOP[25]は、まずデュアルカメラからの画像を使用して深度マップを生成し、深度マップをポイントクラウドに変換し、次にそれをメッシュデータ構造に量子化し、これを入力として使用して3Dオブジェクト候補を生成します。候補を生成する際には、候補ボックス内の点群の密度が十分に大きいこと、高さが実際のオブジェクトと一致し、ボックスの外側の点群との高さの差が十分に大きいこと、候補ボックスとフリースペースの重なりが十分に小さいことなど、いくつかの直感と事前の知識が使用されます。これらの条件を経て、最終的に約 2K 個の 3D オブジェクト候補が 3D 空間でサンプリングされます。これらの候補は 2D 画像にマッピングされ、ROI プーリングを通じて特徴が抽出され、オブジェクトカテゴリを予測してオブジェクトボックスが調整されます。ここで入力される画像は、カメラからの RGB 画像、または深度マップです。一般的に、これは 2 段階の検出方法です。最初の段階では深度情報 (ポイントクラウド) を使用してオブジェクト候補を生成し、2 番目の段階では画像情報 (または深度) を使用してさらに改良を行います。理論的には、第 1 段階のポイントクラウド生成も LiDAR に置き換えることができるため、著者らは実験的な比較を実施しました。 LiDAR の利点は、距離を正確に測定できるため、小さな物体、部分的に遮蔽された物体、遠くにある物体に適しています。両眼視の利点は、点群の密度が高いため、近距離で遮蔽物が少なく、対象物が比較的大きい場合に効果的であることです。もちろん、コストと計算の複雑さを考慮せずに、2 つを組み合わせると最良の結果が得られます。

3DOP 3DOPは、前のセクションで紹介した擬似LiDAR[3]と似た考え方を持っています。どちらの方法も、高密度の深度マップ（単眼、双眼、さらにはローラインLiDARから）をポイントクラウドに変換し、ポイントクラウドオブジェクト検出の分野でアルゴリズムを適用します。画像から深度マップを推定し、深度マップからポイントクラウドを生成し、最後にポイントクラウドオブジェクト検出アルゴリズムを適用します。このプロセスのさまざまなステップは個別に実行され、エンドツーエンドでトレーニングすることはできません。 DSGN[26]は、左右の画像から始めて、平面スイープボリュームの中間表現を介してBEVビューの下で3D表現を生成し、深度推定と物体検出を同時に実行する単一段階のアルゴリズムを提案した。このプロセスのすべてのステップは微分可能であるため、エンドツーエンドのトレーニングが可能です。

DSGN深度マップは、実際には密な表現です。オブジェクト学習のために、シーン内のすべての位置で深さ情報を取得する必要はありませんが、対象の位置を推定する必要があります。単眼アルゴリズムを導入する際に、同様のアイデアが前に言及されました。 Stereo R-CNN [27]は、RPNフレームワークの下で2つのカメラからマップをスタックして、オブジェクト候補を生成します。ここで左カメラと右カメラの情報をリンクするための鍵は、注釈データの変更にあります。下の図に示すように、2つの左右の注釈ボックスに加えて、左右の注釈ボックスの結合も追加されています。左右のボックスのいずれかが0.7を超えるIOUが正のサンプルと見なされ、ユニオンボックスを備えたIOUが0.3未満であるアンカーは、負のサンプルと見なされます。ポジティブなアンカーは、同時に左右の注釈ボックスの位置とサイズを返します。オブジェクトボックスに加えて、この方法では、コーナーポイントも補助として使用します。このすべての情報を使用すると、3Dオブジェクトボックスを回復できます。

Stereo R-CNNは、シーン全体で密な深度推定を実行します。これは、オブジェクトの検出にマイナスの影響を与える可能性があります。たとえば、オブジェクトのエッジは背景と重複しており、シーン全体の大きな深さの範囲もアルゴリズムの速度に影響します。したがって、Stereo RCNNと同様に、論文[28]は、目的のオブジェクトでのみ深さを推定し、オブジェクト上の点雲のみを生成することも提案しました。これらのオブジェクト中心のポイントクラウドは、最終的にオブジェクトの3D情報を予測するために使用されます。

オブジェクト中心のステレオマッチング

深度推定

単眼の知覚アルゴリズムと同様に、深度推定も双眼知覚の重要なステップです。前のセクションでの両眼オブジェクト検出の導入から、多くのアルゴリズムがシーンレベルの深さ推定やオブジェクトレベルの深度推定を含む深度推定を使用していることがわかります。以下では、双眼深度推定の基本原則といくつかの代表的な作品を簡単に確認します。双眼深度推定の原理は、実際には非常に単純です。左右の画像の同じ3Dポイント間の距離dに基づいて3Dポイントの深さを推定します（2つのカメラが同じ高さにあると仮定して、カメラの焦点距離Fと距離B（ベースライン長）。双眼システムでは、FとBは固定されているため、距離d、つまり格差のみを推定する必要があります。各ピクセルについて、私たちがする必要があるのは、他の画像に一致するポイントを見つけることだけです。距離dの範囲は限られているため、マッチングの検索範囲も制限されています。可能なdごとに、各ピクセルでのマッチングエラーを計算できるため、コストボリュームと呼ばれる3次元エラーデータが取得されます。一致するエラーを計算する場合、ピクセルポイント近くのローカル領域は一般的に考慮されます。

MC-CNN [29]は、マッチングプロセスを2つの画像パッチ間の類似性を計算するものとして形式化し、ニューラルネットワークを介した画像パッチの特徴を学習します。データにラベルを付けることにより、トレーニングセットを構築できます。各ピクセルで、正のサンプルと負のサンプルが生成され、各サンプルは画像パッチのペアです。正のサンプルは、同じ3Dポイント（同じ深さ）の2つの画像パッチであり、負のサンプルは異なる3Dポイント（異なる深さ）の画像パッチです。ネガティブサンプルには多くの選択肢があります。正と負のサンプルを使用すると、類似性を予測するためにニューラルネットワークをトレーニングできます。ここでのコアのアイデアは、監督信号を使用してニューラルネットワークを導き、一致するタスクに適した画像機能を学習することです。

MC-CNN MC-NET

2つの主な欠点があります。1）コストボリュームの計算は、ローカル画像ブロックに依存します。 GC-Net [30]は、これら2つの側面を改善します。まず、セマンティック機能をより適切に抽出するために、左右の画像で多層畳み込みおよびダウンサンプリング操作が実行されます。視差レベルごと（ピクセル単位）で、左右の機能マップが整列されており（ピクセルオフセット）、連結してその格差レベルの特徴マップを取得します。格差レベルでのすべての機能マップは、4Dコストボリューム（高さ、幅、格差、機能）を取得するためにマージされます。コストボリュームには、単一の画像からの情報のみが含まれており、画像間に相互作用はありません。したがって、次のステップは、3D畳み込みを使用してコスト量を処理することです。これにより、左右の画像間の関連情報と異なる格差レベル間の情報を同時に抽出できます。このステップの出力は、3Dコストボリューム（高さ、幅、視差）です。最後に、最適な格差の価値を得るには、格差の側面にArgminを見つける必要がありますが、標準的なArgminを区別することはできません。 GC-NETはソフトヨークを使用して派生問題を解決するため、ネットワーク全体をエンドツーエンドのトレーニングできます。

GC-NET PSMNET [31]はGC-NETと非常によく似た構造を持っていますが、2つの側面で改善されています。1）ピラミッド構造と拡張畳み込みを使用して、多解像度情報を抽出し、受容フィールドを拡張します。グローバルな機能とローカル機能の融合のおかげで、コスト量の推定もより正確です。 2）複数の重ね合わせの時間ガラス構造を使用して、3D畳み込みを強化します。グローバル情報の使用はさらに強化されました。一般に、PSMNETはグローバル情報の利用を改善するため、格差の推定は、ピクセルレベルでのローカル情報ではなく、異なるスケールのコンテキスト情報に依存します。

PSMNETコストボリュームでは、格差レベルは（ピクセル単位）になっています。ただし、格差（深さ）値は実際には継続的である必要があり、離散ポイントを使用してそれを推定するとエラーが発生します。連続推定の概念はCDN [32]で提案され、離散点の分布に加えて各ポイントでオフセットを推定します。離散ポイントとオフセットは、連続的な格差推定を形成します。 CDN

<<: ついに誰かがROSロボットオペレーティングシステムをわかりやすく説明しました

>>: 2021年の量子コンピューティング研究開発の現状と将来展望