自動運転のための多視点視覚認識の理解

出力次元の観点から、視覚センサーに基づく知覚方法は、2D知覚と3D知覚に分けられます。

視覚システムは、センサーの数に基づいて、単眼システム、両眼システム、多眼システムにも分けられます。 2D 認識タスクでは通常、単眼システムが使用されますが、これはコンピュータービジョンとディープラーニングが最も密接に統合されている領域でもあります。しかし、自動運転の認識には最終的には 3D 出力が必要となるため、2D 情報を 3D に一般化する必要があります。

ディープラーニングが成功する前は、ターゲットの事前のサイズとターゲットが地面の上にあるという仮定に基づいてターゲットの深度（距離）を推測するか、モーション情報を使用して深度を推定するのが一般的でした（モーションステレオ）。ディープラーニングの助けを借りて、大規模なデータセットからシーンの手がかりを学習し、単眼深度推定を実行することが実現可能なソリューションになりました。ただし、このソリューションはパターン認識に大きく依存しており、データセット外のシナリオ (コーナーケース) を処理するのは困難です。たとえば、建設現場の特殊工事車両の場合、そのようなサンプルはデータベースにほとんど表示されないか、まったく存在しないため、視覚センサーはターゲットを正確に検出できず、その距離を判断できません。両眼システムは自然に視差を取得し、障害物までの距離を推定することができます。このシステムはパターン認識にあまり依存せず、ターゲット上で安定したキーポイントが得られればマッチングを完了し、視差を計算し、距離を推定することができます。しかし、双眼鏡方式には次のような欠点もあります。

まず、自動運転で事故を起こすことが多い大型の白いトラックのように、道路の真ん中に横たわっているなど、キーポイントが取得できない場合、視覚センサーは限られた視野内でキーポイントを捉えることが難しく、距離測定に失敗します。

第二に、両眼視覚システムではカメラ間のキャリブレーションに対する要件が非常に高く、通常、非常に正確なオンラインキャリブレーション機能が必要です。

最後に、双眼鏡システムは多くの計算を必要とし、より高い計算能力を持つチップでサポートされる必要があり、一般的に FPGA が使用されます。

双眼システムのコストは、単眼とライダーの中間です。現在、スバル、メルセデスベンツ、BMW など、一部の OEM は、さまざまなレベルの自動運転システムをサポートするために双眼ビジョンを使用し始めています。理論的には、双眼システムですでに 3D 情報を取得する問題を解決できますが、なぜ多眼システムがまだ必要なのでしょうか?

理由は大きく分けて2つあり、1つは赤外線カメラなど異なる種類のセンサーを追加することで、さまざまな環境条件への適応性を向上させること、もう1つは方向や焦点距離の異なるカメラを追加することでシステムの視野を広げることです。以下では、いくつかの典型的なマルチアイシステムを分析します。

01 モービルアイの3眼システム

固定焦点レンズの場合、検出距離と検出視野角は反比例します。視野角が広いほど検出距離が短くなり、精度は低くなります。視野角が狭いほど検出距離が長くなり、精度は高くなります。車載カメラでは頻繁なズームが難しく、検出距離や視野は固定されているのが一般的です。

マルチアイシステムは、異なる焦点距離のカメラを通じてさまざまな範囲のシーンをカバーできます。たとえば、Mobileye と ZF が共同で発表した 3 眼システムには、150° の広角カメラ、52° の中距離カメラ、28° の望遠カメラが含まれています。最大検知距離は300メートルに達し、中・近距離でも検知視野と精度を確保でき、車両周囲の環境を検知し、車両前方に突然現れた物体を速やかに検知するために使用されます。

MobileyeとZFの3眼カメラ

この 3 つの目によるシステムの主な難しさは、重なり合う領域における一貫性のない知覚結果にどのように対処するかということです。異なるカメラは同じシーンに対して異なる認識を与えるため、どのカメラを信頼するかを決定するには、後続の融合アルゴリズムが必要になります。カメラによって誤差範囲が異なるため、さまざまな状況での決定を定義する合理的なルールを設計することが難しく、融合アルゴリズムに大きな課題をもたらします。この記事の後半で紹介するように、マルチアイシステムでは、ディープラーニングと大規模なデータセットを使用して融合ルールを学習し、データレイヤー融合を使用することもできます。もちろん、機械学習に任せれば全てうまくいくというわけではありません。ブラックボックスのディープニューラルネットワークは、説明が難しい出力を出すこともあります。

02 フォーサイトの4眼知覚システム

マルチアイシステムのもう 1 つのアイデアは、赤外線カメラなどの異なる帯域のセンサーを追加することです (実際、LIDAR やミリ波レーダーも異なる帯域のセンサーです)。イスラエルの企業であるForesightは、4眼知覚システム（QuadSight）を設計し、実証しました。 QuadSight は、可視光双眼カメラをベースに、長波赤外線 (LWIR) カメラのペアを追加して、検出範囲を可視光帯域から赤外線帯域まで拡張します。赤外線帯域の追加により、情報量が増えるだけでなく、夜間環境や雨天、霧天への適応性も向上し、システムの24時間稼働が可能になります。

QuadSight システムのカメラは視野角が 45 度で、最大 150 メートルの距離を検出できます。100 メートルの距離内にある 35 x 25 cm の大きさの物体を検出できます。走行速度は毎秒45フレームに達し、高速運転のシナリオにも十分対応できます。

フォーサイトのQuadSight 4眼システム

QuardSight システムは 2 組の双眼鏡システムで構成されています。上の写真からわかるように、赤外線双眼カメラはフロントガラスの左右に設置されており、その基線長は一般的な双眼システムよりもはるかに長くなっています。ここで話題を逸れて、両眼システムの基線長の問題について議論しましょう。

従来の双眼鏡システムでは、一般的にショートベースラインモードが使用されています。つまり、2 台のカメラ間の距離が比較的短く、最大検出距離が制限されます。物体が遠くにある場合、左右の画像の視差は 1 ピクセル未満となり、その奥行きを推定することはできません。これをベースライン制約と呼びます。これはすでに限界ケースです。実際、遠方のターゲットの場合、視差が 1 ピクセルより大きい場合でも、深度推定の誤差は依然として非常に大きくなります。一般的に言えば、深度推定の誤差は距離の二乗に比例するはずです。

双眼鏡システムの有効検出距離を改善するための直感的な解決策は、基線長を増やして視差の範囲を広げることです。 NODARが発表したHammerhead技術は、超長距離で2台のカメラによるワイドベースライン構成を実現し、最大1,000メートルの検出距離を実現し、高密度のポイントクラウドを生成することができます。このシステムは、例えばサイドミラー、ヘッドライト、またはルーフの両側にカメラを設置することで、車両の幅を有効活用することができます。

ハンマーヘッドテクノロジーのワイドベースライン構成

03 テスラのサラウンドビュー認識システム

3眼カメラと4眼カメラの例を分析した後、この記事の焦点である多目的パノラマ認識システムに移りましょう。ここで使用する例は、2021 年の AI Day での Tesla による純粋に視覚的な FSD (完全自動運転) システムのデモンストレーションです。まだL2レベル（ドライバーはいつでも車両を操作できるように準備しておく必要がある）としか考えられませんが、L2レベルの自動運転システムと横並びで比較するだけでは、FSDのパフォーマンスは依然として良好です。また、このピュアビジョンソリューションは、近年のディープラーニング分野での多くの成功体験を統合しており、マルチカメラフュージョンにおいて非常にユニークです。個人的には、少なくとも技術面では研究する価値があると思います。

テスラFSDシステムのマルチカメラ構成

ここで少し脱線して、テスラの AI およびビジョン部門の責任者である Andrej Karpathy についてお話ししたいと思います。この人物は 1986 年生まれで、2015 年にスタンフォード大学で博士号を取得しました。コンピュータービジョンと機械学習の巨匠である Fei-Fei Li 教授のもとで学びました。彼の研究分野は、自然言語処理とコンピュータービジョンの交差点と、そこにおけるディープニューラルネットワークの応用です。マスク氏は2016年にこの若き才能をチームに迎え入れ、後にテスラのAI部門の責任者に任命した。同氏はFSDピュアビジョンシステムの主任アルゴリズム設計者だ。

アンドレイ氏は AI Day での報告で、5 年前にテスラの視覚システムが最初に単一の画像で検出結果を取得し、それをベクトル空間にマッピングしたことを初めて言及しました。この「ベクトル空間」は、レポートの中核概念の一つです。実際には、環境内のさまざまなターゲットを世界座標系で表現した空間であると理解しています。たとえば、物体検出タスクの場合、3D 空間におけるターゲットの位置、サイズ、方向、速度などの記述特性がベクトルを形成し、すべてのターゲットの記述ベクトルで構成される空間がベクトル空間です。視覚知覚システムの役割は、画像空間の情報をベクトル空間の情報に変換することです。これは 2 つの方法で実現できます。1 つは、最初に画像空間ですべての認識タスクを完了し、次にその結果をベクトル空間にマッピングし、最後に複数のカメラの結果を融合する方法です。もう 1 つは、最初に画像の特徴をベクトル空間に変換し、次に複数のカメラの機能を融合し、最後にすべての認識タスクをベクトル空間で完了する方法です。

Andrej 氏は、最初のアプローチが不適切である理由について 2 つの例を挙げました。まず、透視投影のため、画像内で知覚的に良く見えるものでも、特に遠方の領域ではベクトル空間での精度が低くなる可能性があります。下の図に示すように、車線（青）と道路端（赤）の位置はベクトル空間に投影された後は非常に不正確であり、自動運転をサポートするアプリケーションでは使用できません。

画像空間における知覚結果（上）とベクトル空間におけるその投影（下）

第二に、マルチカメラシステムでは、視野の制限により、単一のカメラでは対象全体を確認できない場合があります。例えば、以下の例では、一部のカメラの視野内に大型トラックが映っていますが、多くのカメラは対象物の一部しか捉えていないため、不完全な情報に基づいて正しい検出を行うことは不可能であり、その後の融合効果は保証されません。これは実際には、マルチセンサーの意思決定レベルの融合の一般的な問題です。

単一カメラの視野が限られている

上記の分析に基づくと、画像空間認識 + 決定レイヤーの融合は適切なソリューションではありません。ベクトル空間で直接融合と知覚を完了すると、上記の問題を効果的に解決できます。これは、FSD知覚システムの中核的なアイデアでもあります。このアイデアを実現するには、2 つの重要な問題を解決する必要があります。1 つは、画像空間から特徴空間に特徴を変換する方法であり、もう 1 つは、ベクトル空間でラベル付きデータを取得する方法です。

特徴の空間変換

特徴の空間変換の問題は、3D 認識に関する前回の記事で紹介されました。一般的なアプローチは、カメラのキャリブレーション情報を使用して、画像ピクセルをワールド座標系にマッピングすることです。しかし、これは不適切な問題であり、特定の制約が必要です。地上平面制約は通常、自動運転アプリケーションで使用され、つまり、ターゲットは地面にあり、地面は水平です。この制約は強すぎるため、多くのシナリオでは満たすことができません。

テスラのソリューションには3つの核となるポイントがあります。

まず、Transformer と Self-Attention を通じて、画像空間とベクトル空間の対応関係を確立します。ここでは、ベクトル空間の位置エンコーディングが非常に重要な役割を果たします。ここでは具体的な実装の詳細については触れませんが、今後詳細な紹介を記載した別の記事を書く予定です。簡単に言えば、ベクトル空間内の各位置の特徴は、画像内のすべての位置の特徴の重み付けされた組み合わせと見なすことができます。もちろん、対応する位置の重みは間違いなく大きくなります。ただし、この加重結合プロセスは、手動設計を必要とせずに、Self-Attention と空間エンコーディングを通じて自動的に実装され、完了する必要のあるタスクに基づいてエンドツーエンドで学習できます。

第二に、大量生産アプリケーションでは、各車両のカメラのキャリブレーション情報が異なるため、入力データと事前トレーニング済みモデルの間に不一致が生じます。したがって、このキャリブレーション情報は、追加入力としてニューラルネットワークに提供する必要があります。シンプルなアプローチは、各カメラのキャリブレーション情報を連結し、MLP を通じてエンコードしてから、ニューラルネットワークに入力することです。ただし、より良い方法は、キャリブレーション情報を使用して異なるカメラからの画像を修正し、異なる車両の対応するカメラが一貫した画像を出力するようにすることです。

最後に、ビデオ (マルチフレーム) 入力を使用してタイミング情報を抽出し、出力結果の安定性を高め、遮蔽されたシーンをより適切に処理し、オブジェクトの動きを予測します。この部分には、ニューラルネットワークがさまざまな時点で特徴マップを整列させるのをサポートするための、車両自体の動作情報 (IMU を通じて取得可能) という追加の入力もあります。時系列情報の処理は、3D 畳み込み、Transformer、または RNN によって実行できます。 FSD ソリューションは RNN を使用します。私の個人的な経験では、これは確かに精度と計算の複雑さのバランスの点で最良のソリューションです。

上記のアルゴリズムの改善により、ベクトル空間における FSD の出力品質が大幅に向上しました。以下の比較図では、左下側は画像空間認識 + 決定層融合ソリューションからの出力を示し、右下側は上記の特徴空間変換 + ベクトル空間認識融合ソリューションを示しています。

画像空間認識（左下）とベクトル空間認識（右下）

ベクトル空間でのラベル付け

ディープラーニングアルゴリズムなので、当然データとラベル付けが重要なリンクとなります。画像空間でのラベル付けは非常に直感的ですが、システムでは最終的にはベクトル空間でのラベル付けが必要になります。 Tesla のアプローチは、複数のカメラからの画像を使用して 3D シーンを再構築し、3D で注釈を付けることです。注釈者は 3D シーンで一度注釈を付けるだけで、各画像における注釈結果のマッピングをリアルタイムで確認し、それに応じて調整を行うことができます。

3D空間での注釈

手動ラベリングは、ラベリングシステム全体の一部にすぎません。より速く、より優れたラベリングを実現するには、自動ラベリングとシミュレーターも必要です。自動注釈システムは、まず単一のカメラからの画像に基づいて注釈結果を生成し、次にさまざまな空間的および時間的な手がかりを通じてこれらの結果を統合します。比喩的に言えば、すべてのカメラが集まって一貫したラベル付け結果を議論することになります。複数のカメラの連携に加え、道路上の複数のテスラ車両を統合して、同じシーンの注釈を改善することもできます。もちろん、異なる車両の出力結果を空間的に調整するために、車両の位置と姿勢を取得するために、GPS センサーと IMU センサーも必要です。自動ラベル付けはラベル付けの効率性の問題を解決できますが、レポートで示されているように高速道路を走る歩行者などのまれなシナリオでは、シミュレータを使用して仮想データを生成する必要があります。上記のすべてのテクノロジーを組み合わせることで、テスラの完全なデータ収集およびラベリングシステムが構成されます。

<<: AI の創造性を解き放つ: Replicate プラットフォーム上のトップ AI プロジェクト!

>>: ChatGPTを忘れてください。この新しいAIアシスタントは人々の働き方を永遠に変えるでしょう