テスラとモメンタの「自動運転アルゴリズム」の秘密を研究した

現在、自動運転技術は研究室を抜け出し、量産段階に入っており、大手自動車メーカーや部品サプライヤー、ハイテク企業がしのぎを削って参入する分野にもなっており、競争はかつてないほど熾烈になっている。

現在の自動運転技術の普及は、主に次の 2 つの要因に依存しています。

消費者側における高計算能力コンピューティングプラットフォームによって達成されたブレークスルーは、人工知能の分野に基本的な計算能力を提供しました。
ディープラーニングは、自動運転の視覚認識の基礎でもあるコンピュータービジョンの分野で飛躍的な進歩を遂げました。

現在、NVIDIA、Qualcomm、Mobileye、Horizon、Huaweiの自動運転チップをベースにしたマルチチップ統合により開発されたコンピューティングプラットフォームの総合的なコンピューティングパワーは数千トップに達しており、高レベルの自動運転にコンピューティングパワーを保証しています。

しかし、アルゴリズムとコンピューティング能力の間では、テクノロジーは深く結びついており、相互に強化し合っています。Ambarella Semiconductor ChinaのゼネラルマネージャーであるFeng Yutao氏は次のように述べています。

「自動運転に必要なコンピューティングパワーは、無限に拡大するわけではありません。アルゴリズムとデータ機能の発達とともに成長します。各社の現在のアルゴリズム技術については、市場で主流の高性能チップで十分であり、アルゴリズムが次の競争の焦点になります。アルゴリズム、データ、コンピューティングパワーの結合がボトルネックに達しない限り、よりコンピューティングパワーの高いプラットフォームを構築することは理にかなっています。」

CICCは1月27日、「人工知能の10年展望（第3部）：AIの観点から見た自動運転産業の徹底分析」と題する調査レポートを発表した。報告書は「ディープラーニングは自動運転技術開発の分岐点であり、根底にある原動力だ。アルゴリズムはメーカーが今後注力すべき中核的な能力だ。同時に、データは自動運転の量産能力を決定づける要因だ」と指摘した。

つまり、コンピューティングパワー性能は安定した発展段階に達しており、「アルゴリズム能力＋データ能力」が自動運転分野における企業間の競争に勝つための鍵となるだろう。

01 多層ニューラルネットワークの技術動向

視覚認識における技術革新により、他のセンサー（LIDAR やミリ波レーダーなど）の認識アルゴリズムやマルチセンサー融合アルゴリズムの進歩がさらに促進されました。一方、ディープラーニングにおける強化学習アルゴリズムも意思決定システムにおいて非常に重要な役割を果たします。

ディープラーニングアルゴリズムの場合、アルゴリズム自体の機能に加えて、高品質で大規模なトレーニングデータもアルゴリズムの成功の重要な要素となります。したがって、データをいかに効率的に収集し、ラベル付けするかは、あらゆる自動運転企業にとって非常に現実的な課題です。

データ収集に関しては、大量生産を目標とする企業には固有の利点があります。道路上には数十万台、あるいは数百万台の車両が走っており、それぞれの車両が豊富な道路状況データを継続的に提供し、それらが合わさって大規模な自動運転データベースを形成します。

対照的に、L4 レベルをターゲットとする企業は、データ収集のために限られた数のテスト車両にしか依存できません。現在、最大規模の路上テストを行っているウェイモは、テスト車両を数百台しか保有していないため、データ収集の規模は当然比較にならない。

膨大な量のデータがあれば、問題は解決するのでしょうか?

明らかにそれはそれほど単純ではありません。

ディープニューラルネットワークはビッグデータに依存していますが、大量のデータを学習するネットワーク構造の違いによる能力には依然として大きな違いがあります。最も初期の多層パーセプトロン構造ネットワークには数層しかなく、ネットワークの学習能力を飽和させるには少量のデータしか必要ありませんでした。

近年提案されている畳み込みニューラルネットワーク（CNN）は、数十層から数百、さらには数千層へと深度が増しており、ネットワークトレーニングの品質を確保するには大規模なトレーニングデータが必要です。

しかし、単に層を積み重ねるだけではうまくいきません。このとき、ディープラーニングの分野で非常に重要な技術であるResNet（ディープ残差ネットワーク）が登場しました。これは、浅い層から深い層に情報を直接送信できるように追加の接続を追加し、ネットワーク層間で情報が送信されるときの情報の損失を減らすことを提案しました。この技術により、畳み込みニューラルネットワークはより深い構造を持ち、大規模データをより有効に活用できるようになります。

ResNet テクノロジは利用可能ですが、データ規模が一定程度まで増加すると、深層畳み込みニューラルネットワークのパフォーマンス向上は非常に制限され、つまり飽和傾向が見られます。これは、ニューラルネットワークの学習能力にはまだ一定のボトルネックがあることを示しています。

2017 年頃から、新しいタイプのニューラルネットワーク構造、つまり注目メカニズムに基づく有名な Transformer ネットワークが研究者から広く注目を集め始めました。

Transformer は、連続したテキストデータを処理するために、自然言語処理 (NLP) の分野で最初に使用されました。

Google チームが提案した単語ベクトル生成用の BERT アルゴリズムは、11 の NLP タスクで大幅な改善を達成しており、BERT アルゴリズムの最も重要な部分は Transformer です。

Transformer は、自然言語処理の分野で広く使用された後、「画像分類、物体検出」など多くの視覚タスクにもうまく移植され、良好な成果を上げています。 Transformer は大量のデータに対しても大幅なパフォーマンス向上を実現できるため、学習能力の飽和範囲が広くなります。

研究によると、トレーニングデータセットが 1 億枚の画像を含むようになると、Transformer のパフォーマンスが CNN を上回り始めることがわかっています。画像の数が 10 億に増加すると、両者のパフォーマンスの差はさらに大きくなります。

上記は、異なるサイズのトレーニングセットで ResNet (CNN) と ViT (Transformer) によって達成された画像分類精度です。データ量が 1,000 万の場合、Transformer の精度は CNN よりはるかに低くなりますが、データ量が 1 億に増加すると、Transformer は CNN を上回り始めます。

また、CNN ネットワークはデータ量が 1 億を超えると飽和傾向を示しますが、Transformer の精度は向上し続けています。

簡単に言えば、 Transformer は大量のデータを処理する能力において、大きな冗長性の利点を持っています。

だからこそ、データ収集に強みを持つ量産型の自動運転企業は、認識アルゴリズムの本体としてTransformerを選択する傾向が自然と高まるのです。

2021年夏、テスラの自動運転技術責任者であるアンドレイ・カルパシー博士はAIデーでFSD自動運転システムに使用されているアルゴリズムを公開しましたが、Transformerは最も重要なコアモジュールの1つです。国内では、Momenta は Transformer ニューラルネットワークを大量のデータと効果的に統合することも提案しています。

2021年末、Momenta CEOのGu Weihao氏はMomenta AI DayでMANA（Snow Lake）データインテリジェンスシステムを発表しました。 MANA システムには、視覚データに加えて、LIDAR データも含まれています。

また、Transformerニューラルネットワークモデルに基づいて、空間、時間、センサーの3次元を統合し、認識アルゴリズムの精度を向上させます。

自動運転技術の現在の発展動向を理解した後、次の部分では、まずTransformerの設計動機と動作メカニズムを簡単に紹介し、次にTeslaとMomentaの技術ソリューションを詳細に解釈します。

02 トランスフォーマーニューラルネットワーク

Transformer について話す前に、まず「機械翻訳、注意メカニズム」という概念を理解する必要があります。

機械翻訳

機械翻訳は、大まかに言えば、「現代のコンピュータを使用して人間の知的活動をシミュレートし、言語間で自動的に翻訳する」と理解できます。

翻訳といえば、自然言語処理（NLP）分野における機械翻訳の応用について触れなければなりません。簡単に言えば、「1つの文を入力し、別の文を出力する」ということです。後者は、他の言語での前者、たとえば「自転車を自転車に翻訳する」である可能性があり、同じ言語での前者のキーワード表現、たとえば「二輪車に乗る」である可能性もあります。

エンジニアは数学関数を使用して「翻訳」プロセスのモデルを設計しました。このモデルは、私たちが通常「ニューラルネットワーク」として理解しているものです。

Transformer が登場する前は、シーケンスの翻訳を完了するために、一般的にはリカレントニューラルネットワーク RNN に基づく「エンコーダー - デコーダー」構造が使用されていました。

いわゆるシーケンス変換は、「シーケンスを入力して別のシーケンスを出力する」ことです。たとえば、中国語から英語への翻訳では、入力シーケンスは中国語で表現された文であり、出力シーケンスは対応する英語表現です。

RNN ベースのアーキテクチャの明らかな欠点は、RNN が情報を 1 つずつシリアル化して処理する必要があるシーケンスモデルであることです。アテンションウェイトは、シーケンス全体がモデルに入力されるまで待機してから決定する必要があります。簡単に言えば、RNN はシーケンスを「最初から最後まで」読み取る必要があります。

例えば：

「銃に弾倉が詰まっている」という翻訳問題に直面したとき、「Magazine」は「雑誌」と訳すべきでしょうか、「magazine」と訳すべきでしょうか？
「銃」という単語を見たときに、「Magazine」を「マガジン」と翻訳して確認しました。 RNN ベースの機械翻訳モデルでは、マガジンからガンまでのすべての単語を段階的に順番に処理する必要があります。単語が離れている場合、RNN に保存されている情報は継続的に希釈され、翻訳効果が不十分になることが多く、効率が非常に低くなります。

このアーキテクチャでは、トレーニングと推論の両方で多くの時間のオーバーヘッドが発生し、並列処理を実現することが困難です。このとき、エンジニアは標準の RNN モデルに「注意メカニズム」を追加するという解決策を思いつきました。

注意メカニズムとは何ですか?

「ディープラーニングにおける注意メカニズムは、人間の脳の注意メカニズムに由来しています。人間の脳は、視覚情報や聴覚情報などの外部情報を受け取ると、多くの場合、すべての情報を処理して理解するのではなく、重要な情報や興味深い情報にのみ焦点を当てます。これにより、重要でない情報がフィルタリングされ、情報処理の効率が向上します。」

注意メカニズムを備えたモデルは、入力されたすべての単語を一度に「認識」し、注意メカニズムを使用して距離の異なる単語を組み合わせて、シーケンス内の各要素のグローバルコンテキストを提供します。

Google チームはこの新しいモデルに「トランスフォーマー」という有名な名前を付けました。

シーケンスデータの処理に一般的に使用されるリカレントニューラルネットワーク (RNN) とは異なり、Transformer のアテンションメカニズムはデータを順番に処理しません。つまり、各要素はシーケンス内のすべての要素に接続されているため、時間的にどれだけ離れていても要素間の相関関係が適切に保持されます。

この種の長期的な相関関係は、通常、自然言語処理タスクにとって非常に重要です。例えば、下の図では、文中の「it」は「The animal」を指していますが、2 つの要素は離れているため、RNN を使用してこれらを順番に処理すると、2 つの要素間の接続を確立することが困難です。

文中の単語間の相関関係

Transformer は順序を気にしません。関連性を計算する際、各要素の重要度はデータ自体の意味情報に基づいて計算されます。したがって、任意の距離の要素間の相関関係を簡単に抽出できます。

なぜそんなことを言うのですか？

なぜなら、画像分類や物体検出などの視覚タスクでは、注意メカニズムを備えた Transformer モデルの結果が予想以上に良好だからです。

自然言語の分野から派生したアルゴリズムが視覚にも適用できるのはなぜでしょうか?

主な理由は2つあります。

画像自体は時系列データではありませんが、空間シーケンスと見なすことができます。視覚タスクの重要なステップは、ピクセル間の相関関係を抽出することです。通常の CNN は、畳み込みカーネルを通じてローカル相関関係 (ローカル受容野とも呼ばれます) を抽出します。 CNN のローカル受容野とは異なり、Transformer はグローバル受容野を提供できます。そのため、特徴学習能力はCNNよりもはるかに高くなります。
ビデオ入力データをさらに考慮すると、それ自体が時系列データであるため、Transformer 処理により適しています。

画像分類におけるトランスフォーマーの応用

図 3 の例では、Transformer が画像分類のタスクに使用されています。画像はいくつかの小さなブロックに均等に分割され、空間配置順に画像ブロックのシーケンスを形成します。各画像ブロックのピクセル値（またはその他の特徴）は、画像ブロックの特徴ベクトルを構成します。Transformerエンコードとスプライシングの後、画像全体の特徴が得られます。

上図の右側はエンコーダの具体的な構造を示しており、そのキーとなる部分は「マルチヘッドアテンションモジュール」です。

簡単に言えば、マルチヘッドアテンションは、実際には複数のアテンションメカニズムモジュールの統合です。これらのモジュールは独立してエンコードされ、さまざまな側面から特徴を抽出します。エンコード機能を高めると同時に、コンピューティングチップ上で非常に効率的に並列処理を実現することもできます。

要約すると、CICC のレポート「人工知能の 10 年の展望 (III): AI の観点から見た自動運転産業の徹底分析」では、次のように述べられています。

Transformer は「空間-時間」次元でのモデリングをうまく実行できるため、Tesla や Momenta などの業界リーダーは現在、Transformer を使用して、認識側でのモデルパフォーマンスを向上させています。
テスラは、従来のResNetを使用して、車体周囲に設置された8台のカメラからのビデオから画像の特徴を抽出し、Transformer CNNと3D畳み込みの1つ以上の組み合わせを使用してクロステンポラル画像融合を完了し、2D画像に基づく3D情報出力を実現しています。

Momenta の AI チームは、車線検出、障害物検出、走行可能エリアのセグメンテーション、信号機の検出と認識、道路標識の検出、ポイントクラウドの検出とセグメンテーションなど、実際の道路認識の問題に Transformer ベースの認識アルゴリズムを徐々に適用しています。

03 テスラのFSDシステムの解釈

アンドレイ博士は、5年前のテスラAIデーで、テスラのビジョンシステムがまず単一の画像で検出結果を取得し、それをベクトル空間にマッピングしたことを初めて言及しました。

この「ベクトル空間」は、AI Day の中心的な概念の 1 つです。実際には、世界座標系における環境内のさまざまなターゲットの表現空間です。

たとえば、「物体検出タスクの場合、3D 空間におけるターゲットの位置、サイズ、方向、速度などの記述特性はベクトルを形成し、ターゲットのすべての記述ベクトルで構成される空間はベクトル空間です。」

視覚知覚システムの役割は、画像空間の情報をベクトル空間の情報に変換することです。

これは通常、次の 2 つの方法で実現できます。

まず、画像空間ですべての認識タスクを完了し、次に結果をベクトル空間にマッピングし、最後に複数のカメラの結果を融合します。
まず、画像の特徴がベクトル空間に変換され、次に複数のカメラからの機能が融合され、最後にすべての認識タスクがベクトル空間で完了します。

Andrej 氏は、最初のアプローチが不適切である理由について 2 つの例を挙げました。

まず、透視投影のため、画像内で知覚的に良く見えるものでも、特に遠方の領域ではベクトル空間での精度が低くなる可能性があります。下の図に示すように、車線（青）と道路端（赤）の位置はベクトル空間に投影された後は非常に不正確であり、自動運転をサポートするアプリケーションでは使用できません。

画像空間における知覚結果（上）とベクトル空間におけるその投影（下）

第二に、マルチカメラシステムでは、視野の制限により、単一のカメラでは対象全体を確認できない場合があります。例えば、以下の例では、一部のカメラの視野内に大型トラックが映っていますが、多くのカメラは対象物の一部しか捉えていないため、不完全な情報に基づいて正しい検出を行うことは不可能であり、その後の融合効果は保証されません。これは実際には、マルチセンサーの意思決定レベルの融合の一般的な問題です。

単一カメラの視野が限られている

上記の分析に基づくと、画像空間知覚 + 決定レイヤーの融合は良い解決策ではありません。

さらに、ベクトル空間で直接融合と知覚を完了することで、上記の問題を効果的に解決できます。これは、FSD知覚システムの中核的なアイデアでもあります。

このアイデアを実現するには、2 つの重要な問題を解決する必要があります。1つ目は、特徴を画像空間からベクトル空間に変換する方法、2 つ目は、ベクトル空間でラベル付きデータを取得する方法です。

特徴の空間変換

特徴の空間変換問題に対する一般的なアプローチは、 「カメラのキャリブレーション情報を使用して、画像ピクセルをワールド座標系にマッピングする」です。

しかし、これには条件付きの問題があり、特定の制約が必要です。自動運転アプリケーションでは、通常、地面平面制約が使用されます。つまり、ターゲットは地面にあり、地面は水平です。この制約は強すぎるため、多くのシナリオでは満たすことができません。

テスラのソリューションには 3 つの核となるポイントがあります。

まず、Transformer と自己注意を通じて画像空間とベクトル空間の対応を確立します。簡単に言えば、ベクトル空間内の各位置の特徴は、画像内のすべての位置の特徴の重み付き組み合わせとみなすことができます。
もちろん、対応する位置の重みは間違いなく大きくなりますが、この重み付けされた組み合わせプロセスは、自己注意と空間エンコーディングを通じて自動的に実装されます。手動設計は必要なく、完了する必要のあるタスクに基づいてエンドツーエンドで学習できます。
第二に、量産車では各車のカメラのキャリブレーション情報が異なるため、入力データと事前トレーニング済みモデルの間に不一致が生じます。したがって、このキャリブレーション情報は、追加の入力としてニューラルネットワークに提供する必要があります。
単純なアプローチとしては、各カメラのキャリブレーション情報を連結し、ニューラルネットワークを通じてエンコードしてから、ニューラルネットワークに入力する方法がありますが、より優れたアプローチとしては、キャリブレーション情報を使用して異なるカメラからの画像を修正し、異なる車両の対応するカメラが一貫した画像を出力するようにする方法があります。
3 番目に、ビデオ (マルチフレーム) 入力を使用してタイミング情報を抽出し、出力結果の安定性を高め、遮蔽されたシーンをより適切に処理し、ターゲットの動きを予測します。
この部分には、車両自身の動作情報（IMU を通じて取得可能）という追加の入力もあり、ニューラルネットワークがさまざまな時点で特徴マップを整列させるのをサポートします。時間情報の処理には、3D 畳み込み、Transformer、または RNN を使用できます。

画像空間認識（左下）とベクトル空間認識（右下）

上記のアルゴリズムの改善により、ベクトル空間における FSD の出力品質が大幅に向上しました。以下の比較図では、左下側が画像空間認識 + 決定層融合ソリューションからの出力であり、右下側が上記の特徴空間変換 + ベクトル空間認識融合ソリューションです。

ベクトル空間でのラベル付け

ディープラーニングアルゴリズムであるため、データとラベル付けは当然重要なリンクとなります。画像空間でのラベル付けは非常に直感的ですが、システムが最終的に必要とするのはベクトル空間でのラベル付けです。

Tesla のアプローチは、複数のカメラからの画像を使用して 3D シーンを再構築し、3D シーンに注釈を付けるというものです。注釈者は 3D シーンに 1 回注釈を付けるだけで、各画像に注釈結果がマッピングされている様子をリアルタイムで確認し、それに応じた調整を行うことができます。

3D空間での注釈

手動ラベリングは、ラベリングシステム全体の一部にすぎません。より速く、より優れたラベリングを実現するには、自動ラベリングとシミュレーターも必要です。

自動注釈システムは、まず単一のカメラからの画像に基づいて注釈結果を生成し、次にさまざまな空間的および時間的な手がかりを通じてこれらの結果を統合します。もっとわかりやすく言えば、 「すべてのカメラが集まって、一貫したラベル付けの結果を議論する」ということです。

複数のカメラの調整に加えて、道路上の複数の Tesla 車両を統合して、同じシーンの注釈を改善することもできます。もちろん、異なる車両の出力結果を空間的に調整するために、車両の位置と姿勢を取得するために、GPS センサーと IMU センサーも必要です。

自動ラベリングはラベリング効率の問題を解決できますが、CICC のレポート「人工知能の 10 年の展望 (III): AI の観点から見た自動運転業界の完全な分析」に示されているように、高速道路を走る歩行者などのまれなシナリオでは、シミュレータを使用して仮想データを生成する必要があります。

上記のすべてのテクノロジーを組み合わせることで、Tesla の完全なディープラーニングネットワーク、データ収集、ラベリングシステムが構成されます。

04 モメンタのMANAシステムの解釈

Momentaは、Great Wall Motorsの協力を得て、膨大な量の実際の道路テストデータを取得できます。データ処理の問題については、MomentaはTransformerを自社のデータインテリジェンスシステムMANAに導入し、障害物検出、車線検出、走行可能エリアの分割、交通標識検出などの実際の道路認識問題に徐々に適用することを提案しました。

この点から、超大規模データセットを支えに、量産車各社の技術路線が収束しつつあることが伺える。

自動運転技術が隆盛を極める時代において、正しい道を選び、自社技術の優位性を確立することは、テスラにとってもモメンタにとっても極めて重要です。

自動運転技術の開発においては、どのようなセンサーを使用するかについて常に議論されてきました。現在、議論の焦点となっているのは、純粋な視覚ルートを取るか、それとも LiDAR ルートを取るかということです。

テスラは、数百万キロから数百億キロに及ぶ実際の道路状況データに基づいて選択された、純粋なビジョンソリューションを採用しています。

レーザーレーダーの使用にあたっては、主に次の 2 つの点を考慮する必要があります。

データサイズのギャップは他の自動運転企業にとって埋めるのが難しく、競争上の優位性を獲得するにはセンサーの認識能力を高める必要があります。現在、半固体型ライダーのコストは数百ドルまで削減されており、基本的には量産車のニーズを満たすことができます。
現在の技術開発から判断すると、純粋なビジョンベースの技術は L2/L2+ レベルのアプリケーションのニーズを満たすことができますが、L3/4 レベルのアプリケーション (RoboTaxi など) には、LIDAR が依然として不可欠です。

このような状況では、膨大な量のデータを持ち、視覚センサーとライダーセンサーの両方をサポートできる企業が、間違いなく競争において先行者利益を得ることになるでしょう。明らかに、Haomo.com がこの方向をリードしています。

AI DayでのMomenta CEO Gu Weihao氏の紹介によると、MANAシステムはTransformerを使用して最下層で視覚データとLiDARデータを融合し、空間、時間、センサーの深い認識を実現します。

以下では、MANA システム、特に Tesla FSD との違いについて詳しく説明します。

視覚認識モジュール

カメラが生データを取得した後、バックエンドのニューラルネットワークに提供して使用できるようにするには、ISP (Image Signal Process) デジタル処理プロセスを経る必要があります。

ISP の機能は一般に、より優れた視覚効果を得ることですが、ニューラルネットワークは実際にデータを「見る」必要はありません。視覚効果は人間向けに設計されているだけです。

したがって、ISP をニューラルネットワークのレイヤーとして使用すると、ニューラルネットワークは ISP のパラメーターを決定し、バックエンドタスクに応じてカメラを調整できます。これにより、元の画像情報を最大限に保持し、キャプチャされた画像のパラメーターがニューラルネットワークのトレーニング画像と可能な限り一致するようになります。

処理された画像データは、バックボーンネットワーク Backbone に送信されます。Haomo が使用する DarkNet は、業界で最も一般的に使用されているバックボーンネットワーク構造でもある多層畳み込み残差ネットワーク (ResNet) に似ています。

バックボーンネットワークによって出力された機能は、さまざまなタスクを完了するためにさまざまなヘッドに送信されます。

ここでのタスクは、グローバルタスク、道路タスク、オブジェクトタスクの 3 つのカテゴリに分かれています。

さまざまなタスクがバックボーンネットワークの機能を共有し、各タスクにはさまざまなタスクの特徴を抽出するための独自の独立したネックネットワークがあります。これは基本的にTesla HydraNetの考え方と一致しています。

しかし、MANA知覚システムの特徴は、 「グローバルタスクのためにグローバル情報を抽出するようにネックネットワークが設計されている」という点です。

これは実際には非常に重要です。なぜなら、グローバルタスク (走行可能な道路の検出など) はシーンの理解に大きく依存し、シーンの理解はグローバル情報の抽出に依存しているからです。

MANAシステムの視覚およびライダー認識モジュール

LiDAR 認識モジュール

LiDAR 認識では、業界で一般的に使用されているポイントクラウドベースの 3 次元オブジェクト検出アルゴリズムである PointPillar アルゴリズムが使用されます。このアルゴリズムの特徴は、「3次元情報を2次元（トップダウンビュー）に投影し、2次元データに対して視覚タスクと同様の特徴抽出とオブジェクト検出を実行する」ことです。

このアプローチの利点は、非常に計算負荷の高い 3 次元畳み込み演算を回避するため、アルゴリズムの全体的な速度が非常に速くなることです。 PointPillar は、ポイントクラウドオブジェクト検出の分野でリアルタイム処理の要件を満たすことができる最初のアルゴリズムでもあります。

MANA 以前のバージョンでは、視覚データと LiDAR データは別々に処理され、それぞれの出力結果のレベルで融合処理が完了していました。これは、自動運転の分野では「ポスト融合」と呼ばれることがよくあります。

これにより、2 つのシステム間の独立性が最大限に確保され、相互にセキュリティの冗長性が確保されます。しかし、ポストフュージョンにより、ニューラルネットワークは 2 つの異種センサー間のデータの補完性を十分に活用できず、最も価値のある機能を学習できなくなります。

融合知覚モジュール

三位一体融合の概念については先ほど触れましたが、これは MANA 知覚システムと他の知覚システムの主な違いでもあります。 Momenta CEO の Gu Weihao 氏は AI Day で次のように述べました。 「現在の知覚システムのほとんどには、「時間的知覚の不連続性と空間的知覚の断片化」という問題があります。」

MANAシステムの融合知覚モジュール

時間的不連続性: これは、システムがデータをフレーム単位で処理し、2 つのフレーム間の時間間隔が数十ミリ秒になる可能性があるためです。システムは、単一フレームの処理結果に重点を置き、後処理ステップとして時間的融合を使用します。

たとえば、別のオブジェクト追跡モジュールを使用して、単一フレームのオブジェクト検出結果をつなぎ合わせることも、ポストフュージョン戦略であるため、有用な時間情報を十分に活用することはできません。

空間の断片化:複数の同種または異種のセンサーの異なる空間座標系によって発生します。

均質なセンサー（複数のカメラなど）の場合、設置位置や角度が異なるため、視野（FOV）が異なります。各センサーの視野角は限られており、車体周囲の 360 度認識機能を得るには複数のセンサーのデータを融合する必要があり、これは L2 レベル以上の自動運転システムにとって非常に重要です。

異種センサー（カメラやライダーなど）の場合、データ収集方法が異なるため、異なるセンサーによって取得されるデータ情報と形式は大きく異なります。

カメラは、豊富なテクスチャと意味情報を持ち、物体の分類やシーンの理解に適した画像データを収集します。一方、LIDARは、空間位置情報が非常に正確で、物体の3次元情報を認識したり障害物を検知したりするのに適した点群データを収集します。

システムが各センサーを個別に処理し、処理結果に対してポストフュージョンを実行すると、複数のセンサーからのデータに含まれる補完的な情報を活用することができなくなります。

これら2つの問題をどのように解決すればよいでしょうか?

答えは、 Transformer を使用して空間的および時間的な事前融合を行うことです。

まず宇宙の核融合前について話しましょう

一般的な視覚タスク（画像分類や物体検出など）でTransformerが果たす役割とは異なり、空間フロントフュージョンにおけるTransformerの主な役割は特徴を抽出することではなく、座標系を変換することです。

これは Tesla が使用する技術に似ていますが、Haomo はさらに LiDAR を追加して、マルチセンサー (クロスモーダル) フロントフュージョン (図 8 の Cross-Domain Association モジュール) を実行します。

上記はTransformerの基本的な動作原理を紹介したものです。簡単に言うと、 「入力データの要素間の相関関係を計算し、その相関関係を利用して特徴を抽出する」というものです。

座標系の変換も同様のプロセスとして形式化できます。

たとえば、複数のカメラからの画像を、LIDAR ポイントクラウドと一致する 3 次元空間座標系に変換するには、システムは 3 次元座標系の各ポイントと画像ピクセル間の対応関係を見つける必要があります。幾何学的変換に基づく従来の方法は、3D座標系のポイントを画像座標系のポイントにマップし、画像ポイントの周りに小さな近隣（3x3ピクセルなど）を使用して3Dポイントのピクセル値を計算します。

トランスは、3次元ポイントと各画像ポイントとの間の接続を確立し、自己触媒メカニズム、つまり相関計算を使用して、どの画像ポイントを使用して3次元ポイントのピクセル値を計算するかを決定します。

図9に示すように、Transformerは最初に画像機能をエンコードし、次にそれらを3次元空間にデコードしますが、座標系の変換は自己触媒の計算プロセスに組み込まれています。

このアイデアは、従来の方法で近隣の制約を破ります。同時に、座標変換プロセスはニューラルネットワークで実行され、変換パラメーターはバックエンドが受信した特定のタスクによって自動的に調整できます。

トランスを使用して、画像座標系を3Dスペース座標系に変換する

したがって、この変換プロセスは完全にデータ駆動型であり、タスクに依存します。非常に大きなデータセットを考えると、トランスに基づいて空間座標系変換を実行することが完全に実行可能です。

時間の事前融合について話しましょう

これは、タイムシリーズデータを処理するために元々設計されていたため、空間前融合よりも理解しやすいです。

図8の特徴キューは、空間融合モジュールの時間的出力です。これは、この方法で複数の単語として理解できます。時系列融合にRNNを使用するというTeslaのソリューションと比較して、トランス溶液はより強力な特徴抽出機能を備えていますが、その動作効率は低くなります。

RNNは、HAOMOのソリューションでも言及されています。現在、2つのソリューションが比較されていると考えています。

さらに、Lidarのサポートのおかげで、Haomoはスラム追跡と光フローアルゴリズムを採用しています。

認知モジュール

知覚モジュールに加えて、HAOMOには、パス計画部分である認知モジュールにいくつかの特別な設計もあります。

Gu WeihaoはAI Dayで、認知モジュールと知覚モジュールの最大の違いは、認知モジュールには独自のモジュールのパフォーマンスを測定するための明確な「定規」がなく、認知モジュールは安全性、快適性、効率などの多くの要因を考慮する必要があるということです。

これらの問題に対処するために、HAOMOの解決策はシーンデジタル化と大規模な強化学習です。

シーンのデジタル化は、道路上のさまざまなシーンのパラメーター化された表現です。パラメーター化の利点は、シーンを効果的に分類および処理することができることです。

さまざまな粒度によれば、シーンパラメーターはマクロとマクロシーンのパラメーターに分割されます。

MANAシステムでのマクロシナリオクラスタリング

MANAシステムのMicro-Scenario（例はシナリオに続く車です）

さまざまなシーンがデジタル化された後、人工知能アルゴリズムを学習に使用できます。一般的に言えば、補強学習はこのタスクに適しています。

補強学習は有名なアルファゴで使用される方法ですが、GOとは異なり、自律運転タスクの評価基準は勝ち負けではなく、運転の合理性と安全性です。

各運転行動を正しく評価する方法は、認知システムにおける強化学習アルゴリズムの設計の鍵です。 Haomoの戦略は、人間のドライバーの行動をシミュレートすることです。これは、最速かつ最も効果的な方法でもあります。

もちろん、この戦略を採用するための基礎は、HAOMOの利点に基づいています。

最後に

自律運転技術の急速な開発と実装により、ますます多くの大量生産モデルに、さまざまなレベルの自律運転システムをサポートするソフトウェアとハードウェアが装備され始めています。徐々に商業化に向かって移動しますが、大量生産モデルのスケール効果は、自律駆動システムの反復に大規模なデータサポートを提供することもできます。これは、業界によって一般的に認識される高レベルの自律運転を達成する唯一の方法でもあります。

これに関連して、大量生産された車を生産し、潜在的なデータの利点を市場に参入する必要があります。 2つの計画には、マクロレベルの類似点と多くの特定の戦略的相違点の両方があり、コンセンサスと個性の両方を反映しています。

コンセンサスは、両社が非常に大きなデータセットの学習能力を改善するために、トランスニューラルネットワーク構造を採用していることです。

人格の観点から、テスラは純粋なビジョンソリューションを採用し、HaomoはVision Plus Lidarソリューションを採用しています。 Lidarの大量生産コストの継続的な削減を背景に、Haomoのソリューションには開発の可能性があります。さらに、HAOMOはトランスの適用をさらに進歩させてきました。

空間情報の融合に加えて、トランスはMANAシステムでも時間的およびマルチモーダル情報を融合するために使用され、システムによって収集されたさまざまな離散データを統合して、さまざまなバックエンドアプリケーションをよりよくサポートするためにコヒーレントデータストリームを形成します。

採用された実装ソリューションに関係なく、TeslaとMomentaが大規模なデータで行った試みは、自律運転技術の開発と究極の実装にとって非常に重要です。

また、より多くの企業が将来、より多くの異なる可能性を試し、互いにコミュニケーションをとり、互いに学び、テクノロジーやデータを共有し、自律運転がより良くより速く一般の人々に役立つようにすることを願っています。

<<: IoTソリューションは、より効果的なデータ駆動型警察活動の基盤を築く

>>: ヘルスケアにおける自然言語処理 (NLP) の 8 つの例