自動運転車にLIDARはなぜ必要ないのでしょうか?

自動運転車にLIDARはなぜ必要ないのでしょうか?

[51CTO.com クイック翻訳]自動運転車の開発と生産にはどのような技術が必要か?この質問に対する答えについては、メーカーと研究機関の間で意見の相違があります。自動運転へのアプローチは、カメラとコンピューター ビジョンの組み合わせから、コンピューター ビジョンと高度なセンサーの組み合わせまで多岐にわたります。

[[408761]]

テスラは長年、自動運転への視覚ベースのアプローチを提唱しており、今年のコンピュータービジョンとパターン認識に関する会議(CVPR)で、同社の主任AI科学者であるアンドレイ・カルパシー氏が、なぜこのアプローチを採用したのかを説明した。

CVPR2021自動運転技術シンポジウムで、テスラの自動運転技術開発を率いるカルパシー氏は、同社が車の周囲を理解するためにビデオ入力のみを必要とするディープラーニングシステムをどのように開発したかを詳しく説明した。この技術は視覚ニューラルネットワークを使用して、車間の距離、速度、加速度を非常に正確に推定します。必要なテクノロジーには、巨大な艦隊データ エンジン、強力な人工知能チーム、スーパーコンピューターなどがあります。彼はまた、テスラが視覚ベースの自動運転車の実現において業界の最前線に立っている理由についても説明した。

一般的なコンピュータビジョンシステム

ディープ ニューラル ネットワークは、自動運転技術スタックの主要コンポーネントの 1 つです。ニューラル ネットワークは、車載カメラを通じて道路、標識、車、障害物、人に関する情報を分析します。

しかし、ディープラーニングでは、画像内のオブジェクトを検出する際に間違いを犯す可能性もあります。そのため、アルファベットの子会社であるウェイモを含むほとんどの自動運転車メーカーは、全方向にレーザービームを発射して車の周囲の3D画像を作成し、ニューラルネットワークのギャップを埋める補足情報を提供するデバイスであるライダーを使用しています。

しかし、自動運転技術スタックに LiDAR を追加すると、独自の複雑さが生じます。 「このような自動運転技術は、ライダーを使って環境を事前に地図化し、高解像度の地図を作成する必要がある。これには、すべての車線とその接続方法、およびすべての信号機の入力が必要である。テストの際には、地図を見つけて自信を持って運転するだけでよい」とカルパシー氏は述べた。

しかし、自動運転車が走行するあらゆる場所の正確な地図を作成することは非常に困難です。 「こうした高解像度のライダーマップを収集、構築、維持するのは難しく、このインフラを最新の状態に保つのも極めて困難だ」とカルパシー氏は語った。

そのため、テスラは自律運転技術スタックに LiDAR と HD マッピング技術を使用していません。 「車内の周囲に設置された8台のカメラからの映像に基づいて、車内のあらゆる状況を処理できる」と彼は語った。

自動運転技術では、車線がどこにあるのか、信号機がどこにあるのか、信号機の状態はどうなっているのか、車両に関連する情報は何かなどを把握する必要があります。そして、走行中の道路に関する事前定義された情報にアクセスすることなく、これらすべてを実行する必要があります。

カルパシー氏は、視覚ベースの自動運転は、ビデオ信号のみに基づいて非常にうまく機能するニューラルネットワークの使用が必要となるため、技術的に難しいことを認めた。 「しかし、実際に動作するようになれば、地球上のどこにでも配備できる汎用視覚システムになります」と彼は語った。

ユニバーサルビジョンシステムを使用すると、自動運転車に補助装置は不要になります。カルパシー氏は、テスラはすでにその方向に進んでいると述べた。同社の自動運転車はこれまで、LIDARとカメラを組み合わせて自動運転していたが、同社はLIDARを使わない車の販売も開始した。

カルパシー氏は「ライダーを取り外し、新しい自動運転車は視覚による運転のみに依存する」と述べた。また、その理由として、テスラのディープラーニングシステムの性能はライダーをはるかに上回っており、今ライダーを使うと技術開発の妨げになるからだと付け加えた。

教師あり学習

純粋なコンピューター ビジョン アプローチに対する主な反論は、ニューラル ネットワークが LiDAR 深度画像テクノロジなしでオドメトリを実行し、距離を推定できるかどうかが不確実であるということです。

「言うまでもなく、人間は運転時に主に視覚に頼っているので、人間の神経ネットワークは視覚入力を処理して車の周囲の物体の距離と速度を理解できます」とカルパシー氏は言う。「しかし、大きな疑問は、私たちの神経ネットワークが同じことができるかどうかでした。私たちはこの疑問に取り組んできましたが、その答えは断然イエスです。」

テスラのエンジニアたちは、物体だけでなく距離、速度、加速度も検出できるディープラーニングシステムを開発した。彼らはこの課題を教師あり学習の問題として捉え、ニューラル ネットワークが注釈付きデータでトレーニングされた後、オブジェクトとその関連属性を検出することを学習することにしました。

ディープラーニング アーキテクチャをトレーニングするために、Tesla チームは、含まれるオブジェクトとそのプロパティが注意深く注釈付けされた、数百万本のビデオの膨大なデータセットを必要としました。自動運転車用のデータセットの作成は特に難しい作業です。エンジニアは、頻繁には発生しないさまざまな道路状況や路側帯の状況がデータセットに含まれていることを確認する必要があります。

「大規模でクリーンで多様なデータセットを用意し、それを使って大規模なニューラルネットワークをトレーニングすれば、実際の成功は保証されます」とカルパシー氏は語った。

データセットの自動ラベル付け

世界中でカメラを搭載した車が何百万台も販売されているテスラは、自動車の視覚のためのディープラーニングモデルをトレーニングするために必要なデータを収集するのに有利な立場にあります。テスラの自動運転技術開発チームは、100 万本の 10 秒動画と、境界ボックス、深度、速度で注釈が付けられた 60 億個のオブジェクトを含む 1.5PB のデータを蓄積してきました。

しかし、そのようなデータセットにラベルを付けるのは非常に困難です。 1 つの方法は、データ ラベリング会社や Amazon Turk などのオンライン プラットフォームを通じて手動で注釈を付けることです。しかし、これには多くの手作業が必要となり、コストも高くなり、非常に時間のかかるプロセスとなります。

代わりに、テスラの開発チームは、ニューラル ネットワーク、レーダー データ、および人間によるレビューを組み合わせた自動ラベル付け手法を使用しました。データセットはオフラインで注釈が付けられているため、ニューラル ネットワークをビデオに繰り返し実行し、予測を実際の結果と比較してパラメータを調整することができます。これは、すべてがリアルタイムで発生し、ディープラーニング モデルが追跡できないテスト時の推論とは対照的です。

また、オフライン ラベリングにより、エンジニアは、リアルタイムで低遅延のアプリケーション向けに車に展開するのは現実的ではない、非常に強力で計算集約的なオブジェクト検出ネットワークを適用できるようになります。彼らは、LIDAR センサー データを使用して、ニューラル ネットワークの推論をさらに検証しました。これらすべてにより、ラベリング ネットワークの精度が向上します。

「オフラインであれば、事後分析のメリットが得られるため、さまざまなセンサーデータを冷静に統合する作業がしやすくなります」とカルパシー氏は言う。「また、クリーニング、検証、編集などを行う人間を関与させることもできます。」

カルパシー氏が CVPR ワークショップで発表したビデオによると、物体検出ネットワークは、瓦礫、ほこり、雪雲など、あらゆる状況で一貫したパフォーマンスを発揮した。

テスラのニューラル ネットワークは、さまざまな視界条件で出現する物体を一貫して検出できます。

カルパシー氏は、自動タグ付けシステムの最終的な修正にどれだけの作業が必要になるかについては言及しなかった。しかし、自動タグ付けシステムを正しい方向に導くには、人間の認知力が重要な役割を果たします。

データセットを開発する過程で、Tesla の開発チームは 200 を超えるトリガーを開発し、物体検出を継続的に調整しました。これには、異なるカメラからの検出結果間やカメラと LIDAR 間の不一致などの問題が含まれます。また、トンネルの出入り口や特殊な種類の車など、特別な注意が必要なシナリオも特定しました。

これらすべてのトリガーを開発し、習得するのに 4 か月かかりました。タグ付けネットワークが改良されるにつれて、それは「シャドウ モード」で展開されるようになります。つまり、それは自律走行車にインストールされ、車にコマンドを与えることなく静かに動作することを意味します。ネットワークの出力は、従来のネットワーク、LIDAR、およびドライバーの行動の出力と比較されます。

テスラの開発チームは、データエンジニアリングを 7 回繰り返しました。彼らは、ニューラル ネットワークをトレーニングするための初期データセットから始めました。次に、実際の車にシャドウ モードでディープラーニングを導入し、トリガーを使用して不一致、エラー、特殊なシナリオを検出しました。その後、エラーを修正するための変更が行われ、必要に応じてデータセットに新しいデータが追加されます。

「ニューラルネットワークが本当に良くなるまで、何度も修正と調整を続けました」とカルパシー氏は語った。

したがって、このアーキテクチャは、ニューラル ネットワークが反復的なタスクを実行し、人間の作業者が高度な認知的質問とエッジ ケースを処理する、巧妙な分業による半自動ラベリング システムとして説明する方が適切です。

興味深いことに、参加者が Karpathy 氏にトリガーを自動的に生成できるかどうか尋ねたところ、同氏は次のように答えました。「自動トリガーの生成は非常に難しいシナリオです。汎用トリガーはあっても、エラー パターンを正しく表すことができないからです。たとえば、トンネルの出入りのトリガーを自動化するのは難しいです。人間は直感に頼っているので、これは難しいことです... それがどのように機能するかは明らかではありません。」

階層型ディープラーニングアーキテクチャ

テスラのオートパイロット開発チームは、収集した高品質のデータセットを最大限に活用するために、非常に効率的で適切に設計されたニューラル ネットワークを必要としていました。

同社は、情報を処理し、その出力を次のネットワークセットに送るさまざまなニューラル ネットワークで構成された階層型ディープラーニング アーキテクチャを作成しました。

ディープラーニング モデルは、畳み込みニューラル ネットワークを使用して、車の周囲に取り付けられた 8 台のカメラからのビデオから特徴を抽出し、ニューラル ネットワークを使用してそれらを融合します。これらは時間を超えて融合されますが、これは軌道予測や推論の不一致の平滑化などのタスクにとって重要です。次に、空間的および時間的特徴がニューラル ネットワークの分岐構造に入力されます。カルパシー氏はこれを頭部、胴体、末端と表現しています。

「この分岐構造の理由は、出力の数が膨大で、各出力に単一のニューラル ネットワークを持つことができないためです」とカルパシー氏は言います。

階層構造により、さまざまなタスクでコンポーネントを再利用でき、異なる推論パス間で機能を共有できるようになります。ネットワークのモジュール式アーキテクチャのもう 1 つの利点は、分散開発が可能であることです。テスラは現在、自動運転ニューラルネットワークの研究を専門とする機械学習エンジニアのチームを雇用しています。それぞれがニューラル ネットワークの小さなコンポーネントを開発し、その開発結果をより大きなニューラル ネットワークに組み込みます。

「当社にはニューラルネットワークのトレーニングにフルタイムで取り組んでいる約20人の開発チームがあります」とカルパシー氏は語った。

垂直統合

コンピュータービジョンとパターン認識に関する会議(CVPR)での講演で、カルパシー氏は、テスラがディープラーニングモデルのトレーニングと微調整に使用しているスーパーコンピューターについて詳細を語った。

同社のコンピューティング クラスターは 80 個のノードで構成され、各ノードには 80 GB のビデオ メモリを備えた 8 個の Nvidia A100 GPU が搭載されており、合計で 5,760 個の GPU と 450 TB を超えるメモリが搭載されています。このスーパーコンピューターには、10PB の NVME 超高速ストレージと 640Tbps のネットワーク容量も備わっており、すべてのノードを接続してニューラル ネットワークの効率的な分散トレーニングが可能になります。

「テスラは自社の車に搭載されているAIチップも所有し、製造している」とカルパシー氏は語った。「これらのチップはニューラルネットワーク向けに特別に設計されており、完全自動運転アプリケーションに使用されることを期待している」

テスラの強みの一つは垂直統合です。テスラ社は自動運転車の技術スタック全体を所有しており、電気自動車と自動運転機能のハードウェアの両方を製造しています。同社は、販売した何百万台もの自動車から多種多様なテレメトリデータやビデオデータを収集できる独自の立場にあります。同社はまた、独自のデータセットと特別な社内コンピューティング クラスターでニューラル ネットワークを作成およびトレーニングし、自社の自動車のシャドー テストを通じてそれらのニューラル ネットワークを検証および微調整します。もちろん、同社にはすべてのピースをまとめる機械学習エンジニア、研究者、ハードウェア設計者からなる優秀なチームもあります。

「私たちはこのスタックのすべてのレイヤーで共同設計とエンジニアリングを行うことができ、第三者の干渉なしに自分たちの運命を完全にコントロールすることができます。これは素晴らしいことだと思います」とカルパシー氏は語った。

この垂直統合と、データの作成、機械学習モデルの調整、そしてそれを多くの車に展開するというサイクルの繰り返しにより、Tesla は視覚的な自動運転車の機能を実現する上で独自の市場ポジションを獲得しています。カルパシー氏は講演の中で、新しいニューラル ネットワークが、LIDAR 情報と組み合わせて使用​​される従来の機械学習モデルよりも優れたパフォーマンスを発揮した例をいくつか示しました。

カルパシー氏が言うように、このシステムがさらに改良されれば、テスラはライダーを時代遅れにする道を歩むことになるかもしれない。そして現時点では、テスラのアプローチを真似できる企業は他にはないだろう。

解決すべきいくつかの問題

しかし、まだ答えが出ていない疑問がいくつかあります。例えば、現状のディープラーニングは自動運転の課題をすべて克服できるのでしょうか? もちろん、物体検出や速度と距離の推定は運転において重要な役割を果たします。しかし、人間の視覚は他にも多くの複雑な機能を果たしており、科学者はこれを視覚の「暗黒物質」と呼んでいます。これらはすべて、さまざまな環境での視覚入力とナビゲーションの意識的および潜在意識的な分析の重要な要素です。

ディープラーニング モデルは因果推論を行うことも困難であり、モデルがこれまでに見たことのない新しい状況に直面したときに大きな障害となる可能性があります。したがって、テスラは非常に大規模で多様なデータセットを作成することに成功しましたが、オープンロードは、いつでも新しい予測不可能なことが起こる可能性がある非常に複雑な環境でもあります。

AIコミュニティでは、因果関係と推論をディープニューラルネットワークに明示的に統合する必要があるのか​​、それとも因果関係の障壁を「直接フィッティング」によって克服できるのかという問題で意見が分かれており、後者の場合は、大規模で適切に分散されたデータセットで汎用ディープラーニングのレベルを達成するのに十分です。テスラのビジョンベースのオートパイロット チームは後者を好むようです (ただし、同チームはテクノロジ スタックを完全に制御しており、将来的には新しいニューラル ネットワーク アーキテクチャを試す予定です)。この技術が時の試練に耐えられるかどうかはまだ分からない。

原題: テスラのAI責任者が自動運転車にLIDARが必要ない理由を説明、著者: ベン・ディクソン

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  トレンド検索No.1! B駅のアップマスターはAIを使って李大昭、陳延年らを笑顔にした

>>:  デジタル産業を支援し、インテリジェントな未来をつなぐ――西安航空基地企業「ファーウェイ参入」デジタル変革社長クラス

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

...

強力な提携:ソーシャルロボット企業Furhatがロボット企業Misty Roboticsを買収

ミスティはとんでもない乗り心地を体験した。 FoundryとVenrockから1,150万ドルを調達...

...

...

5G自動運転はどのようなものになるのでしょうか?韓国のテストではこの結果が出た

自動運転と5Gの産業発展は大きな注目を集めており、韓国企業は最近、両者を組み合わせた効果を模索してい...

...

...

...

ロボットは人間と機械の協働チームの「リーダー」になれるでしょうか?どのように機能しますか?

ロボット技術の発展により、ロボットは実生活においてますます重要な役割を果たすようになるでしょう。人間...

AIとローコード/ノーコードのすべきこと、すべきでないこと

ローコードとノーコードは、新しいアプリケーションやサービスを簡単に作成できるようにして、プログラマー...

北京初のT5レベル閉鎖型自動運転試験場が正式に運用開始

[[270070]] 7月8日、国家インテリジェント自動車・スマート交通(北京・天津・河北)実証区海...

従来の AGV と比較した利点は何ですか? AMRロボット業界の状況は変化する

ロボット技術の知能化は、ロボット応用分野の継続的な拡大にプラスの影響を与えています。この傾向を受けて...

AI に「大きな力と小さな心」を与える - ユニバーサル CNN アクセラレーション設計

[[207759]]導入FPGA ベースの汎用 CNN アクセラレーション設計により、FPGA 開発...