この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 自動運転において避けられない話題の 1 つは、LiDAR とカメラのどちらが優れているかということです。この問題は業界で延々と議論されてきました。2 つの主要な派閥はそれぞれ独自の意見に固執し、どちらかを使用すべき理由を数多く挙げています。実際、なぜこのような議論があるのか理解するには、まずこれら 2 つの主要な技術ルートの背後にある原理と、それぞれの利点と欠点を理解する必要があります。 自動運転では、車の運転能力と責任が徐々に人間から車に移行し、主に認識、意思決定、実行という 3 つの中核リンクが含まれます。 このうち、知覚リンクは人間の目や耳に相当し、主に車載カメラ、ライダー、ミリ波などの各種車載センサーを使用して、運転中に環境や車両を知覚し、周囲の環境データを収集して意思決定層に送信します。意思決定リンクは人間の脳に相当し、主にオペレーティングシステム、チップ、コンピューティングプラットフォームを使用して、受信したデータをリアルタイムで処理し、対応する操作とコマンドタスクを出力します。実行端は人間の手足に相当し、受信した操作指示を電源、ステアリング制御、ヘッドライト制御などの車両端末部品に実行します。 今回は、知覚層に焦点を当てます。知覚はインテリジェント運転の前提条件であり、その検出精度、幅、速度は自動運転の運転安全性に直接影響するからです。さらに、知覚層で得られたデータは、意思決定層の判断や実行層の動作に直接影響を与えるため、自動運転におけるその位置づけは極めて重要であることがわかります。 01 LiDAR対視覚認識、自動運転の2大勢力の正面対決自動運転の分野は、純粋視覚認識派と LiDAR 派の 2 つの派閥に分かれています。 視覚派は、視覚情報+脳の処理を通じて人間は有能なドライバーになれると信じています。そして、カメラ + ディープラーニング ニューラル ネットワーク + コンピューター ハードウェアでも同様の効果が得られます。 最近、代表的企業であるテスラは、ミリ波レーダーを完全に放棄し、純粋なビジョンソリューションに基づく FSD ベータを発売しました。 BaiduはL4レベルのピュアビジョンソリューションであるApollo liteをリリースし、自動運転への道も歩み始めました。 LiDAR 派は、機械式 LiDAR、ミリ波レーダー、超音波レーダー、マルチチャンネル カメラを使用して L4 レベルの商用大量生産を完了した Waymo などのロボタクシー企業によって代表されます。 純粋視覚自動運転ソリューションの製品分析から見ると、テスラの製品はまだL2段階にあります。今年第1四半期の財務報告から、純粋視覚自動運転ソリューションは次のように説明されています。現在の道路交通システムは人間の視覚知覚ニューラルネットワークに基づいており、8台のカメラが360度をカバーしており、人間の知覚範囲よりも広く安全です。実際の道路での技術はまだ突破されておらず、自動運転がすぐに主流になることはありません。 Apollo liteを見ると、2020年末に百度はハイエンドのインテリジェント運転ソリューションANP(Apollo Navigation Pilot)をリリースし、高速道路、都市環状道路、都市道路での使用をサポートできると主張しています。10台のカメラを搭載し、360°の周囲認識、240メートルの検出距離、30以上のディープラーニングネットワークを使用しています。シングルカードGPUと30TOPS未満のコンピューティングパワーを備えています。これは、高ラインカウントの機械式ライダーに頼ることなく、10 台のカメラ認識システムに依存して、エンドツーエンドのクローズドループ自動運転を実現し、L4 アプリケーションから L2+ パイロット支援運転まで次元を縮小します。 LiDARは物体の3次元位置情報を正確に取得するために使用されるセンサーです。本質的にはレーザー検出と測距です。その原理は、レーザーを発射して受信することで対象物体までの距離を検出し、対象表面の反射エネルギー、反射スペクトルの振幅、周波数、位相に基づいて対象物体の3次元構造情報を正確に描画することです。 LiDAR は、ターゲットの輪郭測定、角度測定、照明安定性、一般的な障害物検出における優れた性能により、L4 以上の自動運転のコア構成になりつつあります。 3D LIDAR は、無人車両の位置決め、経路計画、意思決定、認識において重要な役割を果たします。 2022年から2025年の間に、ほとんどのOEMがLIDARを量産すると予想されています。海外では、VolvoとLuminarが量産を発表しました。国内では、NIOがET7の標準構成としてTudatongのLIDARを選択し、Xiaopeng P5にはDJIのLanwoのLIDARが搭載されています。Idealも次世代モデルでHesai Technologyとの協力を開始しました。この観点から見ると、ほとんどの企業にとって、自動運転に着手するには依然として LiDAR が唯一の方法です。 技術的な特徴の観点から: 視覚ソリューションの画像センサーは、周囲の複雑な環境情報を高フレームレート、高解像度で取得でき、しかも安価です。しかし、イメージセンサーは自ら光を発しないパッシブセンサーであり、画質は周囲の明るさに大きく左右され、過酷な環境での認識タスクの完了の難易度は大幅に高まります。 LiDARは、パルスレーザーを照射し、対象物の散乱光特性を検出することで、対象の深度情報を取得するアクティブセンサーです。高精度、広範囲、強力な耐干渉性などの特徴があります。しかし、LiDARで得られるデータはまばらで乱雑なため、そのまま使うのは難しい。また、レーザーは単色であるため、色や質感の情報を得ることができない。測距や周辺環境の描写には優れているが、欠点が致命的すぎるため、他のセンサーと組み合わせて使う必要がある。 商業的な大量生産の観点から: 現在、LiDAR の認識能力は純粋な視覚よりもわずかに強力です。量産を加速するために、多くのホストメーカーとティア 1 サプライヤーは、視覚認識アルゴリズム、チップ、位置決め、マッピングなどの問題を回避するために、必然的に LiDAR を過度に使用することになります。 マスク氏は、おそらくライダーのコストが高すぎるため、ライダーに依存している企業には打開策がないかもしれないと何度も言及している。 今年初め、ファーウェイは初の96ライン中長距離車載グレード高性能LIDARの開発に成功したと発表しました。このLIDARは、150メートルの全シーン測距能力と120°×25°の広い視野を持ち、市街地、高速道路などのシナリオにおける人間と車両の測距の要件を満たすことができます。同時に、水平ハーネスと垂直ハーネスは、継ぎ目やジッターなしに均等に分散され、バックエンド認識アルゴリズムに非常に優しい安定したポイントクラウドを形成します。長距離の小さな障害物、近距離の車線変更、近端の突起、トンネル、交差点での保護されていない左折、地下室などの複雑な道路状況や特殊なシナリオに対応でき、中国の現在の複雑な道路状況にさらに適合しています。 価格は当初1セット2,000ドルだったが、200ドル程度に下がったという。テスラも最近LiDARのテストを実施している。価格優位性の出現により、ピュアビジョン派が変化を起こすかどうか気になるところだ。 02 LiDARと視覚認識の長所と短所:矛盾と補完の両方これまでに、小鵬、NIO、理想、アークフォックス、長城、志済、SAIC R、ルーシッド、ボルボ、GACがLIDAR搭載モデルを量産することを明らかにしており、LIDAR搭載初の量産車「小鵬P5」も正式に発売された。 LIDAR の利点は、高精度と長い検出距離です。一部の極端な気象条件や夜間でもカメラよりも高い精度を実現できるため、車両の誤判断を防ぎ、安全性の冗長性が向上します。しかし、コストが高い、大量生産が難しいなどの問題が残っています。 現在、レーザーレーダーは、機械式、ハイブリッド固体式、純粋固体式の 3 つのカテゴリに分類されます。 これら3つのカテゴリにはそれぞれ長所と短所があります。たとえば、機械式は最も成熟しており、スキャン速度が速く、360度全周検知が可能ですが、サイズが大きいため量産車両への搭載が難しく、コストも大きな問題です。ハイブリッドソリッドステートはコストが低く、大規模な量産に適していますが、視野が限られており、360度は不可能です。純粋なソリッドステートは今後の開発トレンドであり、OPA光フェーズドアレイとフラッシュの2つの技術ルートがありますが、量産化にはさらなる技術革新も必要です。現在、ハイブリッドソリッドステートの MEMS ルートは LiDAR 開発の主流となり、フロントエンドの量産を実現するのも最も簡単です。 機械式、半固体式、固体式レーザーレーダーの特性 視覚ソリューションによって得られるデータは、人間の目で知覚される現実世界に近く、軽いハードウェアと重いソフトウェアという特徴を備えています。カメラの価格が安いため、ビジョンソリューションには明らかなコスト上の利点があり、自動車規制テストに合格しやすくなります。さらに、カメラで取得した画像データは、人間の目で知覚する現実世界に近く、人間の運転に最も近い形になります。高解像度、高フレームレートの撮影技術により、知覚される環境情報もより豊かになります。 ただし、暗い環境ではカメラの認識が制限され、精度と安全性が低下します。さらに、ビジュアル ソリューションのハードウェア要件が低下するにつれて、ソフトウェア要件が大幅に増加します。つまり、画像処理、コマンドの発行、処理の効率を確保するために強力なアルゴリズムが必要になります。 ADAS 段階では、意思決定権は依然としてドライバーの手に委ねられており、自動車のソフトウェア アルゴリズムに対する要件は比較的低くなっています。Mobileye に代表されるビジョン ソリューションは、ほとんどの自動車メーカーに採用されています。 しかし、インテリジェント運転がL3以上に向かうにつれて、自動運転プラットフォームが人間の脳に代わって運転の判断を下すようになり、アルゴリズムとAI機能に対する要件が大幅に向上します。現在、視覚ソリューションを全面的に採用または考慮しているのは、Tesla、Baidu、Mobileyeなどのソフトウェアとアルゴリズムの遺伝子を持つメーカーだけです。純粋なビジョンソリューションは、ほとんどがブラックボックスソリューションであり、L3以上の自動運転へのアップグレードは困難であるため、従来の自動車メーカーはそれを導入したがりません。 テスラは「シャドウモード」と強力なアルゴリズムによって、他の自動車会社が模倣するのが難しい自動運転の反復的な閉ループを構築した。テスラの自動車の定義は極めて単純化され、技術的です。同社は自動車の引き算を行っており、車両の配線ハーネスの長さ、部品の数、生産および製造プロセスを大幅に削減しています。認識ソリューションの選択に関して、テスラはよりコスト効率の高い視覚ソリューションを実装しています。モデル3では、12個の超音波レーダー、8個のカメラ、1個のフロントレーダーを使用して周囲の情報を収集します。強力な融合アルゴリズムにより、車両周囲の3Dモデルを迅速に構築し、運転中に迅速な判断を下します。 物体の左後隅の2D画像検出(車両の長さの判断)には一定の死角があるため、車両後部の傾斜と上向きの狭まりの設計は、全幅の過小評価を悪化させます。したがって、視覚ソリューションの鍵は、アルゴリズムを通じて視覚情報を正確に処理することを根本的に解決し、カメラで撮影した2D平面画像を正確な3Dモデルに変換することです。テスラの自動運転分野におけるフルスタックの自己研究と、「パターン認識モデル」分野(つまり、膨大なデータ規模、多様なデータ範囲、実際のデータシナリオ)における主導的地位は、ビジュアルフュージョンソリューションを実装するための強みとなっています。 カメラで撮影した2D画像では車両の長さを判断することが難しい さらに、テスラの「シャドウモード」は、アルゴリズムのトレーニングコストを効果的に制御できます。このモードでは、データ収集システムがドライバーの「影」をリアルタイムで追跡し、常に外部環境とドライバーの行動を観察します。特定のシナリオにおけるドライバーの操作が「シャドウ」の予測と一致しない場合、そのデータはテスラのサーバーに送信され、アルゴリズムの修正トレーニングが行われ、次回の同様のシナリオで修正されます。 Baidu と Mobileye は、フロントエンド ビジョンと Robotaxi LIDAR のデュアルライン並列戦略を使用して、認識効果を最適化します。フロントエンドインストールの分野では、AIアルゴリズムの世界的リーダーであるBaiduが、2020年12月に「光センサー、光コンピューティング、強力な知覚」という視覚ソリューション「ANP」を発売した。コストに敏感でないロボタクシー分野では、Baidu は LiDAR 企業 Hesai Technology と協力して LiDAR とカスタマイズされた LiDAR を採用することを選択しました。これにより、認識と信頼性が向上しただけでなく、コストも大幅に削減されました。 一方、純粋なビジョンセンサーソリューションで有名なMobileyeは、7台の長距離カメラと4台の駐車カメラを通じて独自のビジョンソリューションを構築しました。そのうち、フロントカメラはメインセンシング位置にあり、120度、800万画素の性能を備えています。前後に4つのコーナーカメラが配置され、サイドミラー、フロントバンパー、リアバンパーには190度の広角カメラが備わっています。これらの認識カメラとデータ処理側の 2 つの EyeQ5 チップは、Mobileye の純粋なビジョン システム ソリューションを構成し、複雑な都市環境での自動車の安全な運転をサポートします。 同時に同社は、同社のロボタクシーが有名なライダーメーカーであるルミナーと協力し、ライダー、レーダー、カメラの構成を通じて無人運転認識の精度を全面的に向上させ、車両運転の安全性と信頼性を向上させることも発表した。現段階では、LIDAR と視覚カメラの長所と短所はまだ完全には決定されておらず、マルチセンサー冗長性は現在、さまざまなメーカーにとって比較的保守的な開発経路となっていることがわかります。 03 LiDAR の価格は下がり続けています。純粋なビジョン派はいつまで続くのでしょうか?LiDAR のコストはかつては非常に高く、LiDAR 機器一式は最大 75,000 米ドルでした。マスク氏が代表する純粋に視覚的な派閥が予想していなかったのは、LiDAR のコストが予想よりも早く下がったことです。 近年、LiDAR は機械式からソリッドステート式へと進化しており、急速なコスト削減を実現しています。このうち、OPA型固体ライダーは量産化後に価格が200ドルを下回ると予想されている。 LIDARのコストが急速に低下したのは、中国の関連産業チェーンが成熟し、完成し、コストが急速に低下したためでもある。特に、中流レーザーレーダーの国内メーカーとしては、Hesai Technology、DJI、Huawei、RoboSense、Raytheon Intelligenceなどがすでに多数存在しています。 LiDARのコスト削減が重要 現在、ほとんどの自動車メーカーが LiDAR ソリューションを採用している重要な理由の 1 つは、このソリューションが迅速に実装でき、複数のセンサーの連携により安全な冗長性を実現できることです。特に短期的には、ディープラーニング アルゴリズムに基づく純粋なビジョン ソリューションは、道路状況を完全にカバーしておらず、その安全性は依然として疑問視されています。LIDAR ソリューションの方が安全です。 SpaceX のロケット回収、一般向け部品の使用、カメラのみの使用など、マスク氏のこれまでの普通の人と異なる行動を振り返ってみると、その本質はコスト削減という 1 つの点にあります。 さらに、純粋なビジョンソリューションでは、自動車メーカーが膨大なユーザーデータにアクセスし、独自のソフトウェア開発部門を設立する必要があり、アルゴリズム開発は極めて困難です。これに最初に賭けたテスラは、先行優位性を獲得し、技術障壁を形成できる可能性があります。競合他社が全て純粋なビジョンソリューションを採用するのであれば、テスラを追い続けることしかできません。 しかし、マスク氏が予想していなかった唯一のことは、LiDARのコストがこれほど急速に低下し、競合他社の量産車がこれほど急速に市場に投入されることだった。 マスク氏はかつて、レーダーとカメラについての自身の考えを詳細に説明した。「レーダーの波長では、現実世界は奇妙なゴーストワールドのように見える。」金属を除いて、ほぼすべてが半透明です。レーダーと視覚が一致しない場合、どちらを信頼しますか?視覚は精度が高いため、2 つのセンサーの融合に賭けるよりも、視覚の改善に 2 倍の労力を費やす方が賢明です。センサーの本質はビットのストリームです。カメラから得られるビット/秒の情報量は、レーダーやライダーから得られる情報量よりも数桁多くなります。レーダーは、統合する価値があるように、ビットストリームの信号/ノイズを大幅に増加させる必要があります。視覚処理能力が向上するにつれて、カメラの性能は現在のレーダーをはるかに上回るでしょう。そのため、視覚とレーダーが一致しない場合は、カメラを信頼すべきだとマスク氏は考えている。 しかし、マスク氏は自分自身のためにも逃げ道を残したという点で賢明だ。2021年1月1日頃、海外のネットユーザーがシリコンバレーでモデルS、モデルY、モデルXなど、珍しいテスラのモデルを撮影した。どちらも360度をカバーするレーザーレーダー検知システムを搭載しています。元テスラのエンジニアによると、テスラは以前からルミナーのライダーを購入している。カメラが奥行き認識を行っている間、テスラはライダーが出力するポイントクラウドデータを手動で注釈付けしたり比較したりするために使用するという。 マスク氏の度重なる発言にもかかわらず、テスラは技術的な観点から自社の車両にライダーを搭載する予定はない。しかし、業界では、テスラがライダーを採用しない理由は、単にコストが商業化の臨界点に達していないからだという意見がずっと一般的でした。おそらく、マスク氏の発言をあまり真剣に受け止める必要はないだろう。結局のところ、「アイアンマン」や「火星人」というレッテルを除けば、彼は成功したビジネスマンであり、マーケティングの達人なのだ。 04 結論結局のところ、自動車の運転に関しては、安全性と信頼性がすべての技術の前提条件です。現在の技術レベルでは、安全で冗長性のあるセンサーソリューションを使用することは、より信頼性の高い方法であり、ユーザーの安心感を高めることもできます。純粋なビジョンソリューションであれ、レーダーソリューションであれ、それぞれに長所と短所があり、1 つのセンサーを使用して世界を征服することは困難です。 そのため、業界では、L2以上の機能を実現できる自動車には、製品の安全性と信頼性を確保するために、さまざまなセンサーと多数の冗長設計を搭載する必要があるというのが一般的な考え方です。現在、インテリジェント運転のレベルが上がるほど、搭載されるセンサーの数が増えることが認識されています。 車両構成情報に関する関連統計によると、レベル2のインテリジェント運転には、超音波レーダー、長距離・近距離レーダー、サラウンドビューカメラなど、9~19個のセンサーが必要です。レベル3に発展するには、19~27個のセンサーが必要になると推定されており、レーザーレーダー、高精度ナビゲーションおよび測位などが必要になる可能性があります。現在販売されている新エネルギー車製品には、いずれも多数のカメラ、ミリ波レーダー、超音波レーダーなどのセンサーが搭載されています。 そのため、この2つの陣営は、将来本当に頂点に立つことになるかもしれないし、あるいは長い間共存し続けるかもしれない。結局のところ、安全性は自動運転の発展の礎であり、根本である。安全性を確保するという前提の下で、さまざまな技術ルートを統合および排除することで、安全の確率は100%に近づくだろう。したがって、視覚アルゴリズムのさらなる進歩と人間の目のレベルへのさらなる接近が期待される。レーザーレーダー業界はより繁栄し、価格は引き続き低下し、プリインストール型大量生産の要件をよりよく満たすことができる。さまざまな技術の進歩を一緒に目撃し、自動運転の究極の目標に貢献しましょう。 オリジナルリンク: https://mp.weixin.qq.com/s/WS7pfvCOjD5nvJurTfZCrQ |
<<: LLaMA の微調整によりビデオメモリの要件が半分に削減され、清華大学は 4 ビットの最適化を提案
>>: ロボット工学と自動化は医療業界にどのような影響を与えるでしょうか?
人工知能を現実のものにするには?では、データから知恵に至るまで、人工知能を現実のものにするにはどうす...
生体認証技術は、市場に登場した最新の AI イノベーションのおかげで、特に 2021 年には長年にわ...
人工知能は歴史的に、やや相反する2つの陣営の間を揺れ動いてきました。一方では、ノーム・チョムスキー、...
[[318426]]現在、人工知能技術は急速に発展しており、特に医療保健の分野では、生活の各分野で広...
2018年にGoogleはBERTをリリースしました。リリース後すぐに11のNLPタスクで最先端(S...
著者 | プリタム・ボルドロイ徐潔成編纂暗号通貨は死んだのか?この質問に対する答えは、誰が答えるかに...
これらの施設は重要であるにもかかわらず、あまり理解されていません。しかし、最近ではデータセンターに注...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
伝説のプログラマー、ジョン・カーマックと強化学習の父、リチャード・サットンが力を合わせ、 All i...
最近、TensorFlow は公式バージョン 2.8.0 をリリースしました。バージョン 2.7 の...
[[333298]]現在、チップのパフォーマンスの向上は限られているため、分散トレーニングは超大規模...
大規模言語モデル (LLM) の開発により、実務者はより多くの課題に直面しています。 LLM からの...
顔認識技術は、複製不可能、非接触、高速などの利点により、インテリジェントな通過と迅速な本人確認に優れ...