自動運転の研究の方向性は間違っているのか?

自動運転の研究の方向性は間違っているのか?

1 知覚ソリューション: 純粋な視覚とマルチセンサー融合

自動車が自動運転を実現するには、まず周囲を「見る」ことができ、環境内のさまざまな静的および動的オブジェクトをある程度理解できなければなりません。このプロセスが自動運転の「知覚」です。知覚には、カメラ、ライダー、ミリ波レーダーなど、車体に取り付けられたさまざまなセンサーに頼る必要があります。

現在主流の認識ソリューションは2つあります。1つはWaymoに代表されるマルチセンサー融合ソリューションで、カメラとレーダーを同時に使用して情報を収集し、カメラとレーダーの特性を利用して、それぞれの得意とするデータの種類とタスクを処理し、処理結果を融合して統一された認識結果を得ます。もう1つはTeslaに代表される純粋視覚ルートで、カメラのみをセンサーとして情報収集し、純粋なコンピュータービジョンネットワークを構築して認識結果を出力します。これは人間の目の認識モードに似ています。

まず、これらのさまざまなセンサーの機能と特性を見てみましょう。

(1)LiDAR:赤外線レーザーを発射し、反射光を受信することで物体までの距離を測定するアクティブセンサー。視線範囲は一般的に30〜200メートルです。非常に近い物体を検出することは困難です。空間分解能は高く(角度精度は0.1度に達する)、速度測定精度は低いです。暗闇には強いですが、雨、雪、霧には弱いです。物体を大まかに分類できますが、車線や交通標識などの2次元構造を認識することはできません。

(2)ミリ波レーダー:レーザーの代わりに電波を使用する点を除けば、ライダーと同様の動作をするアクティブセンサー。視線範囲はライダーよりも広く、特に近距離の物体を検出する場合に有効。ミリ波レーダーは1メートル以内の範囲の物体を検出できるが、空間分解能は低い。距離が長くなるにつれて、小さな特徴を解像する能力は低下する。しかし、ミリ波レーダーはドップラー周波数シフトを利用して速度を直接測定することができ、暗闇、雨、雪、霧の中でも優れた堅牢性を維持できる。さらに、ミリ波レーダーは物体分類性能が低く、2次元構造も認識できない。

(3)カメラ:受動光画像認識法を用いて認識・知覚する受動センサー。理論上、カメラ1台では物体の距離を正確に特定できない。ステレオカメラは距離を測定できるが、その範囲は限られている。しかし、現実には、テスラは認識アルゴリズムにより、カメラのみで物体の深度を測定できる能力を徐々に実現している。空間分解能はカメラのパラメータに依存し、ライダーやミリ波レーダーよりも分解能次元が高く、物体の色などの情報を同時に識別できる。画像内の物体の時空間情報から速度を計算できる。同時に、物体の分類はより多様化し、車線などの2次元構造も認識できる。しかし、現在のところ、暗闇、雨、雪、霧などの厳しい環境条件ではカメラの堅牢性が低い。

一般的に言えば、LiDARは遠くも近くもはっきり見えますが、近くは見えません。遠視の目です。夜間視力はありますが、悪天候では無力です。3次元構造しか見えず、2次元平面構造は見えません。ミリ波レーダーは遠くも近くも見ることができますが、遠くなるほど鮮明に見えなくなります。近視の目です。夜間視力があるだけでなく、悪天候でも見ることができるというスーパーパワーもあります。ただし、2次元平面構造も見ることができません。カメラが自身の能力に基づいて距離を正確に判断することは困難です。しかし、アルゴリズムのサポートにより、この機能を開発することができます。カメラは、車線、物体分類、色などの2次元構造を含む、より多くの情報を見ることができます。スーパーアイですが、照明が不十分、雨、雪、霧などの過酷な環境では機能が制限されます。

上記のセンサーの特性を考慮して、マルチセンサーフュージョンの現在のアイデアは、それらの長所を活用することです。 LiDARは、さまざまな照明条件下で距離を検出し、オブジェクトの形状分類を完了するために使用されます。 ミリ波レーダーは、近くのオブジェクトまでの距離を検出し、厳しい気象条件下での自動運転認識の堅牢性を確保するために使用されます。 カメラは、オブジェクトを詳細に識別して分類するだけでなく、車線、交通標識、信号機、および交通のために習得する必要があるその他の情報にも使用されます。

一般的に、異なるセンサーの認識結果は「ポストフュージョン」方式で融合されます。つまり、各センサーは独立して処理してターゲットデータを生成します。すべてのセンサーがターゲットデータの生成を完了すると、メイン処理によって融合されます。


純粋なビジョンルートでは、カメラを知覚センサーとしてのみ使用します。そのアイデアは、深く開発し、カメラを通じてより多くのレベルのデータ情報を収集し、強力なアルゴリズムを継続的に改善することで、データから必要な結果をマイニングすることです。


以下では、エンジニアリング コスト、技術的な複雑さ、開発の可能性という 3 つの側面から、これら 2 つの認識ルートを比較します。

プロジェクトコスト

LiDARやミリ波レーダーと比較すると、カメラのコストは最も低いです。単眼カメラの価格は通常100ドル未満ですが、LiDARの価格は現在約5,000ドルです。一部の専門家は、今後数年間でLiDARが普及すると、コストは500ドルを下回ると予測していますが、それでもカメラのコストよりも高いです。したがって、純粋なビジョンソリューションのシステムコストは、マルチセンサーフュージョンソリューションのシステムコストよりもはるかに低くなります。

技術的な複雑さ

マルチセンサー融合ソリューションの複雑さは、主に「融合」レベルに反映されています。異なるセンサーの特性が異なるため、収集されるデータの種類も大きく異なります。融合前または融合後の考え方に関係なく、異なるモダリティのデータを、融合用に特別に設計された同じ時空間平面に均一にマッピングする必要があります。ここでは、融合のずれや情報損失などの問題を考慮する必要があります。同時に、異なるセンサーが異なる結果を認識したときに、誰を信頼するかを選択するという問題も解決する必要があります。

ピュアビジョンソリューションの複雑さは、主に認識アルゴリズムのレベルで反映されます。カメラで収集されたデータと同じモードであるため、データ融合の難しさはマルチセンサーソリューションよりもはるかに小さくなります。ただし、カメラ自体の機能の制限により、距離計算や過酷な環境での認識能力など、カメラデータからターゲット情報を識別するには、より複雑なアルゴリズムモデルを設計する必要があります。

発展の可能性

小鵬汽車の副社長である呉新洲氏はかつて、「ビジョンの潜在力は無限であり、まさに宝物だ。長期的に見れば、ビジョンは万能だが、この能力の成長はプロセスである」と語った。

各種センサーの特性を踏まえると、カメラの機能は、2次元構造を認識する能力など、自動運転の目標タスクにとってかけがえのないものです。運転中は、車線や交通標識などの2次元構造の認識が不可欠です。逆に、カメラに対するレーダーシステムの機能上の利点は、距離認識や夜間や悪天候での堅牢性の問題など、アルゴリズムを通じて解決できます。

テスラは現在、視覚ソリューションの距離認識の問題に対する解決策を見つけました。BEV鳥瞰図座標系を確立し、Transformerニューラルネットワーク機能を活用することで、地面の傾斜や曲率などのパラメータをトレーニングネットワークに内在化することができ、地面が平らであるという仮定に基づいて距離を計算することしかできない視覚ソリューションによって生じる精度不足の問題を解決します。アルゴリズムの継続的なトレーニングと反復により、純粋な視覚ソリューションの距離認識能力は徐々にレーダーシステムに近づき、さらにはそれを上回るでしょう。

カメラの夜間視力が低いという問題に対応するため、テスラは「光子」を直接ニューラルネットワークの入力とする視覚処理ソリューションを提案しました。「光子」は、カメラが収集するデータの最も原始的な形式です。従来の視覚ソリューションは、カメラが収集した生画像データをISP(画像信号処理)モジュールで処理して、人間の目の画像化原理を模倣したより高品質の画像を取得します。ただし、この手順では、元の情報の一部が失われます。「光子」データを直接使用することで、元の情報を最大限に保持できます。そのため、暗闇では、歩行者のかすかな反射も光子の変化として記録され、カメラは人間の目を超える夜間の視覚範囲を実現できます。成熟すると、純粋な視覚ソリューションの夜間の堅牢性の問題を解決できます。

雨、霧などの悪天候の問題は、干渉の影響を受けません。可能な限りリスクを避けるための少量の目に見える手がかりに基づく他の車や歩行者ウラルネットワークは、「光子」の認識と相まって、悪天候における純粋な視覚ソリューションの知覚能力が大幅に改善されました。

同時に、マルチセンサー融合の知覚アーキテクチャと比較して、純粋な視覚知覚アーキテクチャはより美的です。融合アーキテクチャは、マルチモーダルカップリングを伴い、多くのシステムノードを持ち、比較的複雑な構造を持っています。視覚アーキテクチャは、統一された構造のデータを入力として使用し、エンドツーエンドの学習を完了し、ターゲットタスクの結果を出力します。全体的な構造は非常にシンプルですっきりしており、純粋な視覚ルートのアルゴリズム効率とシステム操作効率が優れています。

上記の側面から、ほとんどの企業の視覚アルゴリズムは十分に成熟しておらず、自動運転の安全性は極めて重要であるため、短期的にはレーダーで機能を補完する必要があると筆者は考えています。ただし、視覚アルゴリズムが成熟するにつれて、マルチセンサー融合ソリューションは一時的なソリューションに過ぎず、純粋な視覚ソリューションが最終的な結果となる可能性があります。

2 自動運転への道: 漸進的 vs. 飛躍的

自動運転はSAEレベルによってL1~L5に分けられます。L1~L3は一般的にアシスト運転と呼ばれ、中核運転主体は依然として人間ですが、L4~L5は無人運転と呼ばれ、中核運転主体は車です。L4以上の無人運転は技術レベルから工学レベルまで非常に複雑なため、業界の自動運転企業は無人運転を実現するために2つの異なるルートを採用しています。

1つは、テスラ、NIO、小編、Li Autoなどの新車メーカーが代表する増分ルートで、L1からL5へと徐々に進化する開発方式を採用しています。現在、基本的にL2+段階にあり、L3に向かっています。増分ルートの核心は、データからアルゴリズムへの反復的な閉ループを確立し、拡大し続ける高品質のデータ規模を使用してアルゴリズムを継続的に最適化し、複雑な自動運転タスクの核心リンクを徐々に克服し、最終的に完全な無人運転を実現することです。

1つは、WaymoやBaidu Apolloなどのテクノロジー企業が代表するリープフロッグルートです。このルートの基本的な考え方は、低レベルの自動運転の技術フレームワークは、L4の自動運転に直接移行することが難しいというものです。リソースが限られている場合は、最終形態に直接焦点を当てる必要があります。そのため、自動運転をワンステップで実現できることが期待されています。主に大規模なフリートを通じて路上テストデータを取得し、自動運転アルゴリズムネットワークをトレーニングします。リープフロッグルートの核心は、実装に適したシナリオとビジネスモデルを見つけることです。実装されているシナリオには、主にロボタクシーやロボバスなどの乗客シナリオ、港や鉱山などの商業シナリオが含まれます。

以下では、ビジネス モデルと直面する主な課題の観点から、これら 2 つのルートを比較します。

ビジネスモデル

完全自動運転の実現は長期戦であり、一夜にして達成できるものではないことは承知しています。そのため、どのルートを取るにせよ、持続可能な発展を確実にするための実施と造血能力を確保するためのビジネスモデルを選択することが重要です。

漸進路線のビジネスモデルは、主に自社製造または自動車会社と協力して自動車を製造し、急速な量産化を実現することで商業利益を得ることです。現段階では、ユーザーの実際のニーズに基づいて、または需要を適切に誘導しながら、高速巡航や自動駐車などの自動運転機能を徐々に実装し、最終的にはOTAソフトウェアの反復とアップグレードモデルを通じて、完全無人運転に移行します。このモデルは実装コストをより重視するため、ハードウェアの選択、サプライチェーンの統合、製造レベルなどに多くのエネルギーを投入します。

初期の頃、リープフロッグルートは主に資本注入によって資金を調達していましたが、資本にはリターンが必要です。テクノロジーの継続的な発展に伴い、企業は徐々に商業実装の道を模索し、自立したビジネスを実現しています。現在、2つの主要なビジネスモデルがあります。1つは、ロボタクシー、ロボバスなどを通じて輸送サービスのニーズを満たし、サービス価値を獲得することです。もう1つは、港、鉱山などの特殊なシナリオに参入することです。これらのシナリオはリスク要因が高く、手動操作を自動運転に置き換えて、高い人件費を節約します。このモデルは、増分モデルよりも実装コストの影響を受けにくいですが、シナリオが十分に正確で、自動運転アルゴリズムが十分に効果的である必要があります。

比較すると、増分ルートのビジネス モデルは現時点ではより明確ですが、リープフロッグ ルートのビジネス モデルは実装シナリオが限られているため、まだ検討中です。

主な課題

漸進的ルートと飛躍的ルートが直面する課題は異なります。前者の主な課題は、参入障壁が比較的低いために激しい競争につながることです。一方、後者の主な課題は、政策、規制、技術の成熟が予想よりも遅く、長期的に膨大な消費につながることです。

漸進的発展ルートを採用する企業は主に3種類ある。1つは海外のテスラや国内の新興勢力であるNIO、Ideal、Xpengなどを含む自動車製造の新興勢力。1つはメルセデス・ベンツ、SAIC、長城などの伝統的なOEM。もう1つはファーウェイ、バイドゥ、シャオミなどのテクノロジー企業。さまざまな勢力が次々と参入し、市場スペースを競い合っており、非常に激しい競争が繰り広げられている。漸進的発展を通じて最終的に無人運転を実現するためには、一定の市場規模を確保する必要がある。そのため、最終的に淘汰される企業もあるだろう。現時点では、テスラだけが主導的な立場にあり、他の企業との差は明らかではない。

リープフロッグアプローチを実行するには、成熟した技術と完全なサポート政策と規制という2つの主要な条件を満たす必要があります。その中で、技術成熟度レベルでの自動運転が直面する最大の課題は、コーナーケースの処理性能です。路上テストから得られたデータだけですべての極端なシナリオをカバーするには長い時間がかかる可能性があります。また、自動運転に関する政策と規制の改善にかかる時間は制御不能であるため、最終的にフルシナリオの自動運転を実現する時期は遠い可能性があり、このプロセスに必要な資金の額は膨大です。

したがって、漸進的ルートのビジネスモデルは明確であり、直面する課題は比較的制御可能であるため、強力な資金力や既存のシナリオを持ち、リープフロッグルートを取ることを主張する少数の企業を除いて、ほとんどの企業は漸進的ルートを選択することを好みます。これには、もともとリープフロッグルートを取っていた一部の企業も含まれますが、これらの企業も漸進的ルートを考慮し始め、同時に二足歩行を選択し始めました。

3. 結論

認識ソリューションであれ、実装パスの選択であれ、そこには一貫した思考ロジック、つまり自動運転の最終的な目標は何か、そしてその目標に基づいてルートを考えるというロジックが根底にあります。

AIデーでマスク氏は、無人運転技術をより幅広いシナリオに移行し、ヒューマノイドロボットを作成することを提案しました。小鵬や小米などの企業は、四足歩行ロボットの分野に参入しています。ロビン・リー氏も、百度AI開発者会議で「自動車ロボット」の概念を提案しました。したがって、無人運転技術は、自動車の運行効率を向上させるための単なるツールではないと信じる理由があります。その最終的な目標は、自動車をキャリアとする汎用人工知能技術を形成することかもしれません。

「汎用人工知能」の創出を目標とする場合、データの豊富さと質は非常に重要です。アルゴリズムはデータに役立ち、コンピューティングパワーはアルゴリズムに役立ちます。データは人工知能技術の発展を推進する「核燃料」です。データを最初に習得した人が、汎用人工知能の実現において有利になります。

この観点から、視覚ルートは、色、テクスチャ、セマンティクスなどの多次元情報を含む低レベルのデータを取得できます。プログレッシブルートの特性は、量産規模の継続的な拡大の必要性を決定し、シーン全体をカバーするデータを取得する可能性が高くなります。したがって、これら2つのルートは、自動運転の最終目標に近いオプションである可能性があります。

<<:  大規模モデルのトレーニングコストがほぼ半分に削減されます。シンガポール国立大学の最新の最適化ツールが現在使用されています

>>:  産業オートメーションにおけるコンピュータビジョンの応用と利点

ブログ    
ブログ    
ブログ    

推薦する

人工知能が科学を変える4つの方法

新たな医学研究から宇宙の新たな理解まで、新しいモデルは科学界に衝撃を与えました。世界中のほとんどの人...

2017年中国・米国データサイエンス比較レポート:Pythonが年間平均給与11万ドルで1位

[[208216]] ***ニュースによると、Kaggleは最近、機械学習とデータサイエンスに関する...

データサイエンスに必須の Python パッケージ 10 個

[51CTO.com クイック翻訳] データサイエンスに対する人々の関心は過去 5 年間で大幅に高ま...

一緒にハイキングに行きませんか? Baidu Brain EasyDLは、企業向けAI実装の山を登るお手伝いをします

エンタープライズ AI モデルの開発では、データの準備からモデルのトレーニング、サービスの展開まで、...

...

エッジAIを真の変革に

エッジ AI の導入は幅広い業界で増加しています。この傾向が続くと、ビジネスだけでなく社会も変革する...

人工知能は最終的に人間に取って代わるのでしょうか?現時点では、あらゆる面で人間を超えることは難しいでしょう。

ここ数年、人工知能技術が徐々に発展するにつれ、社会の中で人工知能に対するさまざまな見方が現れ始めまし...

祭壇から一般公開へと移行する冬季オリンピックでAIブラックテクノロジーを公開

現代のスポーツ競技は、アスリート同士のタイム競争であるだけでなく、舞台裏でのさまざまなハイテクノロジ...

科学技術の時代におけるあらゆる産業の発展を可能にするAIIA2020人工知能開発者会議が開幕

人工知能は科学技術革命を牽引する重要な原動力として、国家戦略計画や産業界の注目の的となり、オープンソ...

...

10億ピクセル画像のマルチスケール特性評価のためのスタンフォード大学の新しいニューラルシーン表現方法がSIGGRAPHに選出されました

現在、ニューラル表現は、レンダリング、イメージング、幾何学モデリング、シミュレーション アプリケーシ...

...

高所から物が投げ出される悲劇が多発。AI監視システム「私があなたを守ります」

近年、高所から物が投げられたり落下したりして負傷する事故が多発しています。水のボトル、スイカの皮、缶...

強化学習と世界モデルにおける因果推論

1. 世界モデル「世界モデル」という用語は認知科学に由来しており、認知科学ではメンタルモデルと呼ばれ...

この病院のAI看護師は、人間の看護師の作業負荷を30%削減するためにオンライン化されました

[[270607]]看護師は医療現場を問わず需要が高いです。米国労働統計局の報告によると、看護師の求...