主流の自動運転ソリューションの詳細な分析: 商用車と乗用車の基本的なニーズの類似点と相違点は何でしょうか?

主流の自動運転ソリューションの詳細な分析: 商用車と乗用車の基本的なニーズの類似点と相違点は何でしょうか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な要約

この記事では、センサー構成、システムアーキテクチャ、認識、予測、計画、制御の観点から、商用車と乗用車の主流の自動運転技術を分析し、まとめます。商用車と乗用車の自動運転技術に対する要求の類似点と相違点を分析します。さらに、テスラ、百度、モメンタ、小鵬などの代表的なテクノロジー企業との組み合わせで、現在の自動運転システムの主要技術を分析し、まとめました。

一般的な乗用車および商用車の自動運転技術ソリューションの分析: Inche、Momenta、Tesla、Baidu Apollo。

世界中の自動運転企業は上場廃止や解雇を経験し、技術の完成度、安全性、収益モデルなど多くの面で疑問視されてきましたが、依然としてさまざまな自動車会社やテクノロジー企業の間で競争の方向性として人気があります。しかし、現在、自動運転に対する社会全体と資本の注目は、過去2年間の早期導入、目新しさ、将来の特性から、自動運転ビジネスモデルがいつ大規模に導入できるか、その収益モデルをどのように構築し推進すべきかを考えることに移っています。自動運転の実装と収益モデルは、自動運転ソリューションを搭載する車両の種類と密接に関係しており、自動運転車両の種類によって実装モデルと運用モデルは大きく異なります。

1. 商用車と乗用車の違い

現在の自動運転は、車両の用途によって、乗用車自動運転と商用車自動運転の2つに分けられます。乗用車の自動運転の主な目標は、ロボタクシーとプリインストールされた大量生産です。顧客グループは比較的明確であり、自動運転ソリューションはより多様です。乗用車の自動運転分野には多くのテクノロジー企業が存在する。現在、第一線に立つのは、Huawei、Xpeng、Baidu Apollo、AutoX、WeRide、Didi、Pony.ai、Momenta、Momentaである。独自の自動運転を開発している乗用車OEMには、FAW、Dongfeng、GAC、Zeekrなどがある。乗用車の自動運転の現在のソリューションは、基本的にBEV+Transformerと決定されており、重知覚と軽マップソリューションを備えています。高速長距離知覚などの一部の特殊なシナリオでは、BEV長距離知覚の欠陥を補うために、ターゲットレベルのポストフュージョンソリューションが検討されています。商用車は複雑な運転特性を持ち、そのターゲット顧客は固定されていません。物流・運送会社や個人の自動車所有者などが含まれます。また、商用車には多くの種類があり、運転条件は大きく異なります。そのため、商用車の自動運転ソリューションはよりカスタマイズされています。商用車の自動運転分野で競合する企業は、Zhijia、Zhitu、Yingche、TuSimple、Qiangua Technology、Sany Haixing Intelligent Driving、Shaanxi Automobile、DeChuang Futureなどです。 Qiangua TechnologyとZhituに関する公開情報はほとんどありません。Zhituの社内技術開発者によると、同社も研究段階のBEV+マルチタスク学習ソリューションを持っているとのことですが、まだ量産には至っていません。 CICVレポートやその他のプレゼンテーション資料に基づいて、Plus.aiは、自社の自動運転ソリューションにはBEVソリューションと従来のポストフュージョンソリューションの両方が含まれていると推測しています。 TuSimpleは現在、BEVを主なソリューションとする高速物流に重点を置いています。他の商用車自動運転企業の技術ソリューションは、主に第1世代のマルチセンサーターゲットレベルのポストフュージョンソリューションです。全体的に、彼らの技術スタックは乗用車の技術スタックよりほぼ1世代遅れています。

2. 商用車および乗用車の自動運転ソリューションのターゲットの分析と選択

本稿では、自動運転技術ソリューションの現在の構成と動向を簡単に紹介するために、代表的な自動運転企業3社を選び、その技術ソリューションと商品化のレイアウトを紹介する。その中でも、乗用車自動運転ソリューションでは、代表性が高いテスラとモメンタを選んだ。テスラの技術ソリューション情報は充実しており、典型的な第2世代のBEV+Transformerベースの自動運転ソリューションである。 Momentaは技術事前研究で最先端を走っており、大規模モデルベースの汎用自動運転コントローラDriveGPTと一部のエンドツーエンド技術を量産自動運転ソリューションに導入した最初のテクノロジー企業の1つです(上海人工知能研究所は、エンドツーエンドおよび部分的なエンドツーエンドの自動運転技術研究に非常に強いです。興味のある読者は、UniADを手がかりに確認できます)。

本稿では商用車の自動運転ソリューションとしてWincheを取り上げます。Wincheの具体的な情報については、2022年9月に発表された「自動運転トラックの量産化に関するホワイトペーパー」を参照してください。ただし、資料には具体的なソリューションが欠けており、ほとんどのソリューションは常識的な紹介に過ぎず、あまり参考になりません。ただし、Wincheの資料の方が充実しているため、本稿ではWincheを例に商用車の自動運転システムソリューションを簡単に紹介します。 Yingche の自動運転用大型トラックのフル構成は 7V3L5R です (V はカメラ、L は LiDAR、R はミリ波を表します。7V3L5R は、車両に 7 台のカメラ、3 台の LiDAR、5 台のミリ波レーダーが搭載されていることを意味します)。ただし、このソリューションには現在、トレーラー角度測定センサーが不足しており、基本的に後退制御に関連するアプリケーションを開発できません。そのため、実際の駐車着陸シナリオには基本的に後退シナリオ (倉庫の出入り、作業場の積み下ろしなど) が含まれるため、ほとんどの実際の駐車着陸シナリオには適していません。さらに、商用車のモデルとサイズの制限により、Yingcheソリューションのカメラのオーバーラップ領域は小さく、少なくとも視覚的にはBEV認識フレームワークを実現することは困難です。

3. 商用車および乗用車向け自動運転ソリューションの分析

この記事では、コントローラー、センサー構成、システムアーキテクチャ、認識、位置決めモジュール、調整および制御モジュールの 4 つの部分を紹介します。また、UniAD など、実際の車両に優れた効果をもたらす最新の学術的ソリューションもいくつか紹介します。

3.1 センサー構成

図1: Incheの自律型大型トラックは、3つのレーザーレーダー、7つのカメラ、5つのミリ波レーダー(7V3L5R)のセンサー構成を使用しています。

Incheのセンサーは7V3L5R構成(図1)を採用しており、幹線物流におけるインテリジェント運転支援に適しています。Incheは、自律運転ソリューションを推進する際に高速道路や幹線道路でのパフォーマンスにも重点を置いており、オフラインで幹線インテリジェント運転体験活動を頻繁に開催しています。しかし、前述のように、Yingcheのセンサーソリューションは、キャンパスでのL4自動運転の実装には適しておらず、BEV認識フレームワークにも適していません。これは、ターゲットレベルのポストフュージョンに基づく従来のセンサー構成ソリューションに似ています。商用車の実際の特性に応じて、BEVフレームワークにさらに沿う場合は、おそらく11Vソリューションを使用することになります。公園内のほとんどの商用車配備シナリオに適応するには、最小センサー構成は 3V4L4R (ポストフュージョン ソリューションを使用) または 11V2L4R (BEV ソリューションを使用) である必要があります。どちらのソリューションも、メインの吊り下げ角度の測定を考慮に入れています (1 つのレーザー レーダーを使用)。 Yingcheの現在の自動運転ソリューションのハードウェアコストは、暫定的に5万~7万元と見積もられている。乗用車はサイズが比較的固定されており、小型であるため、センサー構成も比較的均一です。業界でよく知られているテスラは、8Vピュアビジョンソリューションを使用しています(図2)。 2023年10月の第9回Haomo AI Dayの情報によると、クロスレイヤーメモリパーキング、高速道路/市街地NOH、フルシーン障害物回避、フルシーンアシスタンス機能などを含むHaomoの現在の最高級自動運転ソリューションは、11V1L1R12S(カメラ11台、オプションのライダー1台、ミリ波1台、超音波12台)のセンサー構成を採用している(図3)。 Haomoによると、コントローラーを含むこのソリューションの総コストは1万元以内に抑えることができ、商用車と比較して、またはポストフュージョンソリューションとBEVソリューションと比較して、つまり第1世代の自動運転ソリューションと第2世代の自動運転ソリューションと比較して、大きなコスト上の優位性があります。これが、多くの乗用車会社が第2世代の自動運転ソリューションの開発に多額の資金を費やしている理由です。

その他の認識ソリューションとしては、Xiaopeng G6 センサー ソリューションは 11V2L5R12S であり、Wenjie M5 EV インテリジェント運転バージョンは 11V1L3R12S ソリューションを採用しています。一般的に、自動運転センサーは主にカメラで、通常は7V〜11Vです。純粋な視覚ソリューションは少なく、主なソリューションはカメラ+ミリ波(1〜5R)+ライダー(1〜3L)のマルチセンサー融合です。その中で、BEV +トランスフォーマーテクノロジーフレームワークに基づく自動運転ソリューションは、ライダーの数を1つに減らすか、ライダーの必要性を完全に排除することができ、コスト面で大きな利点があります。

図2 テスラのピュアビジョン(9V)センサーソリューション

図3 Momentaのハイエンド自動運転センサーソリューションと機能

3.2 コントローラソリューション

図4 左: Inche コントローラーのレンダリング; 中央: Tesla HW4.0 コントローラーの実際の画像; 右: Haomo Zhixing 8,000 元コントローラーのレンダリング

図 4 は、Inhex、Tesla、Momenta の現在の自動運転コントローラーの半物理的レンダリングを示しています (Tesla は物理的レンダリングです)。 Tesla の HW4.0 コントローラーには、20 個の CPU コア、3 個の NPU が含まれており、インフォテインメント モジュールの APU と GPU は PCB ボード上に統合されています。コントローラーには 2 つの FSD チップが搭載されており、そのうち 1 つはバックアップ コンピューティング パワーとして使用できます。インフォテインメントとインテリジェント ドライビングはそれぞれ 2 つのプロセッサに展開され、機能の分離と安全性の保証を実現します。テスラ コントローラーの CPU 構成から、現在のテスラ自動運転システムでは CPU の計算能力に対する需要が依然として比較的大きいことがわかります。筆者の実際の開発経験によると、Intel 8700 CPUとUbuntuオペレーティングシステムを使用しても、4チャネルLiDAR、4台以上のカメラ、3台以上のミリ波、およびCPUコンピューティングパワーに大きく依存する現在のSLAMアルゴリズムを処理する場合、CPU使用率が90%以上に達し、システムがフリーズします。そのため、CPUコンピューティングパワーも、自動運転システムが注意しなければならないパフォーマンスパラメータの1つです。NvidiaのOrin 254TOPSコンピューティングパワーSOCには現在、12個のA78コアが搭載されており、そのうち11個が使用可能で、CPUコンピューティングパワーは228K DMIPSであり、基本的に7V4L3Rセンサー構成での機能開発要件を満たしています。

Haomo Zhixing の Haomo コントローラーは、Qualcomm の Snapdragon Ride プラットフォームをベースとし、SA8540P SoC + SA9000 の組み合わせを採用しています。SoC チップ 8540 には CPU + GPU とディープラーニング異種チップ 9000 が含まれています。コントローラーは、6つのギガビットイーサネットネットワーク、12台の8メガピクセルカメラ、5台のミリ波レーダー、3台のライダーへのアクセスをサポートします。シングルチップの消費電力は75W、シングルボードのコンピューティングパワーは360TOPSで、4枚のボードは1440TOPSにアップグレードできます。安全冗長チップはInfineon TC397で、L1/L2レベルの劣化制御を実行できるほか、現在のL3およびそれ以降のL4/L5などのフルシナリオ自動運転機能にも対応できます。

図5: インチ自動運転コントローラアーキテクチャ

量産されている各種自動運転コントローラのハードウェア構成とソフトウェアアーキテクチャに基づき、Winche制御アーキテクチャ(図5)を例にとると、現在量産されている自動運転コントローラは一般的に以下の特徴を持っていると結論付けることができます。

量産される自動運転制御は、一般的に、汎用コンピューティングドメイン(CPU)、モデル加速ドメイン(NPU、GPU、およびディープラーニングモデル加速をサポートするその他のコンピューティング処理ユニット)、安全ゾーン冗長制御ドメイン、およびモジュール間の通信モジュール(通常はスイッチチップ)で構成されます。図6に示すように、これはTZTEKのL2 + / L3自律運転ドメインコントローラです。その一般的なコンピューティングドメインは国産のE3 + X9Uプロセッサを使用し、モデルアクセラレーションドメインはHorizo​​n J5 SOCを使用しています。J5、E3、およびX9Uモジュールは、RTL9068とRTL9072スイッチによって接続されています。コントローラは、安全ゾーン冗長制御機能もサポートしています。

図6 天準L2+/L3国産自動運転コントローラ(右上は接続トポロジー図)

3.3 システムアーキテクチャ

高いコンピューティング能力、高いスループット、マルチプラットフォームへの適応性に対する需要の高まりにより、現在の自動運転システムは、ハードウェア仮想化やコンテナ化など、クラウドコンピューティング分野のより成熟したフレームワークや技術を徐々に取り入れています。ただし、これらの技術は一般的に基本的なサポート技術であるため、大手テクノロジー企業の自動運転システムは一般的に重視されていません。ただし、HuaweiやBaiduを含む多数の企業がすでに関連技術を使用して、自動運転システムのマルチプラットフォームへの適応性を高め、コンピューティング能力をハードウェアから分離し、車両ソフトウェアシステムをサービス指向にし、システム機能またはサービスの動的展開機能を向上させています。

Inche Technology の自動運転システム アーキテクチャは比較的典型的です (図 7)。同社の自動運転システムは、ハードウェア層、システム ソフトウェア層、アプリケーション ソフトウェア層からなる 3 層アーキテクチャを採用しています。ハードウェア層には、物理​​層のコントローラー、センサー エンティティ、車両側アクチュエーターなどの部品が含まれます。システム ソフトウェア レイヤーは、ミドルウェア サポート、さまざまなコンピューティング プラットフォームのハードウェア仮想化、さまざまな理想的なセンサー抽象化と車両抽象化を提供し、プロセス監視やデータ ロギングなどのセキュリティ管理サービスも提供します。アプリケーション層は、認識、位置決め、計画、制御などの上位レベルの機能を実装する役割を担います。

Yingche Technologyの自動運転システムは、第2世代の自動運転ソリューションを採用しています。センサーは7V3L5R構成を採用しています。知覚システムは、BEVフレームワークに基づくマルチタスク知覚モデルを採用しています。地図と測位システムは、慣性航法やアルゴリズムに基づくマルチ機能融合測位方法などのハードウェア融合測位を採用しており、重知覚と軽マッピングの特徴を備えています。意思決定制御では、ニューラル ネットワークとモデル予測制御を組み合わせた方法も導入されています。

図7: Inche Technologyの自動運転システムアーキテクチャ

全体的に見ると、Yingche の自動運転システムのアーキテクチャは比較的完成しているものの、異なるビジネス システム環境間の依存性と干渉の問題はまだ解決されていません。理想的な自動運転システムのアーキテクチャは、図 8 に示すとおりです。このアーキテクチャは、ハードウェア仮想化とセンサー抽象化に基づく分散クラウド コンピューティング フレームワークを採用し、機能開発と基盤となるソフトウェアおよびハードウェアの分離、およびコンピューティング能力とハードウェアの分離を実現します。自動運転機能の異なるプラットフォームへの迅速な移植、適応、展開、自動フラッシュ、展開を実現するために、自動運転の各業務モジュールはコンテナベースの開発方式を採用し、バッチ展開、自動運用・保守、業務システムサービス更新、OTAを実現します。

図8 理想的な自動運転量産体制

実際、自動運転の基盤となるシステムフレームワークは本質的に同様の問題を解決しており、ソフトウェアとハ​​ードウェアの分離、コンピューティングパワーとハードウェアの分離を実現し、さまざまなビジネスシステムの環境依存と干渉の問題を解決することに他なりません。したがって、そのシステムフレームワークは共通ですが、自動運転アプリケーション層アルゴリズムのシステムアーキテクチャはソリューションごとに大きく異なります。従来のターゲットレベルのポストフュージョンフレームワーク、最も広く使用されているマルチタスク学習BEVフレームワーク、さらに最先端のエンドツーエンドまたは部分的にエンドツーエンドの自動運転フレームワークがあります。

ターゲットレベルのポストフュージョンフレームワークは最も古典的で、実装が比較的簡単です。モジュールは疎結合されています。知覚モジュールは、カメラ、ライダー、ミリ波レーダー検出またはクラスタリングアルゴリズムを統合し、ターゲットの動的および静的カテゴリ、ターゲットタイプ、位置、速度などの情報を出力します。これらは予測モジュールに送信され、動的ターゲットの軌道と意図を予測します。意思決定および計画モジュールは、予測結果、知覚結果、位置決め、高精度マップ情報を受け取り、ターゲット情報とローカル環境情報に応じて位置と速度の計画を出力します。制御モジュールは、ワイヤー制御シャーシアクチュエータを制御して、入力された軌道速度に応じて軌道と速度の追跡を実現し、最終的に位置と姿勢に関するタスク要件を実現します。現在、ポストフュージョンフレームワークは、コストが高く、パフォーマンスが平均的であるため、Huituo、Qiangua、Shaanxi Automobile、Xiaomiなど、特別なシナリオ要件を持つごく少数の企業または軍事ユニットでのみ使用されています。

第二世代マルチタスクBEV学習のための自動運転フレームワークの変革の先駆者として(2021年)、テスラの技術フレームワークは比較的典型的であり、今日でも大きな参考価値を持っています(図9)。 2021年、テスラの自動運転は、マルチタスク知覚モデルをベースとし、動的インタラクションツリーに基づく衝突のない軌道生成アルゴリズムを経て、快適性と人間の好みの観点からルールと最適化方法に基づいて軌道を最適化し、コントローラーを通じて軌道を追跡します。このフレームワークの主な貢献は、ターゲット検出や車線予測などのマルチタスク認識モデル用の共有バックボーンに基づく実際の車両の実装です。

図9 共通バックボーンマルチタスク認識に基づくテスラの2021年自動運転技術フレームワーク

テスラは2022年から2023年にかけて、第2世代のBEVベースの自動運転技術フレームワーク(図10)をさらに発表しました。これは、従来の自動運転動作予測関連モジュールをキャンセルし、占有予測、つまり一般的な障害物占有予測(ボクセル占有予測)モジュールに置き換えました。この技術は、後続のテクノロジー企業や研究機関の最先端の自動運転フレームワークの参考になります。例えば、2023年のCVPRベストペーパーでも、一部のエンドツーエンドの自動運転フレームワークの調整および制御モジュールの入力機能の1つとして占有率を使用し、データセットでSOTA結果を達成し、実際の車両で良好な結果を達成しました。

図10 占有予測モデルを用いたテスラの2022/2023年自動運転システム技術フレームワーク

業界でのビッグモデル技術の応用が深まるにつれ、Momenta、Baidu、上海人工知能研究所などの先駆者たちは、ビッグモデルに基づく一般的な自動運転フレームワークや、エンドツーエンドまたは部分的にエンドツーエンドの自動運転フレームワーク技術を模索してきました。図11は、MomentaのDriveGPTの技術フレームワークを示しています。まず、共有バックボーンに基づいて異なる視点のカメラ画像から特徴を抽出し、次にトランスフォーマーモデルを介してBEV視点から時空間融合BEV特徴(4Dエンコーダー)を生成します。その後、デコーダーは、セマンティックマップ再構築、3Dターゲット検出、モーション予測などのトランスフォーマーベースのマルチタスク認識ヘッドを介して環境認識結果を出力します。次に、システムは、自動運転タスクの目標と車両CANからフィードバックされた車両状態情報を組み合わせて、プロンプトワードと背景知識に基づく大規模言語モデルLLMと運転戦略生成モデルを入力し、車両制御シーケンスを生成します。最後に、DriveGPTモデルを大量の人間の運転データでトレーニングして、モデルのパフォーマンスを向上させます。最終的な効果は、DriveGPT が車両制御シーケンスを生成できるだけでなく、現在の制御シーケンスを生成するためにどの交通要素またはイベントが使用されているかを自然言語で同期的に出力できることです。このアイデアは、UniAD の作業にも反映されています。

図11 Haomo Zhixingの一般的な自動運転制御システムフレームワーク - DriveGPT

3.4 知覚、マッピング、位置特定

現在の自動運転ソリューションの認識部分には多くの共通点があります。一般的には、共有バックボーンとそれに続くマルチタスク認識ヘッドで構成されています。共有バックボーン ネットワークは、主に RegNet/ResNet+FPN タイプのネットワークです。FPN は主に、さまざまなスケールの特徴マップを出力して、後続のモデルのさまざまなスケールのターゲットへの適応性を高めるために使用されます。 Yingche のマルチタスク認識フレームワークの情報は限られており、基本的なフレームワークしかありません (図 12)。一方、Tesla の認識フレームワークは、マルチタスク認識モデルの主要なテクノロジーを示しています。

図12 ウィンチェマルチタスク知覚フレームワーク

図13 Tesla HydraNetsマルチタスク知覚モデルアーキテクチャ

Tesla のマルチタスク認識モデル HydraNets (図 13) は、RegNet を共有バックボーンとして使用します。RegNet は、He Kaiming のチームが提案した新しいタイプのニューラル ネットワークです。ResNet と比較した RegNet の利点は、設計がシンプルで理解しやすく、計算負荷の高い状況にも対応できることです。 RegNet は優れたパフォーマンスを発揮します。たとえば、ImageNet データセットでは、RegNet はすべての複雑性指標で大幅な改善を実現しました。同様の条件下では、パフォーマンスは EfficientNet よりも優れており、GPU では 5 倍高速です。

Tesla のマルチタスク知覚モデルの Neck ネットワークは、BiFPN (双方向特徴ピラミッド ネットワーク) ネットワークを使用します。BiFPN は、シンプルで高速なマルチスケール特徴融合を実現できる特徴ピラミッド ネットワークです。 BiFPN は EfficientNet のモデル スケーリング技術を組み合わせたもので、検出器のバックボーンなどのネットワークで使用できます。

デコーダー トランクは、ネック ネットワークから出力されるさまざまなスケールの特徴を受信すると、さまざまなタスクに応じてさまざまなタスク ヘッドを持ちます。デコーダーは通常、アップサンプリング部分とトランク部分で構成されており、通常はResNet/RegNetなどの畳み込み層ベースのモデルが使用されます。もちろん、2023年の現在のマルチタスク知覚モデルのデコーダー部分は、Transformerベースのネットワークモデルを採用しています。デコーダーの後は、cls、reg、attr がマルチタスク ヘッドになります。 cls ヘッドは、画像オブジェクトの検出と分類を担当します。 reg ヘッドは、画像内のオブジェクトの位置を予測する役割を担います。 attr ヘッドは、色、形状、サイズなどのオブジェクト属性を検出して分類する役割を担います。 HydraNets のさまざまなタスク ヘッドは個別に微調整できるため、柔軟性が高くなります。

テスラは2022年末、HydraNetsをベースにした一般的な障害物予測モデル、すなわち占有ネットワーク(図14)を追加しました。モデルの入力は、共有バックボーンネットワークも通過する多視点カメラ画像シーケンスです。モデルは、空間ボクセルの占有確率、すなわち占有ボリュームと、ボクセルの占有傾向予測、すなわち占有フローを出力します。この方法は、障害物の識別を必要とせず、一般的な障害物と異質な障害物に効果的に対処できます。実際のテスト結果は良好で、国内の自動車会社も追随しています。

図14 テスラ占有ネットワークモデル

図15 Xpeng MotorsのXNet認識フレームワーク

自動運転技術を持つ国内の代表的な自動車メーカーである小鵬汽車の認識アーキテクチャXNet(図14)もテスラと同様のアーキテクチャを採用している。違いは、

(1)Xiaopeng XNetは、異なるカテゴリに複数のタスクヘッドを使用する代わりに、2つのモデルを使用して、動的ターゲットと静的ターゲットの複数のタイプのターゲットを識別します。さらに、Xiaopengのマルチタスク認識モデルの入力は画像であり、XNetに加えて、ライダーとミリ波情報の融合もあり、サイズと速度の推定精度が向上しています。したがって、Xiaopengの技術アーキテクチャは、視覚BEV+ライダー、ミリ波レーダーマルチセンサー融合の技術フレームワークです。もちろん、別の可能性もあります。つまり、BEV フレームワークで処理されるパスの長さは、一般的に 100 メートルです。150 メートルを超える認識要件には、長距離ライダー、ミリ波レーダー、望遠カメラなど、他のセンサー (BEV 認識結果とのターゲットレベルのポストフュージョンなど) による特別な処理が必要です。

(2)XNet1.0では、占有予測モデルはまだ追加されていないと思われます。占有モデルを導入するということは、その後の規制や制御の技術的枠組みも大きく変わることを意味します。 Occupancy の出力 (図 16) は、ターゲットの種類や速度などの情報を取得する認識方法の出力とはまったく異なるため、従来の制御方法よりも衝突のない軌道の生成に役立ちます。

図16 占有モデル出力ボクセル占有結果

現在、Momentaは中国の新技術を急速に追っているが、自動運転ソリューションの量産の進捗は芳しくない。 XNetと比較すると、Momentaの知覚ソリューションはTeslaの全体的な知覚ソリューションに近いです。Teslaは現在、FSDが高精度マップのないソリューションに完全に基づいていると推測しています。MomentaのAI Dayでの関連資料(図17)も、Momentaの知覚フレームワークがターゲット知覚と動作予測を実行しながら、セマンティックマップのリアルタイム再構築を実行していることを示しています。ミリ波認識ソリューションは、視覚画像とライダーポイントクラウドを融合して BEV 機能を生成するソリューションを使用します。まず、ライダーデータをボクセル化します。これはデータのダウンサンプリングに相当し、次にポイントクラウド機能処理の古典的なモデルである pointPilars モデルを通じてポイントクラウド機能を抽出します。次に、ポイントクラウド機能は、特定の瞬間の入力として BEV Transformer に基づいて処理された視覚 BEV 機能に追加されます。複数の履歴瞬間から入力を構築して、モデルのコンテキスト関連機能の学習を強化することにより、モデルテンプレート検出、長期セマンティックマップ生成、およびモーション予測の出力が最適化されます。出力モデルは、トランスフォーマーベースのデコーダーモデルを使用して、入力からターゲット出力機能へのマッピング学習を実現します。

図17: Momentumの知覚と地図生成のためのマルチタスクモデル

マッピングとポジショニングの面では、ほとんどの国内自動車会社は今のところ依然として主に高精度の地図ソリューションに依存しています。Yingcheの自動運転の量産ソリューションは完全に高精度の地図に依存し、地図ベンダーのマップボックスソリューションを採用して主要な幹線地図情報を提供する可能性が非常に高いです。 Huawei、Haomo、Yuanrong Qixingは、地図不要のインテリジェント運転ソリューションを紹介する情報を持っています。地図不要のインテリジェント運転ソリューションは、大手企業間の競争の焦点でもあります。それらは主に都市でのインテリジェント運転の速度に反映されています。一般的に言えば、高精度の地図への依存度が低いほど、都市でのインテリジェント運転ソリューションは速くなります。ただし、オンラインの高精度マップのリアルタイムのテクノロジーは、インテリジェントな運転機能の安全性と道路のカバレッジを確保するために、現在、高速道路、トランク道路、主要な都市道路に依然として高速道路に大きく依存しています。ソリューションを使用するか、リアルタイムの生成マップは、高精度マップと実際の道路の矛盾を避けるために、高精度マップのサプリメントとして使用されます。 ISIONは、リアルタイムのマップ生成テクノロジーを介してマップします。これは、このような状況を大幅に回避できます。 Tesla FSD は現在、高精度マップをまったくベースとしていない唯一のインテリジェント運転ソリューションです。

Tesla のオンライン マップ生成は、主に車線線生成 (認識) モデルと車線線トポロジ構造予測の 2 つの部分で構成されます。モデルの基本構造は、元の画像入力、つまりRegNetに接続されており、レーンベースのデコーダーに接続されてレーンラインの生成とレーンのラインのトポロジ構造の構造を生成します。

図18テスラレーンラインの生成および道路トポロジー予測方法

レーンラインが生成された後、交差点での歩行者を避ける必要性や、車線フォークでの統合操作を実行する必要性など、動的な相互作用シナリオで意思決定システムをサポートするにはまだ十分ではありません。各レーンラインセグメントベクトルシーケンスについて、テスラは、粗から粗いカスケード予測ヘッドを介して特定の機能レーンラインの開始位置を予測し、トポロジー構造予測ヘッドを使用して、現在のレーンラインセグメントが開始点(開始点)、連続(継続点)、フォーク(マージポイント)、エンドのセマンティポイント(エンド)の原因となっていますレーン」。

図19。道路トポロジの予測/認識のためのテスラの言語コンポーネントモジュール

2022年、Baidu Apolloチームは、オンライン認識とマルチソースマップ融合に基づいてオンラインマップ生成テクノロジーも導入しました。いくつかの道路セクションの高精度マップと実際の条件の間のANC。そのメインテクノロジースタックは、VisualおよびLidar入力から特徴を抽出し、デコーダーモデルに基づいて学習を通じて対応するMAP要素を生成するBEVトランスメソッドにも基づいています。

図20車両側の知覚データとマルチソースマップ融合に基づくBaiduのオンラインマップ生成テクノロジー(2022)

自律運転のポジショニングテクノロジーの現在のソリューションは、すべてがGNSS+IMU+ホイール速度計にスラムを追加して、マルチソース融合位置を実現しています。 Yingcheポジショニングシステムの基本的なフレームワーク(図21)によれば、機能とGNSS/IMUに基づいた融合ポジショニング方法も採用しています。 GNSS(GPS、Beidou)は絶対的なポジショニングを提供できますが、トンネルや工場などの閉塞環境では信号の不安定性または損失に問題があります。 IMU、ホイールスピードメーター、および特徴は、GNSSシグナルが不十分な場所では、慣性航海と特徴融合に基づくポジショニングを定期的に調整する必要があります。 MomemaのOverlaptransformerは、LIDARベースの場所認識のための機能と変圧器モデルに基づくポジショニング方法です(図22)。

図21 Yingcheポジショニングシステムの基本的なフレームワーク

図22ライダー位置認識のためのモーメントのオーバーラプトランスフォーマーモデル

現在、知覚、マッピング、ポジショニングの境界は、よりぼやけています。

(1)統一されたBEVフレームワーク、共有バックボーン、エンドツーエンドマップ生成およびその他のモデルに基づくマルチタスク認識、およびトランスベースのエンコーダーデコーダーアーキテクチャは、現在の1,000億元自動車メーカーの自律運転のための普遍的なソリューションです。

(2)一般的な障害の予測、すなわち占有率予測は、従来の軌跡とセマンティックの予測に取って代わり、知覚モジュールの重要な部分になりつつあります。

(3)重い認識、軽いマップ、およびリアルタイムのマップ生成ソリューションは、高精度マップを必要とせず、モーメント、テスラ、Huaweiなどの主要な自動車メーカーの自律的な駆動システムに適したソリューションになりました。

3.5決定計画と管理

2022年の時点で、最適化と検索方法は、常に規制および制御システムを支配しています。その後、大規模なモデルテクノロジーとエンドツーエンド/部分的なエンドツーエンドテクノロジーの開発により、Regulation and Control Systemは、元の最適化と検索方法に基づいて、より多くのトランスベースの大型モデル方法と部分的なエンドツーエンドの方法も導入しました。

Yingcheは、統合された計画および制御アーキテクチャ(図23の左側)、トラックの横方向および縦方向の制御を達成するためのモデルベースの制御アプローチ、および交通参加者の挙動の長期予測のためのニューラルネットワークを採用したと言われています(図23の右側)。アーキテクチャは、車両の加速反応とステアリングシステムなどの車両特性記述モデルを取得するためのモデル識別方法の使用についても言及しています。

図23 Yingche Control System Architecture

テスラの第一世代のFSDの計画と制御は、認識モジュールから動的および静的情報、占有情報と軌道最適化方法を使用して、障害物の回避と快適さの快適さを備えた範囲の快適さを実現するために、障害物の回避と快適さを備えていることを促進するための軌跡を生成する軌跡を生成します。 )。

一般に、自律運転は8つの次元の軌跡を特徴づけます。

位置、見出し、速度、横方向および縦方向の加速、横方向および縦方向のジャーク(位置の3番目の誘導体)。

従来のマルチオブジェクトの軌跡最適化方法は、すべてのオブジェクトが可能な限り目標に到達できるように、自己型、他の車両、歩行者などの軌跡を見つける必要があります交差点を避けるための交差点は、車両が他の車両との衝突を避けるには遅すぎる交差点に入ることができないことを意味します。テスラは、ユークリッド距離ヒューリスティックとユークリッド距離とナビゲーションに基づいた従来のA*メソッドを試しました。達成された最短計画時間は50ms(20Hz)で、図24のAおよびBメソッドです。AおよびBメソッドの検索結果は右側で視覚化されます。 20Hzは、この理由で高速シナリオで自動運転の要件を満たすことは困難です。 1つの軌道生成には約100 USが必要であり、総計画時間は10ms未満であると推定されており、さまざまな運転シナリオのリアルタイム要件を満たすことができます。テスラの特定のアプローチは次のとおりです。

(1)道路トポロジに基づいてターゲットポイント(目標)を選択するか、データを運転する自然人に基づいてターゲットポイントの確率分布を取得します。

(2)ゴールポイント(最適化アルゴリズム +ニューラルネットワーク)に基づいて候補の軌跡を生成します。

(3)候補の軌跡に沿ってロールアウトして端子状態を取得し、衝突検出、快適性分析、介入確率、および人間の駆動軌道との類似性に基づいてノードを獲得し(図25の下部)、制約を満たす最適な軌道を選択します。

図24テスラパス検索ソリューションの3つの方法

図24 MCTとニューラルプランナーに基づくTeslaの軌跡生成および選択方法

Teslaのコントロールアルゴリズムへの関連する紹介は見ていませんが、モデルベースのMPC、カスケードPIDなどの従来のアルゴリズムに基づいている必要があります。一般に、テスラのアプローチは大量生産と実装に近づいていますが、最新のテクノロジーの適用に関しては、テスラはもちろん最速ではありません。図11は、LLMと組み合わせてモメンタによって実装された一般的な自動運転駆動コントローラーのDriveGPTを示しています。 DriveGPTは、一般的なセマンティック認識の大規模なモデルによって提供される「すべての認識」機能に基づいています。運転環境と運転意図を説明し、ナビゲーションガイダンス情報と車両の歴史的行動を組み合わせ、外部の大規模な言語モデルLLMの膨大な知識を使用して、運転の決定と説明を支援します。

図25 HAOMOのマルチモーダル認識モデル

図26 Haomo Zhixingの運転常識認識言語モデル

図27 drivegpt運転シーンの理解と運転行動の解釈テスト結果

図27は、大規模な知覚モデルを使用して道路要素をセグメント化および識別する実際の運転シナリオDriveGPTテストを示しており、大規模な言語LLMモデルを使用して、現在のシーンの特性と各車両のアクションの意味を推測します。 Haomoは、運転環境を説明するために大規模な言語モデルを導入し、AIが独自の運転上の決定を説明できるようにします。自律運転の説明データを構築することにより、ドライビングスクールのインストラクターや運転パートナーのように、運転行動のより詳細な説明を提供できるように、大きな言語モデルを微調整できます。

また、XiaopengのXplannerなど、伝統的な方法と調節的なニューラルネットワークモデルを組み合わせたいくつかの調査があります。

図28 XPENGモーターのXplannerアーキテクチャ(緑色の部分はニューラルネットワークモデルであり、灰色の部分はルールベースのモジュールです)

要約すると、現在の規制管理スキームの特性は次のとおりです。

(1)現在、ほとんどの規制制御ソリューションは、エンドツーエンドのニューラルネットワーク方法、知識ベースの決定ツリー、またはその他の検索および最適化方法を組み合わせて、モデリングなどの理論的複雑さを簡素化し、モデルのパフォーマンス、データボリューム、データ品質の相関を改善します。

(2)BEVフレームワーク +大規模モデル +ヒトフィードバック補強学習(RLHF) +画像推論と自然セマンティック理解は、強力なデータ依存性を備えた新世代の自律運転制御アーキテクチャを構築することができます。

3.6部分的なエンドツーエンドの知覚と規制統合モデル

実際、Googleは2019年にそれを試しました。「深い学習と大規模なデータ収集を備えたロボットの握りのための手と目の調整」では、ロボットの視覚入力とアクチュエーターのコントロールボリュームに基づいて、マルチ式クローリングの成功率に基づいて、ロボット農場を獲得しました。 2.0一連の作業。ただし、単一のアプリケーションシナリオのため、データ量は小さく、さまざまなロボット間の操作タスクは非常に異なり、モデルの特性評価能力を分解するために大量の高品質データを取得することは困難であり、その影響は少なくなり、基本的にロボット産業の実務者に制限されています。自動運転、特に乗用車は、非常に類似した運転タスク、および自動運転車の比較的類似した構造とセンサーの構成を備えています。

図29 Google Robot Farm(左)と、ディープラーニングモデル(右)に基づくクロール成功率評価への入力と制御の入力の知覚のためのエンドツーエンド学習フレームワーク(右)

Uniadは、このバックグラウンドの下で生まれました。 Uniadは、最終的なプランナーモジュールが受け取った入力には、トラックフォーマー、モーションフォーカー、オクタイナスなどを含む複数の中間プロセスを完全に設計しています最適な衝突のない軌道。

図30ユニード全体のフレームワーク、右端の描画は、プランナーの内部フレームワークの概略図です

UniAD与经典序贯模型不同在于,经典序贯模型各个模块有自己的评价指标,如目标检测模型优化目标包括类别准确率及IOU等,追踪模型优化目标包括MOTA、Mostly Tracked tracklets (MT)等,预测模块评价指标包括minADE、minFDE等,轨迹生成模块同时要考虑安全、舒适性(速度,加速度,及加速度一阶导等)等指标,控制部分需要考虑轨迹跟踪实时性、收敛速度等,因此各模块都会按照自己的评价指标对模型进行优化、改进,而UniAD不强调各个模块的评价指标最优,UniAD集成了感知、预测和规划等关键任务,并将这些任务整合到一个基于Transformer 的端到端网络框架中,建立了一个由任务最终目标和Track、Map、Occ及控制指令构成的优化函数,通过标注数据优化各个模块的模型参数,这样模型就是始终以最终目标为优化对象而进行训练的。 UNIADフレームワークは、フルスタックのミッションクリティカルなタスクを深いニューラルネットワークに統合する業界初の自律運転モデル​​です。実際、模倣学習方法(CNN E2E)(CNN E2E)、強化学習方法(日中の運転)などに基づく作業を含む、さまざまな方法と原則(図31、エンドツーエンドの自律運転:課題とフロンティア)に基づいた多くのエンドツーエンドの自律運転技術作業があります。

図31エンドツーエンドの自律運転関連作業。主要なマイルストーンは順番にリストされており、青いフォントはさまざまな種類の方法を識別します(模倣学習、強化学習など)。その中で、代表的な作品は大胆でイラストで表示されます。トップは、カーラの自律運転リーダーボードでの運転スコアの評価であり、Nuplanスコアは似ています。

4. まとめ

4.1第3世代の自律運転システムの特性の分析と要約

第3世代の自動運転システムは、前の記事で体系的に導入されています(Bステーション、ID:優れたボスハンカー、記事タイトル:第3世代のテクノロジー企業の自律運転技術ソリューションの紹介)自律運転技術の第1世代は、慣性ナビゲーション、GPSポジショニングシステム、予測モジュール、および最適化と検索に基づいた規制に基づいて、知覚技術、高精度マップを後に統合します。第二代自动驾驶技术在第一代自动驾驶方案基础上,算法框架统一为BEV框架,感知采用了基于共享主干网(share backbone)的Transformer多任务感知模型,在输出目标感知的同时,几乎所有框架也都包含Occupancy预测,同时基于本地实时地图生成方法降低了系统对高精度地图的依赖,规控部分仍以搜索和优化方法为主。第3世代の自動運転システムは、BEVフレームワークに基づいて第2世代のフレームワークと同じですが、認識と規制のアルゴリズムは、一般的な自律的なドライビングコントローラーのトレーニングを採用し始めています。ドライビング動作を促進します。代表的な作業は、前の記事で説明されているとおりです。第一世代の自動運転システムの主要なモデルパラメーターは約100万人であり、コンピューティングパワー需要は100人のトップの大きさです。イオン、およびコンピューティングパワーの需要は最終的に2000トップに達します。

図32自律運転システムの第3世代の特徴、主要なテクノロジー企業の自律運転システムのアーキテクチャ推定、および対応するモデルパラメーターとハードウェア要件の自律運転システムの第3世代の推定値。

リアフュージョンシリーズの第1世代の自律運転システムには、次の問題があります。

(1)。
(2)。
(3)。
(4)。
(5)。

BEVマルチタスク学習ベースの自動運転システムの出現は、繰り返しの特徴抽出、一貫性のない視点、LIDARおよび高精度のマップ依存性の問題を解決しましたが、システムの各モジュールが最終的な駆動システム全体に基づいて各モジュールを最適化しないという問題を解決していません。

(1)検出、セグメンテーション、障害物予測などの複数のタスクは、モデルのバックボーン、マルチプレックス、マルチタスクの並列出力結果を共有します。
(2)。
(3)。モデル構造は単一で最適化しやすく、複数のプラットフォームの展開は困難です。
(4)。純粋な視覚的なBEVソリューションは、実際のシステム開発エクスペリエンスに従ってコストを大幅に削減できます。
(5)Yuanrong Qixingデータによれば、オンラインマップは生成されます(SD Mapには、全体的な精度が5〜10cmで、HDマップ、その他の道路状況をサポートします。
(6)リダーの依存を減らした後、自律駆動システム全体が上記のように、Tianzhun Dual J5ドメインコントロールをサポートします。

CHATGPTの経験によると、第3世代のエンドツーエンドまたはエンドツーエンドの自動運転システムは、将来的には一般的なモデルに基づいてターゲットを絞ったインテリジェントドライブGPTを訓練するための将来的には異なるシナリオである可能性があります。 2種類の第3世代の自律運転システムには、次の特性があります。

(1)

  1. 知覚された入力から直接運転戦略を学びます。
  2. シンプルな構造とシミュレーターでうまく機能します。
  3. 現実の世界には説明可能性が不足しています。

(2)

  1. リアルタイムマップ生成や一般的な障害物予測などの中間タスクを導入して、計画を支援します。
  2. 解釈可能性を向上させるための自然言語運転シナリオの推論を紹介します。
  3. 安全で効率的な運転タスク学習を実現するために、すべてのサブモジュールタスクを最終タスクと調整します。

4.2自律運転のさまざまなモジュールに基づく分析と要約

  • (1)。システムハードウェアアーキテクチャ、マルチコアCPU、GPU、ディープラーニング/ニューラルネットワークユニット、およびセキュリティ冗長チップは、コントローラーの4つの必要なコンポーネントです。
  • (2)。
  • (3)。
  • (4):言語と知識モデルの組み合わせ、補強学習に基づいたエンドツーエンドの自動運転モデル​​、およびフィードバック学習メカニズム、自然言語での運転シナリオを説明および推測できるソリューションを構築し、将来の重要な方向性です。
  • (5)。モデル予測制御に基づいて、実際の運転データに基づくモデルのモデルの補強学習制御が、マルチシーン適応制御を解決するための方向かもしれません。
  • (6.)アルゴリズムアーキテクチャ:人工設計の中間プロセス、自然言語シナリオの理解と組み合わせて、人間のフィードバック補強学習(RLHF)の大規模なモデルアーキテクチャに基づく擬似終端の自律運転フレームワークは、将来的に重要な方向になります。

元のリンク:https://mp.weixin.qq.com/s/h4uckf2sasuyz5pexaiigw

<<:  4Dミリ波レーダーSLAMソリューション研究

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能は社会統治の近代化を効果的に促進できる

現在、人類は急速に人工知能の時代に突入しています。人工知能技術の急速な発展、モノのインターネット、ビ...

機械学習におけるデータの不均衡の問題を解決するにはどうすればよいでしょうか?

[[194310]]機械学習のタスクでは、データの不均衡という問題に頻繁に遭遇します。データの不均...

私の国の人工知能の医療応用シナリオは非常に人気があり、既存の実践では依然として3つのボトルネックを突破する必要があります。

[[261498]]私の国には1,100社以上の人工知能企業があります。人工知能の最もホットな分野...

C# アルゴリズムの選択ソートの簡単な分析

C# 選択ソート アルゴリズムとは何ですか?これはどのように達成されるのでしょうか?この紹介が C#...

メタ研究者が新たなAIの試み:地図や訓練なしでロボットに物理的なナビゲーションを教える

Meta Platformsの人工知能部門は最近、少量のトレーニングデータのサポートにより、AIモデ...

...

...

AIの脳回路は人間と非常に似ている、OpenAIの最新研究は白熱した議論を引き起こしている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIと天気予報が出会うとどんな火花が散るのでしょうか?

SF作家の劉慈欣はかつて、自身の小説の中でこのような天気予報を描写した。小説の主人公は気象大学を卒...

オバマが強制的に「白人化」された後、AIは芸術作品における人種的偏見というタブーを犯した

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

張晨成: 第四パラダイムインテリジェントリスク管理ミドルプラットフォームアーキテクチャ設計と応用

共有は主に次の 5 つのポイントを中心に行われます。リスク管理センターの設計背景戦略のフルサイクル管...

次世代小売テクノロジー: IoT、AI、5G がショッピング体験に与える影響

今日の小売ショッピング体験は、データを活用しカスタマイズと体験を実現することがすべてです。モノのイン...

AI声優が偽の声を本物らしくする方法

AI音声スタートアップ企業のソナンティックは、オーディオディープフェイクで小さな進歩を遂げ、からかっ...

Laiye Technology、RPA専用に設計されたAI機能プラットフォーム「UiBot Mage」をリリース

俊敏性、効率性、コスト管理性に優れたデジタル変革手法として、中国市場に参入後、高い注目と幅広い受け入...