今後の展望:自動運転におけるビッグモデル技術の応用と影響

今後の展望:自動運転におけるビッグモデル技術の応用と影響

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

この記事は、ビッグモデル技術の自動運転分野への応用と影響について深く分析しています。1万字の長い記事ですので、ゆっくり読んでくださいね~

  • この記事では、まずビッグモデル技術の発展の歴史、自動運転モデル​​の反復的な道筋自動運転業界におけるビッグモデルの役割について概説します。
  • 次に、大規模モデルの基本的な定義、基本的な機能、主要な技術、特にTransformerの注意メカニズムと事前トレーニング微調整パラダイムについて詳しく紹介します。
  • この記事では、タスクの適応性、モデル変換、アプリケーションの見通しの観点から、大規模モデルの可能性についても紹介しています。
  • 自動運転技術の部分では、 CNNからRNN、GAN、そしてBEVとTransformerの組み合わせへの技術的な反復パス、および占有ネットワークモデルの応用について詳しく説明します。
  • 最後に、この記事では、大規模モデルが認識、予測、意思決定のレベルで自動運転をどのように強化できるかに焦点を当て、この分野におけるその重要性と影響力を強調しています。

1. 概要

1.1 大型模型技術の開発の歴史

大規模モデルとは、一般的に数十億、あるいは数百億のパラメータを持つディープラーニングモデルを指し、大規模言語モデルは大規模モデルの典型的な分野です(ChatGPTに代表されます)。

Transformer アーキテクチャは、長いシーケンスを処理する際の RNN と CNN の固有の制限を打ち破るアテンション メカニズムを導入し、大規模なコーパスで豊富な言語知識を使用して言語モデルを事前トレーニングできるようにします。

  • 一方では、大規模言語モデルの急速な開発の新しい時代が開かれます。
  • 一方、大規模モデル技術の実装の基盤を築き、パラメータ数を増やすことでモデル効果を向上させるための他のフィールドモデルへの参照を提供します。

複雑性、高次元性、多様性、パーソナライゼーションの要件により、大規模なモデルでも、自動運転、定量取引、医療診断と画像分析、自然言語処理、インテリジェントな対話などのタスクで優れたモデリング機能を実現しやすくなります。

1.2 自動運転モデル​​の反復パス

自動運転アルゴリズム モジュールは、認識、意思決定、計画制御の 3 つの部分に分けられます。認識モジュールは重要なコンポーネントであり、さまざまなモデルの反復を経てきました。

CNN (2011-2016) —— RNN+GAN (2016-2018) —— BEV (2018-2020) —— Transformer+BEV (2020年現在) —— 占有ネットワーク (2022年現在)

テスラのスマート運転の反復プロセスを見てみましょう。

2020年に自動運転アルゴリズムが再構築され、従来の2D + CNNアルゴリズムに代わってBEV + Transformerが導入されました。ポストフュージョンに代わって特徴レベルフュージョンが使用され、手動ラベリングに代わって自動ラベリングが使用されました。

  • 2022年にはタイミングネットワークがアルゴリズムに導入され、BEVは占有ネットワークにアップグレードされます。
  • 2023年8月、車載カメラとニューラルネットワークのみを利用して道路や交通状況を識別し、それに応じた判断を下すエンドツーエンドのAI自動運転システムFSD Beta V12が一般公開されました。

1.3 大型モデルの自動運転業界への影響力と影響

自動運転分野における大規模モデルの開発は、大規模言語モデルの開発に比べて遅れています。2019年頃から始まり、GPTなどのモデルの成功経験が活用されました。

大規模モデルの適用により、モデル側の成熟が加速され、L3/L4レベルの自動運転技術の実装に対する期待がより明確になります。

L3以上の自動運転の実現の見通しは、コスト、技術、規制、安全性の4つの側面から考えることができます。

  • コスト削減の余地はまだある
  • 技術の発展は、アルゴリズムとハードウェアという2つの主要な方向に沿って今後も進歩し続けるでしょう。
  • 法律や政策は徐々に改善されつつある
  • 安全性は自動運転車の実用化に不可欠な要素となっている

2021年以降、各社がL2+自動運転の整備を加速させており、 2024年頃にはL2++(L3に近い)以上の自動運転機能が実装されると予想されており、その中で政策が主な触媒になると予想されています

2. 大型模型技術の開発の歴史

2.1 大規模モデルの基本定義と基本機能

大規模モデルの基本定義: 大規模言語モデルからユビキタスな大規模モデルまで 大規模モデルとは、主に数十億、あるいは数百億のパラメータを持つディープラーニング モデルを指します。より代表的なモデルは、大規模言語モデル (最近人気の ChatGPT など) です。

大規模言語モデルは、非常に大規模なデータセットを使用してコンテンツを認識、要約、翻訳、予測、生成できるディープラーニング アルゴリズムです

大規模言語モデルは、主にTransformer ネットワークと呼ばれる深層学習アーキテクチャのクラスを代表しています。 Transformer モデルは、連続データ内の関係性 (この文の単語など) を追跡することでコンテキストと意味を学習するニューラル ネットワークです。

Transformer アーキテクチャの導入により、大規模言語モデルの急速な開発の新しい時代が到来しました。

  • GoogleのBERTは、事前学習済みモデルの強力な可能性を初めて実証した。
  • OpenAI の GPT シリーズと Anthropic の Claude は、言語モデル技術の限界を探求し続けています。ますます大規模化するモデルにより、自然言語処理の最先端技術が進歩し続けています。これらのモデルには数百億から数千億のパラメータがあり、言語の複雑な意味関係を捉え、人間レベルの言語対話を実行できます。

次の図は、大規模モデルの開発プロセスを示しています。

2.2 大規模モデルの基礎 - Transformerの注目メカニズム

注意メカニズム: Transformer の核となるイノベーション
イノベーション 1: Transformer モデルの最大のイノベーションは、提案されたアテンション メカニズムです。これにより、モデルの長距離依存関係を学習する能力が大幅に向上し、長いシーケンス データの処理における従来の RNN と CNN の制限が打破されます。

イノベーション 2: Transformer が登場する前は、自然言語処理では一般的に RNN または CNN を使用して意味情報をモデル化していました。しかし、RNN と CNN はどちらも長距離依存関係を学習する際に困難に直面します。

  • RNN の順次処理構造により、以前の情報は後の時点で減衰します。
  • CNN のローカルな認識は、グローバルな意味情報の取得も制限します。
  • このため、長いシーケンスを処理するときに、RNN と CNN が単語間の長距離依存関係を完全に学習することは困難です。

イノベーション 3: Transformer のアテンション メカニズムは、長いシーケンスを処理する際の RNN と CNN の固有の制限を打ち破り、大規模なコーパスで豊富な言語知識を使用して言語モデルを事前トレーニングできるようにします。このモジュール式でスケーラブルなモデル構造により、モジュールの数を増やすことでモデルのサイズと表現力を容易に拡張でき、超大規模なパラメータ量を実現するための実行可能なパスが提供されます

Transformer は、従来のモデルの長いシーケンス処理の問題を解決し、無限にスケーラブルな構造を提供し、大規模モデル テクノロジの実装のための二重の基盤を築きます。

以下はTransformerの構造図です。

2.3 大規模モデルのための事前トレーニング微調整パラダイム

ビッグモデルは、新しい事前トレーニングと微調整のパラダイムを表します。その中核となるのは、最初に大規模なデータセットを使用して非常に大きなパラメータ モデルを事前トレーニングし、次にそれを特定のタスクに合わせて微調整することです。

これは従来の単一タスクトレーニングとは対照的であり、方法論の大きな変化を示しています。

パラメータ数の指数関数的な増加は、大規模モデルの最も基本的な特性です。初期のモデルは数百万でしたが、今日の数十億、さらには数百億にまで達し、これまでの桁違いの飛躍的な進歩を遂げています。

Transformer アーキテクチャの導入により、NLP モデル設計に新しい時代が到来しました。自己注意メカニズムと並列コンピューティングのアイデアが導入され、長距離依存関係を処理するモデルの能力が大幅に向上し、その後の大規模モデルの開発の基盤が築かれました。

Transformer アーキテクチャの成功があったからこそ、研究者たちは、モデルのアーキテクチャ設計が複雑なタスクや大規模なデータの処理において重要な役割を果たすことに気づいたのです。この理解により、モデルパラメータの数をさらに拡大することへの研究者の関心が刺激されました。これまでにもパラメータ数を増やす試みはありましたが、当時のモデル自体のメモリやその他の機能の制限により、パラメータ数を増やした後のモデルの改善は明らかではありませんでした。

GPT-3 の成功により、パラメータの数を適度に増やすことでモデルの一般化能力と適応性が大幅に向上することが十分に検証され、大規模モデルの研究の波が巻き起こりました。

1000億を超えるパラメータと強力な言語生成機能を備え、パラメトリックモデルの代表格となっています。 GPT-3 は多くの NLP タスクで優れたパフォーマンスを発揮し、少数ショット学習やゼロショット学習でも驚くべき結果を達成できます。

パラメータ数を増やすことの利点:

  1. 表現機能の向上: パラメータの数を増やすと、モデルはデータ内の複雑な関係やパターンをより適切に学習できるようになり、モデルの表現機能が向上し、さまざまなタスクでより優れたパフォーマンスを発揮できるようになります。
  2. 一般化と転移学習: 大規模なモデルは、ある分野から学習した知識を別の分野に転移し、より優れた転移学習効果を実現できます。これは、データが不足しているタスクに特に役立ちます。
  3. ゼロショット学習: パラメータの数を増やすと、モデルは既存の知識とパターンをより有効に活用できるようになり、ゼロショット学習でより良い結果が得られ、ほんの数例でもタスクを完了できるようになります。
  4. イノベーションと探索: 大規模モデルの強力な機能により、より革新的な実験や探索を実施し、データに隠された情報をより多く発見できるようになります。

2.4 大規模モデルの探究:タスク適応性、モデル変換、およびアプリケーションの見通し

初期の AI モデルと比較すると、大規模モデルではパラメータの数の質的な飛躍が達成され、複雑なタスクのモデリング機能が全体的に向上しました

1) 学習能力の向上:より複雑なタスクに対処するため。
2) 一般化能力の強化:より広い適用性を実現する。
3) 堅牢性の向上
4) より高度な認知的相互作用能力を有する:特定の人間の能力などをシミュレートできる。

複雑性、高次元性、多様性、および個別の要件により、大規模なモデルでも特定のタスクで優れたモデリング機能を実現しやすくなります。

  • マルチモーダルセンサーデータの融合分析、特に自動運転などの時系列データの処理を含む
  • 金融分野における定量的取引戦略の最適化など、大規模で多様なデータパターンからモデルを学習する必要がある複雑で動的な目標
  • 医療画像やレポートなどの異種データソースを含む高次元入力空間
  • スマートアシスタントなど、さまざまなユーザーやシナリオに合わせてパーソナライズされたモデリングを必要とするカスタマイズされた要件

3. 自動運転技術のイテレーションパス

3.1 自動運転アルゴリズムのコアモジュールの概要

自動運転アルゴリズムモジュールは、認識、意思決定、計画制御の3つの部分に分けられ、その中で認識モジュールが主要なコンポーネントです。

知覚モジュール:知覚モジュールは、自動運転車両の周囲の交通環境を分析し、理解する役割を担っています。これは、自動運転を実現するための基礎と前提条件です。知覚モジュールの精度は、自動運転システムの全体的な安全性と信頼性に直接影響し、制限します。

認識モジュールは、主にカメラ、ライダー、ミリ波レーダーなどのさまざまなセンサーを通じて入力データを取得し、ディープラーニングなどのアルゴリズムを使用して、道路標示、他の車両、歩行者、信号、道路標識などのシーン要素を正確に解析し、後続のプロセスで使用します。

意思決定と計画制御: 知覚モジュールと比較すると、意思決定や計画制御などのモジュールの機能はより単一かつ受動的です。

これらのモジュールは、主に知覚モジュールによって出力される環境理解の結果に依存して、アルゴリズムの決定を通じて運転戦略を生成し、車両の移動軌道と速度をリアルタイムで計画し、最終的に制御コマンドに変換されて自動運転を実現します。

しかし、ビッグモデルは主に認識と予測の段階で車両に力を与え、徐々に意思決定レベルに入ります。

3.2 CNN

2011-2016: CNNが自動運転におけるイノベーションの第一波を引き起こした

ディープラーニングとコンピューティング能力の向上により、画像認識タスクにおける畳み込みニューラルネットワーク(CNN)の優れたパフォーマンスが、自動運転分野におけるイノベーションの第一波を引き起こしました。

  • 2011 年、IJCNN の論文「マルチスケール畳み込みネットワークによる交通標識認識」は、交通標識認識における CNN の可能性を実証しました。
  • 2016 年に、Nvidia チームは「自動運転車のためのエンドツーエンドのディープラーニング」を発表しました。これは、エンドツーエンドの自動運転に CNN を適用した最も初期の研究の 1 つとなりました。

これは 2 段階の畳み込みニューラル ネットワーク アーキテクチャであり、入力は 2 つの畳み込み段階とサブサンプリング段階を介してフィードフォワードされ、最終的に線形分類器によって分類されます。

CNN、自動運転車の環境認識能力を大幅に向上

  • 一方では、CNN の画像認識と処理における優れたパフォーマンスにより、車両は道路、交通標識、歩行者、他の車両を正確に分析できます。
  • 一方、複数のセンサーからのデータを効率的に処理できる CNN の利点により、画像、LIDAR などのデータを融合して包括的な環境認識を提供できます。コンピューティング効率の向上により、CNN モデルは複雑な認識と意思決定をリアルタイムで実行できる能力をさらに獲得しました。

ただし、CNN の自動運転にも一定の制限があります。

  • 1) トレーニングには大量のラベル付き運転データが必要であるが、十分に多様なデータを取得することは困難である。
  • 2) 一般化性能を向上させる必要がある。
  • 3) 堅牢性はより複雑な環境でもテストする必要があります。
  • 4) シーケンシャルタスク処理機能: 比較すると、RNN などの他のモデルの方が利点が多い可能性があります。

3.3 RNN、GAN

2016-2018年:RNNとGANは自動運転に関する研究で広く使用され、対応する期間に自動運転の急速な発展を促進しました。

CNN と比較すると、RNN は時系列データの処理に適しています。RNN の循環構造は時間の動的な変化をモデル化できるため、自動運転における軌道予測や動作分析などの時系列タスクの処理に非常に役立ちます。たとえば、ターゲット追跡やマルチエージェント相互作用モデリングなどの分野では、RNN と LSTM (RNN の改良版) が大きな進歩をもたらし、車両の将来の動作軌道を予測し、意思決定と計画をサポートできるようになりました。

GAN の生成能力により、自動運転システムのトレーニング データが不足する問題が軽減されます。GAN は複雑な分布を学習し、高品質の合成データを生成できるため、自動運転の分野に新しいアイデアをもたらし、自動運転システムのトレーニング データが不足する問題を軽減します。たとえば、GAN はシミュレートされたセンサー データとシーン情報を生成して自動運転アルゴリズムの堅牢性をテストできるほか、インタラクティブなシミュレーション シーンの生成にも使用できます。

RNN+GAN は、エンドツーエンドの行動予測と動作計画を実現できます。RNN は時系列モデリングを担当し、GAN はデータ生成を担当します。この 2 つが連携して、自動運転システムに、より包括的で信頼性の高い環境認識、状態予測、意思決定サポートを提供します。

これは、LSTM と GAN を組み合わせたモデル アーキテクチャの例です。

RNN と GAN がまだ解決していない問題:

  • RNN 型モデル: 長期時系列モデリング機能はまだ比較的弱く、特に長い時系列データを処理する場合、勾配消失または勾配爆発の問題が発生する可能性があり、特定の自動運転タスクへの適用効果が制限されます。
  • GAN モデル: 生成されるデータの品質を制御することが難しく、十分に現実的なレベルを達成することが困難です。さらに、GAN は合成データを生成できますが、自動運転の分野での具体的な応用は実際にはまだ比較的限られています。
  • サンプル効率が低い: RNN と GAN は依然としてサンプル効率が低く、通常、モデルのトレーニングと最適化に大量の現実世界のシーン データが必要です。さらに、これらのモデルは解釈が難しく、内部の意思決定プロセスが明確に説明されていません。同時に、モデルの安定性と信頼性も、さらに取り組む必要がある問題です。

自動運転の分野で RNN と GAN の人気が低下している理由:

  • 効率性とリアルタイム要件: 自動運転システムは、高いリアルタイム要件に基づいて意思決定と制御を行う必要があります。従来の RNN は、シーケンス データを処理する際の計算効率が低く、リアルタイムの認識および意思決定タスクを処理する能力が限られています。
  • 複雑性と一般化能力: 自動運転には複雑で変化する交通シナリオと環境が伴うため、強力な一般化能力が必要です。しかし、従来の RNN では複雑な時系列データの処理が困難であり、さまざまな交通状況にうまく適応できない場合があります。
  • 新興技術の台頭: ディープラーニングの発展に伴い、Transformer アーキテクチャや強化学習などの新しいモデル アーキテクチャとアルゴリズムが次々と登場しています。これらの新しいテクノロジは、認識、意思決定、計画などの処理タスクにおいて、より効率的かつ適用可能になる可能性があります。

3.4 電気自動車

2018-2020: 鳥瞰図(BEV)モデルは、自動運転の分野で広く研究され、応用されてきました。

BEV モデルの中心的なアイデアは、車両周囲の 3 次元環境データ (ポイント クラウド、画像、LIDAR やカメラからのその他のデータなど) をトップダウン平面に投影して、2 次元の鳥瞰図を生成することです。 3D 情報を 2D 表現に「平坦化」することで、自動運転システムの環境認識と理解に重要な利点がもたらされます。

  • 鳥瞰図は、直接の生のセンサーデータよりも直感的で情報豊富な環境の表現を提供します。道路、車両、歩行者、標識などの要素の位置と関係をより明確に観察し、自動運転による複雑な環境の認識を向上させることができます。
  • 地球全体の鳥瞰図は、経路計画や障害物回避システムの意思決定に役立ち、道路や交通状況に応じて、より合理的で安定した経路を計画できます。
  • BEV モデルは、さまざまなセンサーからの入力データを共有表現に統合し、より一貫性のある包括的な環境情報をシステムに提供できます。

これは BirdNet 3D オブジェクト検出フレームワークです。ネットワークの 3 つの出力は、カテゴリ (緑)、2D 境界ボックス (青)、ヨー角 (赤) です。

しかし、BEV モデルには解決すべき問題もいくつかあります。

  • 生の3DデータからBEV表現を生成するには、多くの座標変換とデータ処理が必要であり、計算量とハードウェア要件が増加する。
  • 情報損失の問題: 3D 情報を 2D に投影すると、遮蔽関係など、一部の詳細が必然的に失われます。
  • さまざまなセンサーを BEV 座標系に変換するには、複雑な調整と校正も必要です。
  • より正確で完全なBEVを生成するために、さまざまな異種データソースを効果的に統合する方法を研究する必要がある。

3.5 変圧器+BEV

2020年以降、TransformerとBEVの組み合わせは自動運転の分野で重要なコンセンサスとなり、自動運転技術を新たな発展段階に押し上げています。

TransformerモデルとBEV(鳥瞰図)表現を組み合わせる手法は、自動運転の分野で重要なコンセンサスとなりつつあり、完全自動運転の実現を促進している。

  • 一方、BEVは自動運転システムの周囲の豊富な空間情報を効率的に表現することができます
  • 一方、Transformer は、シーケンスデータや複雑なコンテキスト関係の処理において独自の利点を示しており、自然言語処理などの分野で効果的に応用されています。この 2 つを組み合わせることで、BEV が提供する環境空間情報と、Transformer の複数ソースの異種データをモデル化する機能を最大限に活用し、より正確な環境認識、長期的な動作計画、よりグローバルな意思決定を実現できます

テスラはBEV+トランスフォーマーの大規模モデルの導入を先導しました。従来の2D+CNNの小規模モデルと比較して、大規模モデルの利点は主に次のとおりです。

  • 1) 認識能力の向上: BEV は、LIDAR、レーダー、カメラなどのマルチモーダル データを同じ平面に統合し、全体的な視点を提供し、データ間の遮蔽や重複の問題を排除して、物体の検出と追跡の精度を向上させます。
  • 2) 一般化能力の向上: Transformer モデルは特徴機能を抽出し、注意メカニズムを使用して物事自体の固有の関係を見つけます。これにより、インテリジェント運転は機械的に学習するのではなく、要約を学習できます。主流の自動車会社や自動運転会社はすでにBEV+Transformerを導入しており、大型モデルは自動運転アルゴリズムの主流となっています。

以下は、Transformer + BEV のブロック図の例です。

(a) オブジェクトアライメント時間的融合:まず、車両自体の動きに合わせて、現時点(時刻t)の鳥瞰図マップを変形し、前時点(時刻t-1)の見え方に調整します。このようにして、物体の前の瞬間の位置と速度に基づいて物体の現在の位置を予測することができ、それによって異なる瞬間の地図上の物体の融合が実現されます。

(b) オブジェクトに焦点を当てたマルチビューサンプリング:まず、いくつかの点が 3D 空間に事前に設定され、次にこれらの点が画像上の特徴に投影されます。これにより、高さの範囲全体にわたってサンプリングできるだけでなく、特定の主要なオブジェクトが配置されているローカル空間領域内のより多くのポイントを、適応的かつ集中的にサンプリングできるようになります。

(c) オブジェクト情報に基づくクエリの強化:エンコーダが画像の特徴を処理した後、ヒートマップの監視情報が追加されます。同時に、元々クエリ対象として設定されていたポイントの一部は、検出されたオブジェクトの信頼性の高い位置に対応するポイントに置き換えられます。

以下は、Transformer+BEV 2 のブロック図の例です。

GPTの出現は、Transformer+BEVモデルの作成に重要な役割を果たしました。

  • GPT の成功は Transformer モデルの可能性を実証し、より多くの研究者が Transformer をコンピューター ビジョンや自動運転の分野に適用するようになり、Transformer + BEV という革新的なアプローチが生まれました。
  • GPT の事前トレーニングのアイデアは、Transformer + BEV の事前トレーニングと転移学習のリファレンスを提供します。事前トレーニングを通じてセマンティック情報を取得し、アプリケーションに転送することができます。
  • OpenAIが公開したコードやモデルは、さまざまな分野におけるTransformer型モデルの研究の進歩も加速させています。

Transformer+BEVモデルは、TransformerとBEVの両方の利点を兼ね備えていることから、現在注目を集めています。

  1. Transformer はシーケンス データの処理と意味情報の取得に優れており、BEV はシーンの全体的なビューを提供し、空間関係の分析に役立ちます。これら 2 つを組み合わせることで、相互に補完し合い、複雑なシーンの理解と表現力を高めることができます
  2. 自動運転データの蓄積は、大規模モデルのトレーニングの基盤となります。ビッグデータは、より複雑な特徴の学習をサポートし、環境認識の精度を向上させ、エンドツーエンドの学習を可能にします。
  3. 安全性と一般化能力の向上は、自動運転にとって依然として中心的な課題です。現段階では、Transformer + BEV はセマンティック理解と多視点モデリングをうまく組み合わせており、比較的珍しい、複雑または困難な交通シナリオや環境を処理でき、大きな可能性を秘めています

3.6 占有ネットワークモデル

2022年には、自動運転システムで占有ネットワーク モデルが使用され、道路シーンの効率的なモデリングが実現されました。

占有ネットワークモデル

  • 占有ネットワークは、テスラが2022年に自動運転認識に応用した技術です。BEVと比較して、自動運転車の周囲の3D環境をより正確に復元し、車両の環境認識能力を向上させることができます。
  • 占有ネットワークは、豊富な意味的特徴を学習するエンコーダーと 3D シーン表現を生成するデコーダーの 2 つの部分で構成されます。
  • テスラは、車載カメラで収集した大量の運転データを活用して、占有ネットワーク モデルをトレーニングします。デコーダー部分は、さまざまなシーンを復元・想像することができ、異常事態の認識力を高めます。
  • 占有ネットワーク テクノロジーにより、Tesla はラベルなしデータを最大限に活用し、ラベル付きデータ セットの欠点を効果的に補うことができます。これは自動運転の安全性の向上と交通事故の削減に大きな意義があります。テスラは、この技術を自社の自動運転システムに統合する取り組みを継続的に改善しています。

テスラは2023年のAIデーで占有ネットワークモデルを発表しました。これは学習に基づいて3D再構築を実行し、自動運転車の周囲の3D環境をより正確に復元することを目的としています。これはBEVビューのアップグレードされた反復として見ることができます

  • BEV+Transformer のデメリット: 鳥瞰図は 2D 画像であるため、空間の高さ情報が欠けており、3D 空間でオブジェクトが占める実際の体積を正確に反映できません。そのため、BEV は静止したオブジェクト (縁石、車線など) に重点を置いており、空間ターゲット (オブジェクトの 3D 構造など) の認識は困難です。
  • 占有ネットワーク: 既存の 3D 表現方法 (ボクセル、グリッド、ポイント クラウド) は、ストレージ、構造、学習に適しているかどうかという点で、完全に理想的ではありません。占有ネットワークは、学習に基づいて 3D 表面をディープ ニューラル ネットワーク分類器の連続的な決定境界として表現します。LIDAR によって提供されるポイント クラウド データなしで 3D 環境を再構築できます。LIDAR と比較して、知覚された 3D 幾何学情報とセマンティック情報をより適切に統合して、より正確な 3D シーン情報を取得することもできます。

Huawei ADS 2.0はGODネットワークをさらにアップグレードし、道路トポロジー推論ネットワークがさらに強化され、テスラの占有ネットワークに似ています。

  • GOD 2.0(一般障害物検出)は障害物認識に上限がなく、障害物認識率は99.9%に達します。
  • RCR2.0 は、サッカー場 2.5 個分の認識エリアを備え、より多くの道路を認識でき、道路トポロジがリアルタイムで生成されます。
  • 2023年12月にはADS 2.0を搭載した新型M7が全国で高精度地図なしでも高度なインテリジェント運転を実現できるようになる。

BEV効果を比較すると、以下はBEVの鳥瞰図です。

占有ネットワークの 3D ビューは次のとおりです。

4. ビッグモデルが自動運転業界を活性化

4.1 自動運転のビッグモデル

GPT で表される大規模なモデルには通常、数億、さらには数百億のパラメータが含まれており、分散トレーニング用の Transformer 構造を使用してモデル機能を向上させます。

GPT の成功により、自動運転の研究者はエンドツーエンドの学習に同様のアーキテクチャを使用するようになり、自動運転専用に設計された事前トレーニング済みモデルも登場しました。これらの取り組みは、自動運転業界に新たなアイデアをもたらしました。強力なデータ分析とパターン認識機能により、ビッグモデルは自動運転システムの安全性、効率性、ユーザーエクスペリエンスを向上させ、より正確な環境認識とインテリジェントな意思決定を実現しました。

大規模モデルの適用により、モデル側の成熟が加速され、L3/L4 自動運転技術の実装に対する期待がより明確になります。

モデルの成熟により、自動運転システムの安定性と信頼性が向上し、商用アプリケーションの基礎が築かれます。ディープラーニングとニューラルネットワーク技術の急速な発展により、モデルは知覚、意思決定、制御において大きな進歩を遂げ、大量のセンサーデータを効率的に処理し、交通標識、歩行者、車両などを正確に識別し、環境認識を実現する方向に進んでいます。さらに、このモデルはリアルタイムの経路計画と意思決定を支援し、複雑な交通環境でも車両が安全に走行できるようにします。

大規模モデルの適用により、L3/L4自動運転技術の実装に対する期待がより明確になります。特に、最先端技術分野におけるテスラの探求は、L3/L4自動運転の実装のベンチマークになりつつあります。 TESLAによって提案された変圧器+BEV+占有ネットワークアルゴリズムにより、車両は複雑な交通環境をより正確に理解し、L3/L4レベルの自律運転システムをより強力な環境認識能力を提供し、都市道路や高速道路などの特定のシナリオでより自信を持って駆動できるようにします。

重要な国内の自律運転政策からの抜粋

安全は自動運転車の商業化のための重要な要素です

自律的な運転システムの安全性と信頼性を確保するために、国家規制要件に従って、自動運転車は5,000キロメートル以上の距離にわたって閉鎖フィールドトレーニングと評価を受ける必要があり、テストドライバーは、道路試験資格を申請する前に50時間以上のトレーニングを完了し、車両の安全検査に合格する必要があります。現在、中国のインテリジェント接続車両の道路試験の合計は、7,000万キロを超えています。

自動車通信セキュリティとデータセキュリティは、国家基準または関連する規制も満たさなければなりません。将来、中国は欧州およびアメリカ諸国の慣行を参照して安全要件をさらに改善し、自律車両の安全性評価基準の策定、自律運転システム開発ライフサイクルの各段階の安全要件の明確化、自動運転駆動車両事故責任責任責任の確立など、関連する法律と規制の建設を強化することを期待しています。

部分的に自動化された車両の安全基準:

4.2車両側のエンパワーメントは、主に知覚と予測に基づいて行動し、徐々に意思決定層に入ります

簡単に言えば、自律運転に大きなモデルを適用することは、車両全体によって収集されたデータをクラウドに戻すデータを送信し、クラウドに展開されている大きなモデルを使用して、データ上で同様のトレーニングを実行することです。

大きなモデルは、主に自律運転の認識と予測に役割を果たしています。

  • 知覚層では、変圧器モデルを使用して、BEVデータから特徴を抽出して、障害物を監視および配置することができます。
  • 予測層は、トランスモデルを使用して、知覚モジュールの出力に基づいてトラフィック参加者の動きのパターンと履歴軌道データをキャプチャして学習し、将来の動作と軌跡を予測します。

将来、運転戦略の生成は、ルール駆動型からデータ駆動型に徐々に移行します。計画決定レイヤーで運転戦略を生成する2つの方法があります。

1)データ駆動型のディープラーニングアルゴリズム。

2)ルール駆動型(安全上の理由から、ルールに基づいて生成される運転戦略は現在広く採用されています。ただし、自律運転レベルの改善とアプリケーションシナリオの継続的な拡大により、ルールベースの規制制御アルゴリズムには多くのコーナーケース処理の制限があります)。

車両のダイナミクスと組み合わせて、トランスモデルを使用して適切な運転戦略を生成できます。

動的環境、道路状態情報、車両のステータス、その他のデータをモデルに統合することにより、トランスのマルチヘッド注意メカニズムは、複雑な環境で迅速に合理的な決定を下すために、異なる情報源間の重みのバランスを効果的にバランスさせます。

この記事の内容は、次の資料からのものです。

  1. AI+業界シリーズ:インテリジェントドライビング:自律運転の「大きなモデル」時代
  2. スマートカー産業に関する特別な研究:大規模なモデルの適用下で自動運転駆動トラックはどのような変化を起こしますか?
  3. 2023業界のビッグモデル標準システムと能力アーキテクチャリサーチレポート
  4. 人工知能産業に関する特別レポート:マルチモーダルAI研究フレームワーク
  5. AI Great Eraシリーズレポート1(基本):大きなモデルとコンピューティングパワーの共鳴し、特異点の瞬間が到着します
  6. 等......

共有はあなたの参照と学習のためだけです

<<: 

>>:  QTNet: 最新のタイミング融合ソリューション!ポイントクラウド、画像、マルチモーダル検出器はすべて適用可能 (NeurIPS 2023)

ブログ    

推薦する

...

Jiuzhang DataCanvasがシリーズCの資金調達を完了

最近、DataCanvasはシリーズCの資金調達を完了したことを発表しました。これはAdvantec...

...

生成的敵対ネットワーク: AI におけるイノベーションの触媒

生成的敵対的ネットワーク (GAN) は、人工知能の分野で強力なツールとなり、イノベーションと研究の...

...

機械学習は 5G ネットワークにどのように役立ちますか?

機械学習機械学習は、コンピューティング システムの能力の向上とデータの可用性の向上により、過去 10...

携帯電話開発者の年収は153万元、機械学習は最高ではない:IEEEの最新給与レポート

私たちは皆工学を勉強していますが、どの分野を選択すべきでしょうか?給与水準は、人々が将来のキャリアを...

100倍速い!ディープラーニングトレーニングツールであるDetermined AIがオープンソースになりました。より速く、よりシンプルに、より強力に

ディープラーニングの研究者として、私はモデルのトレーニングに深く悩まされています。モデルを何日も何晩...

GPT-4 よりも優れており、クローズドソース モデルよりも優れています。コードラマの謎のバージョンが公開

Code Llama はリリースからわずか 2 日で、再び AI コーディングの革命に火をつけました...

5G+AI: 未来に影響を与える新たなトレンド

7月9日、2020年世界人工知能会議クラウドサミットが正式に開幕しました。 AI という SF 用語...

...

2021年の中国AI業界の10大トレンド、1分でわかる | WAIC2021

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習が金融業界にもたらす破壊的変化

過去 10 年間で、金融業界ではこれまでにない最先端のテクノロジーが数多く導入されました。この変化は...

...

鍾南山氏は人工知能カンファレンスでAI COVID-19画像認識などの技術について講演した。

現在、世界の健康は大きな課題に直面しています。2020年以降の新型コロナウイルスの蔓延は、世界的な公...