この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 この記事は、ビッグモデル技術の自動運転分野への応用と影響について深く分析しています。1万字の長い記事ですので、ゆっくり読んでくださいね~
1. 概要1.1 大型模型技術の開発の歴史大規模モデルとは、一般的に数十億、あるいは数百億のパラメータを持つディープラーニングモデルを指し、大規模言語モデルは大規模モデルの典型的な分野です(ChatGPTに代表されます)。 Transformer アーキテクチャは、長いシーケンスを処理する際の RNN と CNN の固有の制限を打ち破るアテンション メカニズムを導入し、大規模なコーパスで豊富な言語知識を使用して言語モデルを事前トレーニングできるようにします。
複雑性、高次元性、多様性、パーソナライゼーションの要件により、大規模なモデルでも、自動運転、定量取引、医療診断と画像分析、自然言語処理、インテリジェントな対話などのタスクで優れたモデリング機能を実現しやすくなります。 1.2 自動運転モデルの反復パス自動運転アルゴリズム モジュールは、認識、意思決定、計画制御の 3 つの部分に分けられます。認識モジュールは重要なコンポーネントであり、さまざまなモデルの反復を経てきました。 CNN (2011-2016) —— RNN+GAN (2016-2018) —— BEV (2018-2020) —— Transformer+BEV (2020年現在) —— 占有ネットワーク (2022年現在) テスラのスマート運転の反復プロセスを見てみましょう。 2020年に自動運転アルゴリズムが再構築され、従来の2D + CNNアルゴリズムに代わってBEV + Transformerが導入されました。ポストフュージョンに代わって特徴レベルフュージョンが使用され、手動ラベリングに代わって自動ラベリングが使用されました。
1.3 大型モデルの自動運転業界への影響力と影響自動運転分野における大規模モデルの開発は、大規模言語モデルの開発に比べて遅れています。2019年頃から始まり、GPTなどのモデルの成功経験が活用されました。 大規模モデルの適用により、モデル側の成熟が加速され、L3/L4レベルの自動運転技術の実装に対する期待がより明確になります。 L3以上の自動運転の実現の見通しは、コスト、技術、規制、安全性の4つの側面から考えることができます。
2021年以降、各社がL2+自動運転の整備を加速させており、 2024年頃にはL2++(L3に近い)以上の自動運転機能が実装されると予想されており、その中で政策が主な触媒になると予想されています。 2. 大型模型技術の開発の歴史2.1 大規模モデルの基本定義と基本機能大規模モデルの基本定義: 大規模言語モデルからユビキタスな大規模モデルまで 大規模モデルとは、主に数十億、あるいは数百億のパラメータを持つディープラーニング モデルを指します。より代表的なモデルは、大規模言語モデル (最近人気の ChatGPT など) です。 大規模言語モデルは、非常に大規模なデータセットを使用してコンテンツを認識、要約、翻訳、予測、生成できるディープラーニング アルゴリズムです。 大規模言語モデルは、主にTransformer ネットワークと呼ばれる深層学習アーキテクチャのクラスを代表しています。 Transformer モデルは、連続データ内の関係性 (この文の単語など) を追跡することでコンテキストと意味を学習するニューラル ネットワークです。 Transformer アーキテクチャの導入により、大規模言語モデルの急速な開発の新しい時代が到来しました。
次の図は、大規模モデルの開発プロセスを示しています。 2.2 大規模モデルの基礎 - Transformerの注目メカニズム注意メカニズム: Transformer の核となるイノベーション イノベーション 2: Transformer が登場する前は、自然言語処理では一般的に RNN または CNN を使用して意味情報をモデル化していました。しかし、RNN と CNN はどちらも長距離依存関係を学習する際に困難に直面します。
イノベーション 3: Transformer のアテンション メカニズムは、長いシーケンスを処理する際の RNN と CNN の固有の制限を打ち破り、大規模なコーパスで豊富な言語知識を使用して言語モデルを事前トレーニングできるようにします。このモジュール式でスケーラブルなモデル構造により、モジュールの数を増やすことでモデルのサイズと表現力を容易に拡張でき、超大規模なパラメータ量を実現するための実行可能なパスが提供されます。 Transformer は、従来のモデルの長いシーケンス処理の問題を解決し、無限にスケーラブルな構造を提供し、大規模モデル テクノロジの実装のための二重の基盤を築きます。 以下はTransformerの構造図です。 2.3 大規模モデルのための事前トレーニング微調整パラダイムビッグモデルは、新しい事前トレーニングと微調整のパラダイムを表します。その中核となるのは、最初に大規模なデータセットを使用して非常に大きなパラメータ モデルを事前トレーニングし、次にそれを特定のタスクに合わせて微調整することです。 これは従来の単一タスクトレーニングとは対照的であり、方法論の大きな変化を示しています。
Transformer アーキテクチャの導入により、NLP モデル設計に新しい時代が到来しました。自己注意メカニズムと並列コンピューティングのアイデアが導入され、長距離依存関係を処理するモデルの能力が大幅に向上し、その後の大規模モデルの開発の基盤が築かれました。 Transformer アーキテクチャの成功があったからこそ、研究者たちは、モデルのアーキテクチャ設計が複雑なタスクや大規模なデータの処理において重要な役割を果たすことに気づいたのです。この理解により、モデルパラメータの数をさらに拡大することへの研究者の関心が刺激されました。これまでにもパラメータ数を増やす試みはありましたが、当時のモデル自体のメモリやその他の機能の制限により、パラメータ数を増やした後のモデルの改善は明らかではありませんでした。 GPT-3 の成功により、パラメータの数を適度に増やすことでモデルの一般化能力と適応性が大幅に向上することが十分に検証され、大規模モデルの研究の波が巻き起こりました。 1000億を超えるパラメータと強力な言語生成機能を備え、パラメトリックモデルの代表格となっています。 GPT-3 は多くの NLP タスクで優れたパフォーマンスを発揮し、少数ショット学習やゼロショット学習でも驚くべき結果を達成できます。 パラメータ数を増やすことの利点:
2.4 大規模モデルの探究:タスク適応性、モデル変換、およびアプリケーションの見通し初期の AI モデルと比較すると、大規模モデルではパラメータの数の質的な飛躍が達成され、複雑なタスクのモデリング機能が全体的に向上しました。 1) 学習能力の向上:より複雑なタスクに対処するため。 複雑性、高次元性、多様性、および個別の要件により、大規模なモデルでも特定のタスクで優れたモデリング機能を実現しやすくなります。
3. 自動運転技術のイテレーションパス3.1 自動運転アルゴリズムのコアモジュールの概要自動運転アルゴリズムモジュールは、認識、意思決定、計画制御の3つの部分に分けられ、その中で認識モジュールが主要なコンポーネントです。 知覚モジュール:知覚モジュールは、自動運転車両の周囲の交通環境を分析し、理解する役割を担っています。これは、自動運転を実現するための基礎と前提条件です。知覚モジュールの精度は、自動運転システムの全体的な安全性と信頼性に直接影響し、制限します。 認識モジュールは、主にカメラ、ライダー、ミリ波レーダーなどのさまざまなセンサーを通じて入力データを取得し、ディープラーニングなどのアルゴリズムを使用して、道路標示、他の車両、歩行者、信号、道路標識などのシーン要素を正確に解析し、後続のプロセスで使用します。 意思決定と計画制御: 知覚モジュールと比較すると、意思決定や計画制御などのモジュールの機能はより単一かつ受動的です。 これらのモジュールは、主に知覚モジュールによって出力される環境理解の結果に依存して、アルゴリズムの決定を通じて運転戦略を生成し、車両の移動軌道と速度をリアルタイムで計画し、最終的に制御コマンドに変換されて自動運転を実現します。
3.2 CNN2011-2016: CNNが自動運転におけるイノベーションの第一波を引き起こした ディープラーニングとコンピューティング能力の向上により、画像認識タスクにおける畳み込みニューラルネットワーク(CNN)の優れたパフォーマンスが、自動運転分野におけるイノベーションの第一波を引き起こしました。
これは 2 段階の畳み込みニューラル ネットワーク アーキテクチャであり、入力は 2 つの畳み込み段階とサブサンプリング段階を介してフィードフォワードされ、最終的に線形分類器によって分類されます。 CNN、自動運転車の環境認識能力を大幅に向上
ただし、CNN の自動運転にも一定の制限があります。
3.3 RNN、GAN2016-2018年:RNNとGANは自動運転に関する研究で広く使用され、対応する期間に自動運転の急速な発展を促進しました。 CNN と比較すると、RNN は時系列データの処理に適しています。RNN の循環構造は時間の動的な変化をモデル化できるため、自動運転における軌道予測や動作分析などの時系列タスクの処理に非常に役立ちます。たとえば、ターゲット追跡やマルチエージェント相互作用モデリングなどの分野では、RNN と LSTM (RNN の改良版) が大きな進歩をもたらし、車両の将来の動作軌道を予測し、意思決定と計画をサポートできるようになりました。 GAN の生成能力により、自動運転システムのトレーニング データが不足する問題が軽減されます。GAN は複雑な分布を学習し、高品質の合成データを生成できるため、自動運転の分野に新しいアイデアをもたらし、自動運転システムのトレーニング データが不足する問題を軽減します。たとえば、GAN はシミュレートされたセンサー データとシーン情報を生成して自動運転アルゴリズムの堅牢性をテストできるほか、インタラクティブなシミュレーション シーンの生成にも使用できます。 RNN+GAN は、エンドツーエンドの行動予測と動作計画を実現できます。RNN は時系列モデリングを担当し、GAN はデータ生成を担当します。この 2 つが連携して、自動運転システムに、より包括的で信頼性の高い環境認識、状態予測、意思決定サポートを提供します。 これは、LSTM と GAN を組み合わせたモデル アーキテクチャの例です。 RNN と GAN がまだ解決していない問題:
自動運転の分野で RNN と GAN の人気が低下している理由:
3.4 電気自動車2018-2020: 鳥瞰図(BEV)モデルは、自動運転の分野で広く研究され、応用されてきました。 BEV モデルの中心的なアイデアは、車両周囲の 3 次元環境データ (ポイント クラウド、画像、LIDAR やカメラからのその他のデータなど) をトップダウン平面に投影して、2 次元の鳥瞰図を生成することです。 3D 情報を 2D 表現に「平坦化」することで、自動運転システムの環境認識と理解に重要な利点がもたらされます。
これは BirdNet 3D オブジェクト検出フレームワークです。ネットワークの 3 つの出力は、カテゴリ (緑)、2D 境界ボックス (青)、ヨー角 (赤) です。 しかし、BEV モデルには解決すべき問題もいくつかあります。
3.5 変圧器+BEV2020年以降、TransformerとBEVの組み合わせは自動運転の分野で重要なコンセンサスとなり、自動運転技術を新たな発展段階に押し上げています。 TransformerモデルとBEV(鳥瞰図)表現を組み合わせる手法は、自動運転の分野で重要なコンセンサスとなりつつあり、完全自動運転の実現を促進している。
テスラはBEV+トランスフォーマーの大規模モデルの導入を先導しました。従来の2D+CNNの小規模モデルと比較して、大規模モデルの利点は主に次のとおりです。
以下は、Transformer + BEV のブロック図の例です。 (a) オブジェクトアライメント時間的融合:まず、車両自体の動きに合わせて、現時点(時刻t)の鳥瞰図マップを変形し、前時点(時刻t-1)の見え方に調整します。このようにして、物体の前の瞬間の位置と速度に基づいて物体の現在の位置を予測することができ、それによって異なる瞬間の地図上の物体の融合が実現されます。 (b) オブジェクトに焦点を当てたマルチビューサンプリング:まず、いくつかの点が 3D 空間に事前に設定され、次にこれらの点が画像上の特徴に投影されます。これにより、高さの範囲全体にわたってサンプリングできるだけでなく、特定の主要なオブジェクトが配置されているローカル空間領域内のより多くのポイントを、適応的かつ集中的にサンプリングできるようになります。 (c) オブジェクト情報に基づくクエリの強化:エンコーダが画像の特徴を処理した後、ヒートマップの監視情報が追加されます。同時に、元々クエリ対象として設定されていたポイントの一部は、検出されたオブジェクトの信頼性の高い位置に対応するポイントに置き換えられます。 以下は、Transformer+BEV 2 のブロック図の例です。 GPTの出現は、Transformer+BEVモデルの作成に重要な役割を果たしました。
Transformer+BEVモデルは、TransformerとBEVの両方の利点を兼ね備えていることから、現在注目を集めています。
3.6 占有ネットワークモデル2022年には、自動運転システムで占有ネットワーク モデルが使用され、道路シーンの効率的なモデリングが実現されました。 占有ネットワークモデル
テスラは2023年のAIデーで占有ネットワークモデルを発表しました。これは学習に基づいて3D再構築を実行し、自動運転車の周囲の3D環境をより正確に復元することを目的としています。これはBEVビューのアップグレードされた反復として見ることができます。
Huawei ADS 2.0はGODネットワークをさらにアップグレードし、道路トポロジー推論ネットワークがさらに強化され、テスラの占有ネットワークに似ています。
BEV効果を比較すると、以下はBEVの鳥瞰図です。 占有ネットワークの 3D ビューは次のとおりです。 4. ビッグモデルが自動運転業界を活性化4.1 自動運転のビッグモデルGPT で表される大規模なモデルには通常、数億、さらには数百億のパラメータが含まれており、分散トレーニング用の Transformer 構造を使用してモデル機能を向上させます。 GPT の成功により、自動運転の研究者はエンドツーエンドの学習に同様のアーキテクチャを使用するようになり、自動運転専用に設計された事前トレーニング済みモデルも登場しました。これらの取り組みは、自動運転業界に新たなアイデアをもたらしました。強力なデータ分析とパターン認識機能により、ビッグモデルは自動運転システムの安全性、効率性、ユーザーエクスペリエンスを向上させ、より正確な環境認識とインテリジェントな意思決定を実現しました。 大規模モデルの適用により、モデル側の成熟が加速され、L3/L4 自動運転技術の実装に対する期待がより明確になります。 モデルの成熟により、自動運転システムの安定性と信頼性が向上し、商用アプリケーションの基礎が築かれます。ディープラーニングとニューラルネットワーク技術の急速な発展により、モデルは知覚、意思決定、制御において大きな進歩を遂げ、大量のセンサーデータを効率的に処理し、交通標識、歩行者、車両などを正確に識別し、環境認識を実現する方向に進んでいます。さらに、このモデルはリアルタイムの経路計画と意思決定を支援し、複雑な交通環境でも車両が安全に走行できるようにします。 大規模モデルの適用により、L3/L4自動運転技術の実装に対する期待がより明確になります。特に、最先端技術分野におけるテスラの探求は、L3/L4自動運転の実装のベンチマークになりつつあります。 TESLAによって提案された変圧器+BEV+占有ネットワークアルゴリズムにより、車両は複雑な交通環境をより正確に理解し、L3/L4レベルの自律運転システムをより強力な環境認識能力を提供し、都市道路や高速道路などの特定のシナリオでより自信を持って駆動できるようにします。 重要な国内の自律運転政策からの抜粋 安全は自動運転車の商業化のための重要な要素です 自律的な運転システムの安全性と信頼性を確保するために、国家規制要件に従って、自動運転車は5,000キロメートル以上の距離にわたって閉鎖フィールドトレーニングと評価を受ける必要があり、テストドライバーは、道路試験資格を申請する前に50時間以上のトレーニングを完了し、車両の安全検査に合格する必要があります。現在、中国のインテリジェント接続車両の道路試験の合計は、7,000万キロを超えています。 自動車通信セキュリティとデータセキュリティは、国家基準または関連する規制も満たさなければなりません。将来、中国は欧州およびアメリカ諸国の慣行を参照して安全要件をさらに改善し、自律車両の安全性評価基準の策定、自律運転システム開発ライフサイクルの各段階の安全要件の明確化、自動運転駆動車両事故責任責任責任の確立など、関連する法律と規制の建設を強化することを期待しています。 部分的に自動化された車両の安全基準: 4.2車両側のエンパワーメントは、主に知覚と予測に基づいて行動し、徐々に意思決定層に入ります簡単に言えば、自律運転に大きなモデルを適用することは、車両全体によって収集されたデータをクラウドに戻すデータを送信し、クラウドに展開されている大きなモデルを使用して、データ上で同様のトレーニングを実行することです。 大きなモデルは、主に自律運転の認識と予測に役割を果たしています。
将来、運転戦略の生成は、ルール駆動型からデータ駆動型に徐々に移行します。計画決定レイヤーで運転戦略を生成する2つの方法があります。 1)データ駆動型のディープラーニングアルゴリズム。 2)ルール駆動型(安全上の理由から、ルールに基づいて生成される運転戦略は現在広く採用されています。ただし、自律運転レベルの改善とアプリケーションシナリオの継続的な拡大により、ルールベースの規制制御アルゴリズムには多くのコーナーケース処理の制限があります)。 車両のダイナミクスと組み合わせて、トランスモデルを使用して適切な運転戦略を生成できます。 動的環境、道路状態情報、車両のステータス、その他のデータをモデルに統合することにより、トランスのマルチヘッド注意メカニズムは、複雑な環境で迅速に合理的な決定を下すために、異なる情報源間の重みのバランスを効果的にバランスさせます。 この記事の内容は、次の資料からのものです。
共有はあなたの参照と学習のためだけです |
>>: QTNet: 最新のタイミング融合ソリューション!ポイントクラウド、画像、マルチモーダル検出器はすべて適用可能 (NeurIPS 2023)
最近、DataCanvasはシリーズCの資金調達を完了したことを発表しました。これはAdvantec...
生成的敵対的ネットワーク (GAN) は、人工知能の分野で強力なツールとなり、イノベーションと研究の...
機械学習機械学習は、コンピューティング システムの能力の向上とデータの可用性の向上により、過去 10...
私たちは皆工学を勉強していますが、どの分野を選択すべきでしょうか?給与水準は、人々が将来のキャリアを...
ディープラーニングの研究者として、私はモデルのトレーニングに深く悩まされています。モデルを何日も何晩...
Code Llama はリリースからわずか 2 日で、再び AI コーディングの革命に火をつけました...
7月9日、2020年世界人工知能会議クラウドサミットが正式に開幕しました。 AI という SF 用語...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
過去 10 年間で、金融業界ではこれまでにない最先端のテクノロジーが数多く導入されました。この変化は...
現在、世界の健康は大きな課題に直面しています。2020年以降の新型コロナウイルスの蔓延は、世界的な公...