序文と個人的な理解とても良い作品を見つけたので、皆さんと共有したいと思います!占有+世界モデルに関しては、現時点で最もホットな 2 つの方向性を組み合わせたものであり、読む価値があると言わざるを得ません。 3D シーンがどのように進化するかは、自動運転の決定にとって重要です。既存の方法では、ターゲット ボックスの動きを予測することでこれを実現していますが、より詳細なシーン情報を取得することはできません。ここでは、自車両の動きと周囲のシーンの進化を同時に予測しながら、3D 占有空間で世界モデル OccWorld を学習するための新しいフレームワークを検討します。シーン理解タスクの場合、次の 3 つの理由から、3D 境界ボックスやセグメンテーション マップではなく、3D 占有率に基づく世界モデルを学習する方が適切です。 1) 表現能力: 3D 占有率は、シーンのより細かい 3D 構造を記述できます。 2) 効率性、3D占有率はより経済的に得られる(例えば、まばらなLiDARポイントから) 3) 汎用性、3D 占有はビジョンと LiDAR に適応できます。 世界の進化のモデリングを容易にするために、Occworld は主に再構築ベースの 3D 占有シーン ラベラーを学習し、周囲のシーンを記述する個別のシーン ラベルを取得します。 GPT のような時空間生成トランスフォーマーは、後続のシーンとエゴ トークンを生成し、将来の占有とエゴの軌跡をデコードするために使用されます。 nuScenes ベンチマークでの広範な実験により、OccWorld が運転シナリオの展開を効果的にシミュレートできることが実証されています。OccWorld は、例やマップ監視を使用せずに競争力のある計画結果を生成することもできます。 フィールド開発と現状近年、自動運転は広く研究されており、さまざまなシナリオで有望な結果を示しています。 LiDAR ベースのモデルは、構造情報をキャプチャするため、一般的に 3D 認識において優れたパフォーマンスと堅牢性を発揮しますが、より経済的なハードウェア中心のソリューションが、ディープ ネットワークの認識機能の向上に大きく追いついています。将来のシーンの進化を予測することは、自律走行車の安全にとって重要であり、既存の方法のほとんどは、従来の認識、予測、および計画のプロセスに従います。知覚は、3D 検出やセマンティック グラフの構築など、周囲のシーンの意味を理解することを目的としています。後続の予測モジュールは他の交通参加者の動きをキャプチャし、計画モジュールは以前の出力に基づいて決定を下します。 ただし、このシリアル設計では通常、トレーニングの各段階で GT が必要になりますが、インスタンス レベルのボックスや高解像度のマップに注釈を付けるのは難しいです。さらに、通常はオブジェクトの境界ボックスの動きを予測するだけで、3D シーンに関するより詳細な情報を取得できません。 Occworld は、周囲のシーンの変化を同時に予測し、自律走行車の将来の軌道を計画できる新しいパラダイムです。 OccWorld は、運転シナリオの展開をモデル化するための 3D セマンティック占有空間内のワールド モデルです。従来の 3D ボックスやセグメンテーション マップの代わりに、シーンのより細かい 3D 構造を記述できる 3D セマンティック占有をシーン表現として採用しています。さらに、3D 占有率は、まばらな LiDAR ポイントから効率的に学習できるため、周囲のシーンを記述するより経済的な方法になる可能性があります。 これを実現するために、まずベクトル量子化変分オートエンコーダ (VQVAE) を使用して高レベルの概念を洗練し、自己教師方式で個別のシーン トークンを取得します。次に、Generative Pre-trained Transformer (GPT) アーキテクチャをカスタマイズし、後続のシーン トークンとエゴ トークンを予測して、それぞれ将来の占有とエゴの軌跡を予測する時空間生成トランスフォーマーを提案します。まず、空間ブレンディングを実行してシーン トークンを集約し、複数のレベルでシーンを表すマルチスケール トークンを取得します。次に、異なるレベルのトークンに時間的注意を適用して次のフレームのトークンを予測し、U ネット構造を使用して統合します。最後に、トレーニング済みの VQVAE デコーダーを使用してシーンのラベル付けを占有空間に変換し、軌道デコーダーを学習してエゴ プランニングの結果を取得します。 関連するタスク3D 占有予測: 3D 占有予測は、3D 空間内の各ボクセルが占有されているかどうか、およびそのセマンティック ラベルが占有されているかどうかを予測することを目的としています。初期のアプローチでは、3D シーン全体の 3D 占有を完了するための入力として LiDAR が使用されていました。最近のアプローチでは、より困難なビジョンベースの 3D 占有率予測を探求したり、ビジョン バックボーンを適用して LiDAR ベースの 3D 占有率予測を効率的に実行したりし始めています。 3D 占有率は、動的要素と静的要素の両方を含む周囲のシーンのより包括的な説明を提供します。また、まばらに蓄積されたマルチショット LiDAR データやビデオ シーケンスから効率的に学習することもできます。しかし、既存の方法は、3D のセマンティック占有率を取得することにのみ焦点を当てており、自動運転の安全性にとって非常に重要なその時間的変化は無視されています。 自動運転のための世界モデル: 世界モデルは制御工学と人工知能において長い歴史があり、通常はアクションと過去を与えられたときに次のシーンの観察を生成するものとして定義されます。ディープニューラルネットワークの開発により、ディープ生成モデルを世界モデルとして使用することが促進されました。 StableDiffusion などの大規模な事前トレーニング済み画像生成モデルに基づいて、さまざまなシナリオの現実的な運転シーケンスを生成できます。しかし、それらは 2D 画像空間で将来の観測を生成し、3D の周囲のシーンを理解していません。他の方法では、ラベルのない LiDAR データを使用して予測されたポイント クラウドを探索しますが、これは意味情報を無視するため、ビジョン ベースまたはフュージョン ベースの自動運転には適用できません。これを念頭に置いて、Occworld は 3D シーンの進化をより完全にシミュレートするために、3D 占有空間で世界モデルを探索します。 エンドツーエンドの自動運転: 自動運転の最終的な目標は、周囲のシーンの観察に基づいて制御信号を取得することです。最近のアプローチはこの概念に従っており、センサー入力に基づいて自車の計画結果を出力します。それらのほとんどは、感知、予測、計画という従来のプロセスに従います。 BEV 認識は通常、最初に関連情報 (3D エージェント ボックス、セマンティック マップ、軌道など) を抽出するために実行され、その後、エージェントと自我の将来の軌道を推測するために使用されます。 Occworld は、周囲の動的要素と静的要素の進化を予測するための世界モデルを提案します。 オックワールド構造図 2: 3D セマンティック占有予測と動作計画のための OccWorld フレームワーク。 GPT に似た生成アーキテクチャを使用して、次のシーンは自己回帰方式で前のシーンから予測されます。GPT は、次の 2 つの主要な設計を通じて自動運転シナリオに適応します。 1) 3D 占有シーン マーカーをトレーニングして、3D シーンの個別の高レベル表現を生成する。 2) 時空間因果的自己注意の前後に空間ブレンディングを実行し、グラウンドトゥルースと予測シーンラベルをそれぞれ子孫のトレーニングと推論の入力として使用して、全体的に一貫したシーン予測を効果的に生成します。 1) 自動運転の世界モデル自動運転は、人間のドライバーの行動を完全に防止するか、部分的に軽減することを目的としています。正式には、自動運転の目標は、センサー入力に基づいて、現在のタイムスタンプ T で制御コマンド (スロットル、ステアリング、ブレーキなど) を取得することです。軌道から制御信号へのマッピングは車両の仕様と状態に大きく依存するため、通常は所定の適切なコントローラが想定され、自車両の軌道計画に焦点が当てられます。自動運転モデル A は、センサー入力と過去の T フレームの自己軌道を入力として受け取り、将来の f フレームの自己軌道を予測します。 従来の自動運転のパイプラインは、通常、認識、予測、計画の設計に従います。認識モジュールは周囲のシーンを認識し、入力センサーデータ s から高レベルの情報 z を抽出します。予測モジュール Pre は、高レベルの情報 z を統合して、シーン内の各エージェントの将来の軌道 ti を予測します。計画モジュール pla は、最終的に認識と予測の結果 {z、{ti}} を処理して、自車両の動きを計画します。一般的なパイプラインは次のように定式化できます。 このフレームワークはパフォーマンスは優れていますが、通常は各段階での監視が必要であり、ラベル付けが困難です。さらに、より細かい進化モデル化を行わずに、ターゲット レベルでの動きのみを考慮します。これに触発されて、Occworld は、周囲のシーンと自己運動の進化を包括的にシミュレートする新しい世界モデルベースの自動運転パラダイムを探求しています。自然言語処理 (NLP) における生成的事前トレーニング済みトランスフォーマー (GPT) の最近の成功に触発され、Occworld は自動運転シナリオ向けの自己回帰生成モデリング フレームワークを提案しています。世界モデル w は、シーン表現 y に基づいて動作し、将来のシーンを予測できるように定義されます。正式には、世界モデル w の関数は次のように定式化されます。 予測されたシーンと自我の位置を取得した後、それらを入力に追加し、図 2 に示すように、自己回帰方式で次のフレームをさらに予測することができます。高次の相互作用を考慮すると、世界モデル w は周囲のシーンの結合分布と自我ベクトルの進化を捉えます。 2) 3D占有シーンマーカーワールド モデル w はシーン表現 y に対して動作するため、その選択はワールド モデルのパフォーマンスにとって非常に重要です。次の 3 つの原則に基づいて y を選択します。 1) 表現力。3D シーンの 3D 構造と意味情報を完全に含めることができる必要があります。 2) 効率性、学習は経済的であるべきである(例:弱い監督または自己監督からの学習)。 3) 汎用性。視覚とライダーの両方の方式に適応できる必要があります。 上記のすべての原則を考慮すると、3D シーン表現として 3D 占有を採用することが提案されます。 3D 占有は、自車両の周囲の 3D 空間を H×W×D ボクセルに分割し、各ボクセルにラベル l を割り当てて、そのボクセルが占有されているかどうか、またどのクラスによって占有されているかを示します。 3D 占有率は、3D シーンの高密度表現を提供し、シーンの 3D 構造とセマンティック情報の両方を記述できます。これは、スパース LiDAR 注釈から、または潜在的には時間枠にわたる自己監督から効率的に学習できます。 3D 占有率もモダリティを認識し、単眼カメラ、サラウンド カメラ、または LiDAR から取得できます。 3D 占有率は包括的ですが、シーンの低レベルの理解しか提供せず、その進化を直接シミュレートすることは困難です。そのため、Occworld は、3D 占有率から高レベルのラベルを使用してシーンにラベルを付ける自己教師あり方式を提案します。ベクトル量子化オートエンコーダ (VQ-VAE) は、図 3 に示すように、シーンをより適切に表す離散ラベル z を取得するために y でトレーニングされます。 3) 時空間生成トランスフォーマー自動運転の核心は、周囲の世界がどのように変化するかを予測し、それに応じて車両の動きを計画することです。従来の方法では通常、これら 2 つのタスクを別々に実行しますが、私たちはシーンの進化と自我の軌跡の分布を共同でモデル化するために世界モデル w を学習することを提案します。 (3)で定義されているように、世界モデルwは過去のシーンと自我の位置を入力として受け取り、一定の時間間隔後の結果を予測します。表現力、効率性、汎用性に基づいて、シーン表現として3D占有率yを採用し、自己教師ありラベラーを使用して高レベルのシーンラベリングT = {zi}を取得します。自我の動きを統合するために、T は自己マーカーとさらに集約され、自我車両の空間位置をエンコードします。次に、提案された OccWorld w はワールドタグ T 上で動作し、次のように定式化できます。 ここで、T は現在のタイムスタンプ、T は利用可能な履歴フレームの数です。世界の変化を完全にシミュレートするには、各タイムスタンプ内の世界のトークンの空間関係と、異なるタイムスタンプ間のトークンの時間関係を考慮する必要があります。したがって、Occworld は、図 4 に示すように、過去の世界のトークンを効果的に処理し、次の未来を予測するための時空間生成トランスフォーマー アーキテクチャを提案します。 時空間生成トランスフォーマーは、時間内および時間を超えた世界トークンの結合分布を考慮することにより、運転シーケンス中の世界の変化をモデル化できます。時間的注意は、周囲のエリア内の固定された場所の進化を予測し、空間集約は各トークンにグローバルなシーンを認識させます。 4) オックワールドOccWorld をトレーニングするために、2 段階のトレーニング戦略が採用されています。最初の段階では、シーントークナイザー e とデコーダー d が 3D 占有損失を使用してトレーニングされます。 第2段階では、学習されたシーントークナイザーeを採用して、すべてのフレームのシーンラベルzを取得し、予測されたトークz^とzの差を制限します。 効率的なトレーニングのために、シーンタガー e によって取得されたタグ付けを入力として使用しますが、将来のトークンの影響をブロックするためにマスクされた時間的注意を適用します。推論中は、次のフレームが段階的に予測されます。 実験比較分析OccWorld を評価するために、Occ3D データセットでの 4D 占有予測と nuScenes データセットでのモーション プランニングという 2 つのタスクが実行されました。 4D 占有率予測: 3D 占有率予測は、周囲の空間内の各ボクセルの意味的占有率を再構築することを目的としており、3D 占有率の時間的変化を捉えることはできません。ここでは、mIoU と IoU を評価基準として使用し、過去の占有率の入力に基づいて将来の 3D 占有率を予測することを目的とした 4D 占有率予測タスクについて説明します。 動作計画: 動作計画の目的は、GT の周囲情報または認識結果に基づいて、自律走行車の安全な将来の軌道を生成することです。計画された軌道は、BEV 平面上の一連の 2D ウェイポイントによって表され、L2 エラーと衝突率が評価指標として使用されます。 結果は次のとおりです。 |
<<: ChatGPT が 1 周年を迎えました: 革新、論争、AI のブレークスルーの 1 年
>>: Microsoft OfficeがCopilot: Princessに接続されている場合は、
政府機関には常にさまざまな文書が詰まっていますが、その多くは紙の文書であり、電子文書であっても、実際...
2019年ももうすぐ終わり。何もなかったこの一年を振り返って、最も給与が高い職種はどれでしょうか?ア...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
スタックは、特別な順序付けがされたテーブルです。挿入および削除操作はスタックの先頭で実行され、先入れ...
グーグルやフェイスブックなどのテクノロジー大手は長年にわたり、人工知能(AI)に数十億ドルを投資し、...
[[279165]]今日、認知学習はかつてないほど普及しています。一般的に言えば、認知学習と認知コ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
MIT 博士課程の学生による驚くべき発見: Transformer の特定のレイヤーを非常に単純に削...
AI を活用して雇用を減らし、コストを削減する方法を考えている企業は、間違っていると思います。最近、...
[[401300]]データ ライフサイクルの管理は、自動運転車の開発において重要な部分です。自動運転...
OpenAI 開発者関係の専門家 Logan Kilpatrick 氏は、ソーシャル メディアに「...