この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 序文と著者の個人的な理解自動運転車のセンサー レベルでのドメイン変更は、非常に一般的な現象です。たとえば、さまざまなシナリオや場所での自動運転車、さまざまな照明や気象条件での自動運転車、さまざまなセンサー デバイスを搭載した自動運転車はすべて、典型的な自動運転ドメインの違いと見なすことができます。このドメインの違いは、自動運転にとって課題となります。主な理由は、古いドメインの知識に依存する自動運転モデルを、追加コストなしではこれまでにない新しいドメインに直接展開することが難しいためです。したがって、本稿では、ドメイン転送のための新しい視点と方法を提供する再構築シミュレーション認識 (ReSimAD) スキームを提案します。具体的には、運転シナリオにおける古いドメイン知識を取得するために暗黙的な再構築技術を使用します。再構築プロセスの目的は、古いドメインのドメイン関連知識をドメイン不変表現に変換する方法を研究することです。たとえば、3Dシーンレベルのメッシュ表現は、ドメイン不変表現の一種であると考えています。再構築された結果に基づいて、シミュレーターを使用して、ターゲット領域のより現実的なシミュレートされたポイント クラウドをさらに生成します。このステップでは、再構築された背景情報とターゲット領域のセンサー スキームに依存するため、後続の認識プロセスで新しい領域データを収集して注釈を付けるコストが削減されます。 実験検証部分では、Waymo-to-KITTI、Waymo-to-nuScenes、Waymo-to-ONCE などのさまざまなクロスドメイン状況やその他のクロスドメイン設定を検討しました。上記のすべてのクロスドメイン設定は、ゼロショット実験設定を採用しています。つまり、ターゲットドメインのポイントクラウドデータ情報にアクセスせず、ソースドメインで再構築された背景メッシュとシミュレートされたセンサーのみに依存してターゲットドメインサンプルをシミュレートし、それによってターゲットドメインのモデルの一般化能力を向上させます。結果は、ReSimAD が、一部の教師なしドメイン適応 (UDA) 手法よりもさらに優れた、ターゲット ドメイン シーンの知覚モデルの一般化能力を大幅に向上できることを示しています。 論文情報
研究の動機課題: 3D モデルは自動運転車が周囲の状況を認識するのに役立ちますが、既存のベースライン モデルを新しい領域 (異なるセンサー設定や未知の都市など) に一般化することは困難です。自動運転分野の長期ビジョンは、モデルドメイン転送をより低コストで可能にすること、つまり、ソースドメインで完全にトレーニングされたモデルをターゲットドメインのシナリオにうまく適応させることです。ソースドメインとターゲットドメインは、ソースドメインが晴れた日でターゲットドメインが雨の日であるなど、データ分布が明らかに異なる 2 つのドメインです。ソースドメインは 64 ビーム センサーで、ターゲットドメインは 32 ビーム センサーです。 一般的な解決策: 上記のドメインの違いに直面した場合、最も一般的な解決策は、対象ドメインのシナリオのデータを取得してラベルを付けることです。この方法では、ドメインの違いによるモデルのパフォーマンス低下の問題をある程度回避できますが、1) データ収集コストと 2) データラベル付けコストが非常に高くなります。したがって、下の図に示すように(2 つのベースライン方法 (a) と (b) を参照)、新しいドメインのデータ収集とデータ注釈のコストを軽減するために、シミュレーション エンジンを使用して、シミュレートされたポイント クラウド サンプルをいくつかレンダリングすることができます。これは、シミュレーションから現実への研究作業における一般的なソリューションです。もう 1 つのアイデアは、教師なしドメイン適応 (3D 用 UDA) です。このタイプの作業の目的は、ラベル付けされていないターゲット ドメイン データ (実際のデータであることに注意してください) にのみアクセスできるという条件下で、近似的に完全に教師付きの微調整パフォーマンスを達成する方法を研究することです。これが達成できれば、ターゲット ドメインのラベル付けのコストは確かに節約できます。ただし、UDA メソッドでは、ターゲット ドメインのデータ分布を特徴付けるために、大量の実際のターゲット ドメイン データを収集する必要があります。 図1: さまざまなトレーニングパラダイムの比較 私たちのアプローチ:上記 2 つのカテゴリの研究アイデアとは異なり、下の図に示すように((c) ベースライン プロセスを参照)、仮想と現実の統合におけるデータ シミュレーションと認識の統合ルートに取り組んでいます。仮想と現実の統合における現実とは、大量のラベル付きソース ドメイン データに基づいてドメイン不変の表現を構築することを指します。この仮定は多くのシナリオで実用的な意味を持ちます。長期にわたる履歴データの蓄積の後、常にそのようなラベル付きソース ドメイン データが存在すると想定できるためです。一方、仮想と現実の統合におけるシミュレーションとは、ソース ドメイン データに基づいてドメイン不変の表現を構築すると、この表現を既存のレンダリング パイプラインにインポートして、ターゲット ドメイン データのシミュレーションを実行できることを意味します。現在のシミュレーションから現実への研究と比較すると、私たちの方法は、道路構造、上り坂や下り坂などの実際の情報を含む実際のシーンレベルのデータによってサポートされており、シミュレーションエンジン自体にのみ依存していては取得が困難です。ターゲットドメインデータを取得した後、このデータをPV-RCNNなどの現在利用可能な最良の知覚モデルに統合してトレーニングし、ターゲットドメインでのモデルの精度を検証しました。全体的な詳細なワークフローを下の図に示します。 図2 ReSimADフローチャート ReSimADのフローチャートは図2に示されており、主にa)ポイントツーメッシュ暗黙的再構築プロセス、 b) メッシュツーポイントシミュレーションエンジンレンダリングプロセス、 c) ゼロショット知覚プロセス。 ReSimAD: シミュレーション再構成知覚パラダイムa) ポイントツーメッシュ暗黙的再構築プロセス: StreetSurf にヒントを得て、LIDAR 再構築のみを使用して、現実的で多様な街路シーンの背景と動的な交通流情報を再構築します。私たちはまず、純粋なポイント クラウド SDF 再構築モジュール (LiDAR のみの暗黙的ニューラル再構築、LINR) を設計しました。このモジュールの利点は、照明の変化、気象条件の変化など、カメラ センシングによって生じる一部のドメインの違いの影響を受けないことです。純粋なポイント クラウド SDF 再構築モジュールは、LiDAR 光線を入力として受け取り、深度情報を予測し、最終的にシーンの 3D メッシュ表現を構築します。 具体的には、原点から方向 まで放射される光に対して、ボリュームレンダリングをライダーに適用して符号付き距離場 (SDF) ネットワークをトレーニングし、レンダリング深度 D を次のように定式化できます。 ここで、 は 番目のサンプルポイントのサンプリング深度であり、 は累積透過率であり、これは NeuS の近距離モデルを使用して取得されます。 StreetSurf にヒントを得て、本論文で提案されている再構築プロセスは、LiDAR 光線を入力として受け取り、予測された深度を出力します。サンプリングされた各ライダービームに対して、近距離モデルと遠距離モデルのレンダリングされた深度の組み合わせに対数 L1 損失を適用します。 しかし、LINR 法には依然としていくつかの課題が残っています。 LiDAR で取得したデータは本質的にスパースであるため、単一の LiDAR ポイント クラウド フレームでは、標準の RGB 画像に含まれる情報の一部しかキャプチャできません。この矛盾は、効果的なトレーニングに必要な幾何学的詳細を提供する上でディープ レンダリングが不十分である可能性があることを浮き彫りにしています。したがって、結果として得られる再構築されたメッシュ内に多数のアーティファクトが発生する可能性があります。この課題に対処するために、Waymo シーケンス内のすべてのフレームを連結して、ポイント クラウドの密度を高めることを提案します。 Waymo データセットの最上位 LiDAR の垂直視野の制限により、-17.6° から 2.4° の間の点群のみ取得され、周囲の高層ビルの再構築には明らかな制限があります。この課題に対処するために、サイド LiDAR のポイント クラウドを再構築のサンプリング シーケンスに組み込むソリューションを導入します。自動運転車両の前方、後方、両側面に4つの死角レーダーが設置されており、垂直視野は[-90°、30°]で、上部のライダーの視野不足を効果的に補います。サイドライダーとトップライダーの点群密度の違いにより、高層ビルのシーンの再構築品質を向上させるために、サイドライダーに高いサンプリング重みを割り当てることを選択しました。 再構成品質評価: 動的オブジェクトによる遮蔽や LiDAR ノイズの影響により、暗黙的表現の再構成には一定量のノイズが含まれる場合があります。そこで、再構築の精度を評価しました。古い領域から大量の注釈付き点群データを取得できるため、古い領域で再レンダリングして古い領域のシミュレートされた点群データを取得し、再構築されたメッシュの精度を評価することができます。二乗平均平方根誤差 (RMSE) と面取り距離 (CD) を使用して、シミュレートされた点群と元の実際の点群を測定します。 各シーケンスの再構築スコアと詳細なプロセスの説明については、原文の付録を参照してください。 b) メッシュツーポイント シミュレーション エンジンのレンダリング プロセス: 上記の LINR 方式で静的背景メッシュを取得した後、Blender Python API を使用してメッシュ データを .ply 形式から .fbx 形式の 3D モデル ファイルに変換し、最後に背景メッシュをアセット ライブラリとしてオープン ソース シミュレーター CARLA に読み込みます。 まず、Waymo のアノテーション ファイルを取得して、各交通参加者の境界ボックス カテゴリと 3D オブジェクト サイズを取得します。この情報に基づいて、CARLA のデジタル アセット ライブラリで、同じカテゴリの交通参加者の中でサイズが最も近いデジタル アセットを検索し、このデジタル アセットを交通参加者モデルとしてインポートします。 CARLA シミュレーターで利用可能なシーンのリアリティ情報に基づいて、交通シーン内の検出可能な各オブジェクトの検出ボックス抽出ツールを開発します。詳細については、PCSim 開発ツールを参照してください。 図3 異なるデータセットにおける交通参加者の物体サイズ(長さ、幅、高さ)の分布。図 3 からわかるように、この方法を使用してシミュレートされたオブジェクト サイズの分布の多様性は非常に広く、KITTI、nuScenes、Waymo、ONCE などの現在利用可能な公開データセットの多様性を上回っています。 ReSimAD 再構築シミュレーションデータセットWaymo をソース ドメイン データとして使用し、Waymo 上で再構築して、よりリアルな 3D メッシュを取得します。同時に、KITTI、nuScenes、ONCE をターゲット ドメイン シーンとして使用し、これらのターゲット ドメイン シーンで当社の方法によって達成されたゼロ ショット パフォーマンスを検証します。 前のセクションで説明したように、Waymo データセットに基づいて 3D シーンレベルのメッシュ データを生成し、上記の評価基準を使用して、Waymo ドメインでどの 3D メッシュが高品質であるかを判断します。次に、後続のターゲット ドメイン シミュレーション用に、最高スコアの 146 個のメッシュを選択します。 評価結果ResimAD データセットの視覚化例をいくつか以下に示します。 評価結果 実験セクション実験のセットアップ
実験結果ここでは主な実験結果のみを示します。詳細な結果については論文を参照してください。 3つのクロスドメイン設定におけるPV-RCNN/PV-RCNN++モデルの適応性能 上記の表から、教師なし領域適応 (UDA) と ReSimAD の主な違いは、前者はモデル領域の移行にターゲット領域内の実際のシーンのサンプルを使用するのに対し、ReSimAD の実験設定ではターゲット領域内の実際のポイント クラウド データにアクセスできないことであることがわかります。上記の表から、ReSimAD によって得られたクロスドメインの結果は、UDA メソッドによって得られた結果と同等であることがわかります。この結果は、LIDAR センサーを商用目的でアップグレードする必要がある場合、当社の方法によりデータ取得コストを大幅に削減し、ドメインの違いによって生じるモデルの再トレーニングと再開発のサイクルをさらに短縮できることを示しています。 ReSimADデータは、ターゲットドメインのコールドスタートデータとして使用されます。ターゲットドメインで達成できる効果は、 ReSimAD によって生成されたデータを使用するもう 1 つの利点は、ターゲット ドメインの実際のデータ分布にアクセスしなくても、高性能なターゲット ドメイン精度を実現できることです。このプロセスは、実際には、新しいシナリオにおける自動運転モデルの「コールド スタート」プロセスに似ています。 上記の表は、完全に教師ありのターゲット ドメインでの実験結果を報告しています。 Oracle は、注釈付きのターゲット ドメイン データ全体に基づいてモデルがトレーニングされた結果を表しますが、SFT は、ベースライン モデルのネットワーク初期化パラメーターが ReSimAD シミュレーション データでトレーニングされた重みによって提供されることを意味します。上記の実験表は、ReSimAD メソッドを使用してシミュレートされたポイント クラウドがより高い初期化重みパラメータを取得でき、そのパフォーマンスが Oracle の実験設定を上回ることを示しています。 ReSimADデータは、さまざまな下流タスクでのAD-PT事前トレーニングのパフォーマンスを活用するための一般的なデータセットとして使用されます。 ReSimAD が 3D 事前トレーニングを支援するためにより多くのポイント クラウド データを生成できるかどうかを確認するために、次の実験を設計しました。AD-PT (自動運転シナリオでバックボーン ネットワークを事前トレーニングするための最近提案された方法) を使用して、シミュレートされたポイント クラウドで 3D バックボーンを事前トレーニングし、その後、下流の実際のシーン データを使用してすべてのパラメーターを微調整します。
ReSimAD再構築を使用したシミュレーションとCARLAデフォルトシミュレーションの視覚的な比較 Waymoデータセットに基づいて再構築されたメッシュとVDBFusionを使用して再構築されたメッシュの視覚的な比較 要約するこの研究では、モデルがターゲット ドメインからのサンプル データ情報にさらされることなく、ソース ドメインの事前トレーニング済みモデルをターゲット ドメインのシナリオに正常に転送できることを要求するゼロ ショット ターゲット ドメイン モデル転送タスクの実験方法の研究に焦点を当てています。これまでの研究とは異なり、ソースドメインの暗黙的な再構築とターゲットドメインの多様性のシミュレーションに基づく 3D データ生成手法を初めて検討し、この手法がターゲットドメインのデータ分布にアクセスすることなく、いくつかの教師なしドメイン適応 (UDA) 手法よりも優れたモデル転送パフォーマンスを実現できることを検証しました。 オリジナルリンク: https://mp.weixin.qq.com/s/pmHFDvS7nXy-6AQBhvVzSw |
>>: ベクトル検索エンジン: 大規模な言語モデルの検索と強化された生成のための強力なツール
Transforma Insights では、2020 年の大半を、最も優れた詳細な IoT 予測の...
この学習ロードマップは、人工知能分野のほぼすべてのコンテンツを網羅しています。マウスをクリックするだ...
2020年、ピーター・スコット・モーガン博士はインターネットで話題になりました。人気の検索タイトル...
2023 年の FinTech 業界では、変革的な AI トレンドが見られます。機械学習、ロボティ...
あなたはアルゴリズムを信じますか?答えが何であれ、私たちの生活はアルゴリズムによって完全に変わりまし...
[[211369]]個人や企業にとって、ローカルデバイスでディープラーニング推論を実行することが望ま...
GPT-4.5 は、私たちの知らないうちに密かにリリースされたのでしょうか?最近、多くのネットユーザ...
[[421250]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
上海がゴミの分別を推進し始めて以来、クレイジーな上海寧は多くのジョークや絵文字を投稿し、大多数のネッ...