Waymo は不十分なデータを補うために GAN を使用しています。生成された画像を使用して、シミュレーション環境でモデルをトレーニングします。

Waymo は不十分なデータを補うために GAN を使用しています。生成された画像を使用して、シミュレーション環境でモデルをトレーニングします。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

流行の影響で、ウェイモなどの自動運転メーカーは、現実世界の公道での訓練やテストを一時的に実施できなくなっている。

ただし、エンジニアはシミュレーション環境では、GTA (取り消し線付き) でスポーツカーを運転し続けることができます。

シミュレートされた環境内のシーン、オブジェクト、センサー フィードバックは通常、 Unreal EngineUnityなどのゲーム エンジンを使用して作成されます。

LIDAR などのセンサーの現実的なモデリングを実現するには、多くの手動操作が必要であり、十分かつ複雑なデータを取得するには多大な労力がかかります。

データが不十分だったため、自動運転車のベンチマークであるWaymoはそれを補うためにGANを使用することを決定しました。

SurfelGANと呼ばれるこのGANは、自動運転車によって収集された限られたLIDARとカメラのデータに基づいて、リアルなカメラ画像を生成できます。

GAN によって生成されたデータを自動運転車のトレーニングに使用することは信頼できるでしょうか?

サーフェルガン

まず、SurfelGAN がどのように作成されたかを見てみましょう。

主な手順は 2 つあります。

まず、ターゲット環境がスキャンされ、多数のテクスチャ付き表面要素 (サーフェル) で構成されるシーンが再構築されます。

次に、カメラの軌跡を使用して表面要素をレンダリングし、セマンティック セグメンテーションとインスタンス セグメンテーションを同時に実行します。次に、GAN を通じてリアルなカメラ画像が生成されます。

表面要素シーンの再構築

計算と保存の効率性を維持しながらセンサー情報を忠実に保存するために、研究者らはテクスチャを強化した表面要素マップ表現方法を提案した。

サーフェス要素 (略称 Surfel) は、動的な幾何学的モデリングに適しています。オブジェクトは、照明情報を持つ密な点またはサーフェス要素のセットによって表現されます。

研究者らは、LIDARスキャンでキャプチャされたボクセルを色付きの表面要素に変換し、k×kグリッドに離散化しました。

照明条件の違いやカメラの相対的な姿勢(距離と視点)の変化により、各表面要素はフレームごとに異なる外観になることがあります。研究者らは、異なる距離にある n k×k グリッドで構成されるコードブックを作成することで、表面要素の表現を強化することを提案しました。

レンダリングフェーズでは、カメラのポーズに基づいて、どの k×k ブロックを使用するかを決定します。

図の 2 行目は、この方法による最終的なレンダリング効果を示しています。 1 行目のベースライン メソッドと比較すると、テクスチャ強化表面要素マップでは多くのアーティファクトが除去され、3 行目の実際の画像に近いことがわかります。

車両などの動的オブジェクトを処理するために、SurfelGAN は Waymo のオープン データセットからの注釈も採用しています。対象物体の LIDAR スキャンからのデータが蓄積され、シミュレートされた環境内の任意の場所で車両や歩行者を再構築できるようになります。

SurfelGANによる画像の合成

上記の手順を完了した後も、シミュレーション シーンには不完全なジオメトリとテクスチャの問題が残っています。

このとき、GAN モジュールが役立ちます。

トレーニング セットアップは、Sufel 画像から実画像への GS→I と、逆に実画像から Sufel 画像への GI→S の 2 つの対称エンコーダー/デコーダー ジェネレーターです。また、Sufel ドメイン用と実ドメイン用の 2 つの識別子もあります。

上の図では、緑の線は教師あり再構成損失、赤の線は敵対的損失、青/黄色の線はサイクル一貫性損失を表しています。

入力データには、ペアデータと非ペアデータが含まれます。その中で、非対称データは次の 2 つの目的を達成するために使用されます。

  • 識別器の一般化パフォーマンスを向上します。
  • サイクルの一貫性を強制することでジェネレータを正規化します。

さらに、表面要素画像のカバー範囲が限られているため、レンダリングされた画像には未知の領域が広く含まれており、カメラと表面要素間の距離も別の不確実性要因をもたらします。研究者は距離加重損失を使用して、GANのトレーニングを安定化させました。

具体的には、データの前処理中に、まず距離マップが生成され、次に距離情報が重み付けスパース性として使用されて再構成損失が調整されます。

実験結果

最後に、それがどれだけ効果的かを確認するには、まだ実験結果を見る必要があります。

研究者らはWaymo Open Dataset(WOD)に基づいて実験を行った。データセットは、798 個のトレーニング シーケンスと 202 個の検証シーケンスで構成されています。各シーケンスには 20 秒間のカメラ データと LIDAR データが含まれます。さらに、WOD には車両や歩行者の実際の注釈も含まれています。

彼らはまた、WOD (Waymo Open Dataset-Novel View) から新しいデータセットを派生させました。このデータセットでは、研究者はカメラの摂動ポーズに基づいて、元のデータセットの各フレームの表面要素の新しいレンダリングを作成しました。

さらに、実際の画像に対する非ペアトレーニング用の 100 フレームの短いシーケンスが 9800 個あります。また、モデルの信頼性をテストするために、Dual Camera-Pose Dataset (DCP) が使用されます。

検出器の識別により、SurfelGAN によって生成された最高品質の画像は AP@50 が 52.1% から62.0%に増加し、実際の画像の61.9%と同等であることがわかります。

Waymo は、このような結果が将来の動的オブジェクト モデリングおよびビデオ生成シミュレーション システムの強固な基盤を築くと考えています。

中国の作品

論文の第一著者は、ウェイモの中国人インターンのジェンペイ・ヤン氏で、2019年6月から8月にかけてウェイモで研究を完了した。

Zhenpei Yang は清華大学のオートメーション学部を卒業し、現在はテキサス大学オースティン校で 3D ビジョンとディープラーニングを専門に博士号取得を目指しています。

[[330169]]

ウェイモの主任科学者ドラゴミール・アンゲロフ氏もこの論文の著者の一人である。

<<:  論文執筆に必ず使うべき 12 のニューラル ネットワーク可視化ツール

>>:  マイクロソフト、警察への顔認識サポート提供を禁止される企業リストに加わる

推薦する

ケーススタディ | 埋め込みに基づく特徴セキュアな計算

[[331789]]序文従来のデータの公開と共有の方法の多くは、生のデータをプレーンテキストで直接出...

IBMは「キーポイント分析」技術でProject Debaterの機能をさらに向上

[51CTO.com 速訳] IBMは、人工知能技術を使って人々の意見を要約することを目指すProj...

2017年中国・米国データサイエンス比較レポート:Pythonが年間平均給与11万ドルで1位

[[208216]] ***ニュースによると、Kaggleは最近、機械学習とデータサイエンスに関する...

AMiner が発表: 2022 年に世界で最も影響力のある人工知能学者「AI 2000」

2022年1月25日、人工知能分野で世界で最も影響力のある学者の2022年リスト「AI 2000」...

1.4GB 未満のビデオ メモリで 10,000 フレームのビデオをセグメント化します。コードは現在オープン ソースです。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI はモノのインターネットをどのように改善するのでしょうか?

スマートテレビやスマート冷蔵庫からスマートフォンやスマート音声デバイスまで、モノのインターネット (...

...

...

人工知能がホテル業界にもたらす変化

人工知能はかつてはSFの世界のものと考えられていましたが、今ではどこにでもあります。私たちが行う、ま...

ロボットは人間と機械の協働チームの「リーダー」になれるでしょうか?どのように機能しますか?

ロボット技術の発展により、ロボットは実生活においてますます重要な役割を果たすようになるでしょう。人間...

AI、メタバース、職場におけるDEI

AI とメタバースが仕事を変えるにつれて、リーダーは DEI に影響を与える新興テクノロジーの 3...

...

...

2018年に人工知能はどのように発展するでしょうか? 13人の専門家の予測を聞いてみよう

ウォール・ストリート・ジャーナル、フォーブス、フォーチュンなどの出版物は、2017 年を「AI の年...