GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します

GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します

今日の自動運転車やロボットは、LIDARやカメラなどのさまざまなセンサーを通じて情報を取得できます。センサーとしての LiDAR は光のパルスを使用してシーン内のオブジェクトの 3D 座標を測定しますが、まばらさと範囲の制限という問題があります。つまり、センサーから遠ざかるほど、返されるポイントが少なくなります。つまり、遠くの物体は数点しか取得されないか、まったく取得されない可能性があり、LiDAR だけでは捕捉できない可能性があります。同時に、オンボードカメラからの画像入力は非常に高密度であるため、検出やオブジェクトのセグメンテーションなどの意味理解タスクに役立ちます。高解像度のカメラは遠くの物体を検出するのに非常に効果的ですが、距離を測定する精度は低くなります。

自動運転車は、LiDAR と車載カメラ センサーからデータを収集します。各センサーの測定値は一定の間隔で記録され、4D の世界を正確に表現します。ただし、この 2 つを一緒に使用する研究アルゴリズムはほとんどありません。両方のセンシング モダリティを同時に使用する場合、2 つの課題があります。1) 計算効率を維持するのが難しい、2) LiDAR ポイントとオンボード カメラの RGB 画像入力が必ずしも直接対応しているわけではないため、1 つのセンサーからの情報を他のセンサーの情報と組み合わせるとシステムの複雑さがさらに増す、です。

ICCV 2021で発表された論文「学習したマルチモーダルアライメントのための4D-Net」では、GoogleとWaymoの研究者が4Dデータ(3Dポイントクラウドと車載カメラ画像データ)を処理できるニューラルネットワーク、4D-Netを提案しました。これは、3D LiDAR ポイント クラウドと車両カメラの RGB 画像を組み合わせた最初の研究です。さらに、Google は動的接続学習方式も導入しました。最後に、Google は、4D-Net が計算効率を維持しながら、動きの手がかりと高密度の画像情報をより有効に活用して遠くの物体を検出できることを実証しました。

論文アドレス: https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf

4Dネット

Google は、オブジェクトの 3D 境界ボックスの検出に 4D 入力を使用します。 4D-Net は、3D LiDAR ポイント クラウドと RGB 画像をタイムリーに効果的に組み合わせ、さまざまなセンサー間の接続とその特徴表現を学習します。

Google は軽量ニューラル アーキテクチャ検索を使用して、2 種類のセンサー入力とその特徴表現の関係を学習し、最も正確な 3D ボックス検出を実現します。自動運転の分野では、大きく変化する距離にある物体を確実に検出することが特に重要です。最新の LiDAR センサーの検出範囲は最大数百メートルです。つまり、遠くにある物体は画像内で小さく表示され、最も重要な特徴はネットワークの初期の層に存在し、後の層で表される近くの物体と比較して、細かいスケールの特徴をより適切に捉えることができます。この観察に基づいて、接続を動的に変更し、自己注意メカニズムを使用してすべてのレイヤーの機能を選択します。 Google は、他のすべてのレイヤーの重みに注意重みを適用し、現在のタスクに最適な組み合わせを学習できる学習可能な線形レイヤーを適用します。

接続学習法の概略図。

結果

Google は Waymo Open Dataset ベンチマークでこれをテストしました。以前のモデルでは、3D ポイント クラウドのみ、または単一のポイント クラウドとカメラ画像データの組み合わせが使用されていました。 4D-Net は 2 つのセンサー入力を効果的に使用し、32 個のポイント クラウドと 16 個の RGB フレームを 164 ミリ秒で処理し、他の方法と比較して優れたパフォーマンスを発揮します。対照的に、2 番目に優れたパフォーマンスを発揮する方法は、ニューラル ネットワークの計算に 300 ミリ秒かかり、4D-Net よりもセンサー入力が少ないため、効率と精度が低くなります。

3Dシーンの結果。上部: 検出された車両に対応する 3D ボックスが異なる色で表示され、破線のボックスは失われたオブジェクトを表します。下部: 視覚化のために、対応するカメラ画像にボックスが表示されます。

遠くの物体を検出する

4D-Net のもう 1 つの利点は、RGB が提供する高解像度を利用して画像上のオブジェクトを正確に検出し、ポイント クラウド データが提供する正確な深度を活用できることです。そのため、点群方式では検出できない遠距離の対象物も4D-Netでは検出可能です。これはカメラ データの融合によるもので、遠くの物体を検出し、その情報をネットワークの 3D 部分に効率的に伝播して正確な検出を行うことができます。

4D-Net がもたらす利点を理解するために、Google は一連のアブレーション研究を実施しました。実験により、少なくとも 1 つのセンサー入力が時間内にストリーミングされると、検出精度が大幅に向上することがわかりました。両方のセンサー入力を時間内に考慮することで、パフォーマンスを最大化できます。

4D-Net の 3D オブジェクト検出のパフォーマンスは、ポイント クラウド (PC)、時間ポイント クラウド (PC + T)、RGB 画像入力 (RGB)、および時間 RGB 画像 (RGB + T) を使用した場合の平均精度 (AP) で測定されます。

マルチストリーム 4D-Net

4D-Net の動的接続学習メカニズムは汎用的であるため、Google はポイント クラウド ストリームと RGB ビデオ ストリームのみを組み合わせることに限定されません。実際には、Google は、高解像度の単一画像ストリームと低解像度のビデオ ストリームを 3D ポイント クラウド ストリーム入力と組み合わせて提供することが非常に費用対効果が高いことを発見しました。そのため、Google は、リアルタイムのポイント クラウドと画像を使用した 2 ストリーム アーキテクチャよりもパフォーマンスが優れている 4 ストリーム アーキテクチャの例を次の図に示します。

動的連結は、連結する特定の特徴入力を選択することを学習します。複数の入力ストリームがある場合、4D-Net は複数のターゲット機能表現間の接続を学習する必要がありますが、アルゴリズムは変更されておらず、入力から特定の機能を選択するだけでよいため、これは当然のことです。これは、微分可能なアーキテクチャ検索を使用してモデル アーキテクチャ内の新しい接続を検出し、新しい 4D-Net モデルを効率的に見つける軽量プロセスです。

マルチストリーム 4D-Net アーキテクチャは、リアルタイム 3D ポイント クラウド ストリームと複数の画像ストリーム (高解像度の単一画像ストリーム、中解像度の単一画像ストリーム、および低解像度のビデオ ストリーム画像) で構成されます。

Google は、4D-Net が効率的な物体検出方法であり、特に遠くの物体を検出するのに適していることを実証しました。研究者たちは、この研究が将来の 4D データ研究に貴重なリソースを提供することを期待しています。

<<:  ニューラル放射フィールドはポイントベースで、NeRFよりも30倍高速なトレーニング速度と優れたレンダリング品質を備えています。

>>:  6つの主要なディープラーニングフレームワークの詳細な説明

ブログ    
ブログ    

推薦する

2025年以降の人工知能の未来(パート2)

前回の記事では、2025年以降の人工知能の未来についてお話ししました(パート1)。今日は、5G、6G...

2022年の最先端技術トップ10:将来ロボットは多用途化することが予想される

最近、アリババDAMOアカデミーは、2022年に最も注目に値する最先端技術トップ10をまとめました。...

App Store 中国地域がアルゴリズムを調整?一部のアプリではフルネームによる検索が機能しません

最近、中国の Apple App Store で「奇妙な現象」が発生しました。一部のアプリケーション...

UBS: AI需要は2022年から2027年の間に年平均61%の成長率で増加すると予想

金融投資機関UBSは最近、人工知能端末の需要に関する長期予測を、2020年から2025年までの年平均...

デジタルイノベーション:次の世界的危機に対応するための重要な要素

世界的なCOVID-19危機は依然として猛威を振るっていますが、一部の組織はすでに将来のパンデミック...

...

AI医用画像の春が再び到来?

概要: AI医用画像診断市場は急速な成長期を迎えつつあり、医師の負担を軽減しながら医療の質の向上も期...

「AI as a Service」は、業界における人工知能の応用シナリオです。

「AI as a Service」は、多次元統合と3次元浸透を備えたプラットフォームです。人工知能...

アリババ人工知能ラボ:テクノロジーがあなたの生活をどう変えるかを見てみましょう

[PConline News] ジャカルタアジア競技大会が閉幕し、アジア競技大会は正式に杭州タイムに...

光学行列乗算は人工知能をどう変えるのか

現在の AI の世界は電力を大量に消費し、計算能力が制限されています。モデル開発の軌跡は急速でしたが...

...

数学が苦手でも機械学習を学ぶことはできますか?

[[381131]] 01 「機械学習は簡単に習得できますか?」これは私が最も頻繁に聞かれる質問で...

注目すべきAIハードウェアスタートアップ3社

AI は本質的にはソフトウェアの追求ですが、ハードウェア エンジニアに多くの機会を生み出し、多くのス...

...

Facebook、動画から学習する新たなAIプロジェクトを開始

3月30日、海外メディアの報道によると、Facebookの開発者らは、公開動画から学習できる「Lea...