GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します

GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します

今日の自動運転車やロボットは、LIDARやカメラなどのさまざまなセンサーを通じて情報を取得できます。センサーとしての LiDAR は光のパルスを使用してシーン内のオブジェクトの 3D 座標を測定しますが、まばらさと範囲の制限という問題があります。つまり、センサーから遠ざかるほど、返されるポイントが少なくなります。つまり、遠くの物体は数点しか取得されないか、まったく取得されない可能性があり、LiDAR だけでは捕捉できない可能性があります。同時に、オンボードカメラからの画像入力は非常に高密度であるため、検出やオブジェクトのセグメンテーションなどの意味理解タスクに役立ちます。高解像度のカメラは遠くの物体を検出するのに非常に効果的ですが、距離を測定する精度は低くなります。

自動運転車は、LiDAR と車載カメラ センサーからデータを収集します。各センサーの測定値は一定の間隔で記録され、4D の世界を正確に表現します。ただし、この 2 つを一緒に使用する研究アルゴリズムはほとんどありません。両方のセンシング モダリティを同時に使用する場合、2 つの課題があります。1) 計算効率を維持するのが難しい、2) LiDAR ポイントとオンボード カメラの RGB 画像入力が必ずしも直接対応しているわけではないため、1 つのセンサーからの情報を他のセンサーの情報と組み合わせるとシステムの複雑さがさらに増す、です。

ICCV 2021で発表された論文「学習したマルチモーダルアライメントのための4D-Net」では、GoogleとWaymoの研究者が4Dデータ(3Dポイントクラウドと車載カメラ画像データ)を処理できるニューラルネットワーク、4D-Netを提案しました。これは、3D LiDAR ポイント クラウドと車両カメラの RGB 画像を組み合わせた最初の研究です。さらに、Google は動的接続学習方式も導入しました。最後に、Google は、4D-Net が計算効率を維持しながら、動きの手がかりと高密度の画像情報をより有効に活用して遠くの物体を検出できることを実証しました。

論文アドレス: https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf

4Dネット

Google は、オブジェクトの 3D 境界ボックスの検出に 4D 入力を使用します。 4D-Net は、3D LiDAR ポイント クラウドと RGB 画像をタイムリーに効果的に組み合わせ、さまざまなセンサー間の接続とその特徴表現を学習します。

Google は軽量ニューラル アーキテクチャ検索を使用して、2 種類のセンサー入力とその特徴表現の関係を学習し、最も正確な 3D ボックス検出を実現します。自動運転の分野では、大きく変化する距離にある物体を確実に検出することが特に重要です。最新の LiDAR センサーの検出範囲は最大数百メートルです。つまり、遠くにある物体は画像内で小さく表示され、最も重要な特徴はネットワークの初期の層に存在し、後の層で表される近くの物体と比較して、細かいスケールの特徴をより適切に捉えることができます。この観察に基づいて、接続を動的に変更し、自己注意メカニズムを使用してすべてのレイヤーの機能を選択します。 Google は、他のすべてのレイヤーの重みに注意重みを適用し、現在のタスクに最適な組み合わせを学習できる学習可能な線形レイヤーを適用します。

接続学習法の概略図。

結果

Google は Waymo Open Dataset ベンチマークでこれをテストしました。以前のモデルでは、3D ポイント クラウドのみ、または単一のポイント クラウドとカメラ画像データの組み合わせが使用されていました。 4D-Net は 2 つのセンサー入力を効果的に使用し、32 個のポイント クラウドと 16 個の RGB フレームを 164 ミリ秒で処理し、他の方法と比較して優れたパフォーマンスを発揮します。対照的に、2 番目に優れたパフォーマンスを発揮する方法は、ニューラル ネットワークの計算に 300 ミリ秒かかり、4D-Net よりもセンサー入力が少ないため、効率と精度が低くなります。

3Dシーンの結果。上部: 検出された車両に対応する 3D ボックスが異なる色で表示され、破線のボックスは失われたオブジェクトを表します。下部: 視覚化のために、対応するカメラ画像にボックスが表示されます。

遠くの物体を検出する

4D-Net のもう 1 つの利点は、RGB が提供する高解像度を利用して画像上のオブジェクトを正確に検出し、ポイント クラウド データが提供する正確な深度を活用できることです。そのため、点群方式では検出できない遠距離の対象物も4D-Netでは検出可能です。これはカメラ データの融合によるもので、遠くの物体を検出し、その情報をネットワークの 3D 部分に効率的に伝播して正確な検出を行うことができます。

4D-Net がもたらす利点を理解するために、Google は一連のアブレーション研究を実施しました。実験により、少なくとも 1 つのセンサー入力が時間内にストリーミングされると、検出精度が大幅に向上することがわかりました。両方のセンサー入力を時間内に考慮することで、パフォーマンスを最大化できます。

4D-Net の 3D オブジェクト検出のパフォーマンスは、ポイント クラウド (PC)、時間ポイント クラウド (PC + T)、RGB 画像入力 (RGB)、および時間 RGB 画像 (RGB + T) を使用した場合の平均精度 (AP) で測定されます。

マルチストリーム 4D-Net

4D-Net の動的接続学習メカニズムは汎用的であるため、Google はポイント クラウド ストリームと RGB ビデオ ストリームのみを組み合わせることに限定されません。実際には、Google は、高解像度の単一画像ストリームと低解像度のビデオ ストリームを 3D ポイント クラウド ストリーム入力と組み合わせて提供することが非常に費用対効果が高いことを発見しました。そのため、Google は、リアルタイムのポイント クラウドと画像を使用した 2 ストリーム アーキテクチャよりもパフォーマンスが優れている 4 ストリーム アーキテクチャの例を次の図に示します。

動的連結は、連結する特定の特徴入力を選択することを学習します。複数の入力ストリームがある場合、4D-Net は複数のターゲット機能表現間の接続を学習する必要がありますが、アルゴリズムは変更されておらず、入力から特定の機能を選択するだけでよいため、これは当然のことです。これは、微分可能なアーキテクチャ検索を使用してモデル アーキテクチャ内の新しい接続を検出し、新しい 4D-Net モデルを効率的に見つける軽量プロセスです。

マルチストリーム 4D-Net アーキテクチャは、リアルタイム 3D ポイント クラウド ストリームと複数の画像ストリーム (高解像度の単一画像ストリーム、中解像度の単一画像ストリーム、および低解像度のビデオ ストリーム画像) で構成されます。

Google は、4D-Net が効率的な物体検出方法であり、特に遠くの物体を検出するのに適していることを実証しました。研究者たちは、この研究が将来の 4D データ研究に貴重なリソースを提供することを期待しています。

<<:  ニューラル放射フィールドはポイントベースで、NeRFよりも30倍高速なトレーニング速度と優れたレンダリング品質を備えています。

>>:  6つの主要なディープラーニングフレームワークの詳細な説明

ブログ    
ブログ    

推薦する

オープンソース | AREX: Ctrip の次世代自動回帰テスト ツールの設計と実装

著者についてCtrip の R&D エネルギー効率マネージャー兼 SRE である Haibi...

衝撃の2017年!この10日間は中国の人工知能の時代

2017年にはすでに「残高不足」が発生。今年、中国の人工知能開発は多くの進歩を遂げ、実りある成果を達...

データ汚染を防ぐのは困難です。機械学習モデルに「悪いことを学習」させないでください

過去 10 年間、クラウド コンピューティングの普及により、多くの企業に高性能コンピューティングおよ...

人工知能 (AI) プロジェクトの失敗: 人材不足に対処する方法

適切な技術人材の採用は、企業組織による人工知能 (AI) の導入に対する大きな障壁となっています。最...

今後のAIの5大発展トレンドとは?2024年は「意味のある人工知能時代」の到来を告げる

生成型人工知能の出現により、人間と人工知能の距離は徐々に縮まっています。これまで関連技術にあまり注意...

WeChat JS-SDK-使用許可署名アルゴリズム

jsapi_チケット署名を生成する前に、まず jsapi_ticket を理解する必要があります。j...

ビッグデータ採用、アルゴリズムによって選ばれた

[[76655]]大学に通ったことのない26歳のジェド・ドミンゲスさんは、ギルデッドのアルゴリズムに...

2020 年の優れた産業用人工知能アプリケーション

人工知能技術は今、世界を変えつつあります。多くの業界はすでに、ビジネス プロセスを改善するために A...

大規模なマルチモーダルモデルは、学習しすぎると能力が低下しますか?新しい研究:教育省+の一般専門家が紛争を解決

微調整により、一般的な大規模モデルを特定の業界のアプリケーションにより適したものにすることができます...

Meta と Microsoft が、開発者が生成型 AI アプリケーションを構築できるようにオープンソース モデル Llama 2 をリリース

7月19日、MetaとMicrosoftは協力して、研究や商用目的で無料で使用できるMetaの次世代...

2018年に人工知能はどのように発展するでしょうか?ここに8つの予測があります

編集者注:PwCは、2018年の人工知能の開発動向を調査し、8つの予測を行ったレポートを発表しました...

Googleは人工知能を使って人間の認知の欠陥を浮き彫りにする

今日では、驚くほど人間らしい文章の一部は、実際には大量の人間の文章でトレーニングされた AI システ...

RPAとAIの違いを理解する

CIO は自動化と AI の導入を加速し、これらのテクノロジーが提供するスピードとコスト削減の利点を...

未来を垣間見るのに役立つ9つの主要な人工知能開発トレンド

人工知能はテクノロジー界でホットな話題となっている。それは人々の生活を変えただけでなく、考えられるあ...