20倍速くなります! Google AIがスマートカーに役立つTensorFlow 3Dを発表

20倍速くなります! Google AIがスマートカーに役立つTensorFlow 3Dを発表

Google AI は TensorFlow 3D をリリースしました。これは TensorFlow に 3D ディープラーニング機能を導入し、3D スパース畳み込みネットワークを追加しました。Waymo Open データセットでの実験では、この実装は事前に設計された TensorFlow 操作よりも「20 倍」高速であることが示されました。

自動運転車やロボットの急速な発展に伴い、LIDAR、深度検知カメラ、レーダーなどの3Dセンサーは道路データを取得するための必須機器となっています。

これらのセンサーを活用する機械学習システムは、ハードウェアが現実世界でナビゲートするなどの作業を行うのに役立つため、特に重要です。

最近、物体検出や透明物体検出などのモデルを含む 3D シーン理解は大きく進歩しましたが、3D データに利用できるツールとリソースが限られているため、この分野は依然として課題に直面しています。

TensorFlow 3D: TensorFlow と 3D ディープラーニングを組み合わせる

Google AI は、3D シーンのモデリングをさらに改善し、研究者の作業を簡素化するために、TensorFlow に 3D ディープラーニング機能をもたらすように設計された、高度にモジュール化された効率的なライブラリである TensorFlow 3D (TF 3D) をリリースしました。

TF 3D は、一般的に使用される操作、損失関数、データ処理ツール、モデル、メトリックのセットを提供するため、より多くの研究チームが最先端の 3D シーン理解モデルを開発、トレーニング、展開できるようになります。

TF 3D には、最先端の 3D セマンティック セグメンテーション、3D オブジェクト検出、3D インスタンス セグメンテーションのトレーニングおよび評価タスクが含まれており、分散トレーニングもサポートしています。

さらに、TF 3D は、3D オブジェクトの形状予測、ポイント クラウド登録、ポイント クラウドの高密度化などの他の潜在的なアプリケーションもサポートします。さらに、トレーニングおよび評価の標準 3D シーン理解データセットの統一されたデータセット仕様と構成も提供します。

現在、TF 3D は Waymo Open、ScanNet、Rio データセットをサポートしています。

ただし、ユーザーは NuScenes や Kitti などの他の一般的なデータセットを同様の形式に自由に変換し、既存またはカスタムのパイプライン モデルで使用できます。また、ラピッド プロトタイピングからリアルタイム推論システムの導入まで、さまざまな 3D ディープラーニングの研究やアプリケーションに TF 3D を活用することもできます。

左側に示されているのは、Waymo Open Dataset のフレームに対する TF 3D の 3D オブジェクト検出モデルの出力例です。右側は、ScanNet データセット上の 3D インスタンス セグメンテーション モデルの出力例です。

ここでは、TF 3D で提供される効率的で構成可能なスパース畳み込みバックボーンを紹介します。これは、さまざまな 3D シーン理解タスクで最先端の結果を達成するための鍵となります。

さらに、TF 3D で現​​在サポートされている 3 つのパイプライン タスク (3D セマンティック セグメンテーション、3D オブジェクト検出セグメンテーション、3D インスタンス セグメンテーション) を 1 つずつ紹介します。

3Dスパース畳み込みネットワーク

センサーによって収集された 3D データには通常、大部分がオープンスペースに囲まれた一連の対象オブジェクト (車、歩行者など) を含むシーンが含まれます。したがって、3D データは本質的にスパースです。

このような環境では、畳み込みの標準的な実装は計算量とメモリ使用量が膨大になります。そのため、TF 3D では、サブマニフォールドスパース畳み込みとプーリング操作を採用し、3D スパースデータをより効率的に処理できるようになりました。

スパース畳み込みモデルは、ほとんどの屋外自動運転 (Waymo、NuScenes など) や屋内ベンチマーク (ScanNet など) に適用される SOTA 手法の鍵となります。

Google は、計算を高速化するためにさまざまな CUDA テクニック (ハッシュ、共有メモリ内のフィルターのパーティション分割/キャッシュ、ビット操作の使用など) も適用しました。

Waymo Open データセットでの実験では、この実装は事前に設計された TensorFlow 操作よりも約 20 倍高速であることが示されています。

画像ソース: GitHub 上の Waymo Open Dataset

次に、TF 3D は 3D マニフォールド スパース U-Net アーキテクチャを使用して、各ボクセルの特徴を抽出します。 U-Net アーキテクチャは、ネットワークが粗い特徴と細かい特徴を抽出し、それらを組み合わせて予測を行えるようにすることで効果的であることが実証されています。

U-Net ネットワークは、エンコーダー、ボトルネック、デコーダーの 3 つのモジュールで構成されています。各モジュールは多数のスパース畳み込みブロックで構成され、プーリング操作または非プーリング操作を実行できます。

3D スパース ボクセル U-Net アーキテクチャ。水平矢印はボクセル特徴を受け取り、それらに多様体スパース畳み込みを適用することに注意してください。下方向に移動する矢印は、マニフォールドスパースプーリングを実行します。上向きの矢印は、プールされた特徴を収集し、それらを水平矢印の特徴と連結し、連結された特徴に対して多様体スパース畳み込みを実行します。

上記のスパース畳み込みネットワークは、TF 3D が提供する 3D シーン理解パイプライン モデルのバックボーンです。

以下で説明する各モデルは、このバックボーン ネットワークを使用してスパース ボクセル機能を抽出し、1 つ以上の予測ヘッドを追加して対象のタスクを推測します。

ユーザーは、エンコーダー/デコーダー層の数と層ごとの畳み込みの数を変更することで U-Net ネットワークを構成し、畳み込みフィルターのサイズを変更することで、さまざまなネットワーク構成を通じて速度と精度のバランスを取ることができます。

3Dセマンティックセグメンテーション

3D セマンティック セグメンテーション モデルには出力が 1 つだけあり、これを使用して各ポイントのセマンティック スコアを予測し、それをポイントにマッピングし、各ポイントのセマンティック ラベルを予測します。

ScanNet データセットからの屋内シーンの 3D セマンティック セグメンテーション。

3Dインスタンスセグメンテーション

3D インスタンス セグメンテーションでは、セマンティクスを予測することに加えて、同じオブジェクトのボクセルをグループ化することがより重要です。

TF 3D で使用される 3D インスタンス セグメンテーション アルゴリズムは、ディープ メトリック ラーニング手法を使用した 2D 画像セグメンテーションに関する研究に基づいています。このモデルは、各ボクセルのインスタンス埋め込みベクトルと各ボクセルのセマンティックスコアを予測します。

インスタンス埋め込みベクトルは、同じオブジェクト インスタンスに対応するボクセルが互いに近くなり、異なるオブジェクトに対応するボクセルが互いに離れる埋め込み空間にボクセルをマッピングします。

この場合、入力は画像ではなくポイント クラウドであり、2D 画像ネットワークではなく 3D スパース ネットワークを使用します。推論プロセスでは、貪欲アルゴリズムを使用してインスタンス シードを選択し、ボクセル埋め込み距離関数を使用して、異なるボクセルを対応するインスタンスに集約します。

3Dオブジェクト検出

オブジェクト検出モデルは、各ボクセルのサイズ、中心、回転行列、およびオブジェクトのセマンティック スコアを予測します。

推論中、選択メカニズムは、与えられた複数の候補ボックスをいくつかの正確な 3D オブジェクト ボックスに処理します。トレーニング中、予測と GT 間の Huber 損失距離を使用して損失が計算されます。サイズ、中心、回転行列を使用してボックスのコーナーを推定することは微分可能なプロセスであるため、損失は予測プロセスの重みに自然に渡すことができます。研究者らは、動的ボックス分類損失を使用して、予測されたボックスの肯定的な例と否定的な例を区別しました。

ScanNet データセットでの 3D オブジェクト検出結果。

TF 3D は、市場にある 3D ディープラーニング拡張機能の 1 つにすぎません。 2020年、Facebookは3Dレンダリングと仮想現実に重点を置いたPyTorch3Dをリリースしました。もう 1 つは、高解像度のシミュレーション環境などの解決可能なレンダリング用のモジュール式アプリケーションである Nvidia の Kaolin です。

この概要から、TF 3D アプリケーションはロボットの認識とマッピングに重点を置いており、他のオプションは 3D シミュレーションとレンダリングに重点を置いているようです。 3D レンダリングを実現するために、Google は TensorFlow Graphics を導入しました。

<<:  GPT-3: 高く評価されている交通の星ですが、大きな欠陥があり、非常に危険です...

>>:  AIの脳回路は人間と非常に似ている、OpenAIの最新研究は白熱した議論を引き起こしている

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

レビュー能力はGPT-4よりも強く、13B評価モデルAuto-Jはオープンソース化されている

生成型人工知能技術の急速な発展に伴い、大規模なモデルが人間の価値観(意図)と一致するようにすることが...

...

...

...

事故! GoogleのAIがチューリングテストに合格:4つのタスクに成功、うち3つは手動で実行

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Python ディープラーニング: なぜディープラーニングを学ぶのか?

2016年初頭、伝説の囲碁プレイヤー、イ・セドル氏が囲碁界の「新人」と世界的に有名な一連の対決を始...

...

今後5年間の産業AIの8つの主要な発展トレンド

ChatGPT と生成型人工知能 (AI) が世間の注目を集めるようになり、突如として世界で最も議論...

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

ニューラルネットワークの威力を示す証拠文字通り、普遍近似定理はニューラル ネットワークがどのように機...

サイバーセキュリティの専門家が知っておくべきAI用語

人工知能の急速な発展により、私たちは第四次産業革命の真っ只中にいます。このデジタル時代において、サイ...

AIがコンテンツマーケティングを進化させる方法

デジタル メディアはほぼすべての人の日常生活に浸透し、私たちのあらゆる活動に永続的な影響を及ぼしてい...

...

ブロックチェーンは人工知能をどのように変えるのでしょうか?

人工知能とブロックチェーンは、現在人気が高まっている2つの人気産業です。 2つの技術は異なり、商業的...

...