0パラメータ+0トレーニング、3D点群解析手法Point-NNは複数のSOTAを更新します

0パラメータ+0トレーニング、3D点群解析手法Point-NNは複数のSOTAを更新します


  • 論文リンク: https://arxiv.org/pdf/2303.08134.pdf
  • コードアドレス: https://github.com/ZrrSkywalker/Point-NN

この論文では、3D ポイント クラウド分析用の非パラメトリック ネットワーク Point-NN を提案します。これは、最遠点サンプリング (FPS)、k 近傍法 (k-NN)、三角関数、およびプーリング操作という、完全に学習不可能なコンポーネントのみで構成されています。パラメータやトレーニングを必要とせず、さまざまな 3D タスクで優れた精度を達成でき、少数ショット分類では既存の完全にトレーニングされたモデルを大幅に上回ることさえできます。

この研究は、Point-NN のノンパラメトリックフレームワークに基づいて、現在の 3D 分野に次のように貢献します。

1. まず、単純な線形層を挿入することで、Point-NN、Point-PN のパラメータ化されたネットワークを構築できます。 Point-NN は強力なノンパラメトリック基盤を備えているため、構築された Point-PN では、優れた 3D 分類およびセグメンテーション パフォーマンスを示すために、少数の学習可能なパラメーターのみが必要です。

2. 次に、Point-NN はトレーニングを必要としないため、プラグアンドプレイの拡張モジュールとして使用して、既存のトレーニング済み 3D モデルを拡張できます。補完的な知識を提供することで、Point-NN はさまざまな 3D タスクにおける元の SOTA パフォーマンスを向上させることができます。

1. はじめに

1. 動機

3D ポイント クラウドの処理と分析は困難な作業であり、学界と産業界の両方で大きな注目を集めています。 PointNet++ 以降、後続の 3D モデルでは、より複雑なローカル空間演算子が設計され、ネットワークの学習可能なパラメータの数が増えてパフォーマンスが向上しました。ただし、継続的に更新される学習可能なモジュールを除けば、基本的にはすべて、最遠点サンプリング (FPS)、k 最近傍 (k-NN)、プーリング操作など、同じ基盤となるマルチスケール ネットワーク フレームワークを使用します。現在、これらのノンパラメトリック コンポーネントの可能性を探る研究はほとんどありません。そのため、この論文では、これらのノンパラメトリック コンポーネントは 3D 理解にどの程度貢献するのかという疑問を提起し、検討します。非パラメトリック コンポーネントのみを使用して、トレーニングなしで 3D ポイント クラウド分析を実現することは可能ですか?

2. 貢献

上記の問題を解決するために、本論文では、初めてノンパラメトリック 3D ネットワーク Point-NN を提案します。全体の構造は上図のようになります。 Point-NN は、3D 特徴抽出用の非パラメトリック エンコーダーと、特定のタスク認識用のポイント クラウド メモリ バンクで構成されています。ノンパラメトリック エンコーダーは、最遠点サンプリング (FPS)、k 最近傍 (k-NN)、三角関数、プーリングを使用して、ローカルの幾何学的図形を徐々に集約し、ポイント クラウドの高次元のグローバル特徴を生成する多段階構造設計を採用しています。学習可能な演算子を使用せずに、単純な三角関数のみを使用してローカル空間ジオメトリ情報を取得します。次に、このエンコーダーを使用して、すべてのトレーニング セット ポイント クラウドの特徴を抽出し、ポイント クラウド メモリとしてキャッシュします。テスト中、ポイント クラウド メモリは、テスト ポイント クラウドとトレーニング セット ポイント クラウドの特徴に対して類似性マッチングを実行することにより、特定のタスクの予測を出力します。

Point-NN は、トレーニングなしでも、3D 分類、セグメンテーション、検出などのさまざまな 3D タスクで優れたパフォーマンスを実現でき、既存の完全にトレーニングされたモデルよりも優れたパフォーマンスを発揮することもできます。これに基づいて、次の図(a)と(b)に示すように、現在の3Dフィールドに対するPoint-NNの2つの寄与をさらに提案しました。

写真

1) Point-NNをベースに、図(a)に示すように、Point-NNの各ステージに単純な線形レイヤーを挿入することで、パラメータ効率の高い変形であるPoint-PNを導入します。 Point-PN には複雑なローカル演算子は含まれておらず、Point-NN から継承された線形レイヤーと三角関数演算子のみが含まれているため、効率とパフォーマンスの両面でメリットが得られます。

2) Point-NNをプラグアンドプレイモジュールとして使用し、さまざまな3Dタスクでトレーニングされたモデルに補完的な知識を提供し、上図(b)に示すように、推論中にこれらのトレーニング済みモデルのパフォーマンスを直接向上させることができます。

2. 方法

1. ポイントNN

Point-NN は、非パラメトリック エンコーダー (EncNP) とポイント メモリ バンク (PoM) で構成されます。入力ポイント クラウドについては、EncNP を使用してグローバル フィーチャを抽出し、PoM の特徴類似性マッチングを通じて分類結果を出力します。式を下の図に示します。

写真

次に、Point-NN のこれら 2 つのモジュールを 1 つずつ紹介します。

(1)ノンパラメトリックエンコーダ

ノンパラメトリック エンコーダーは、まず入力ポイント クラウドに対して Raw-point Embedding を実行し、3D の元のポイント座標を高次元の特徴に変換します。次に、ローカル ジオメトリ集約の 4 段階を通じてローカル特徴を徐々に集約し、最終的なポイント クラウドのグローバル特徴を取得します (下図を参照)。

写真

a. 生のポイント埋め込み

Transformer の位置エンコーディングを参照します。入力ポイント クラウド内のポイントについては、三角関数を使用して次元ベクトルに埋め込みます。

それぞれ 3 つの軸の位置エンコーディングを表します。たとえば、チャネル インデックスの場合、特定の位置エンコード式は次のようになります。

このうち、α と β はそれぞれスケールと波長を制御します。この三角エンコーディングにより、点群の絶対位置情報を高次元の特徴空間にマッピングし、その後のドット乗算操作により、重みに応じて異なる点間の相対位置情報を取得し、3次元形状のきめ細かい構造変化を捉えることができます。

b. ローカルジオメトリ集約

各ポイントクラウドスケールの処理は、3 つのステップに分けられます。

1つ目は機能拡張です。 FPS を使用してポイント クラウドの数をダウンサンプリングします。ダウンサンプリング後に取得された各中心点に対して、k-NN を使用して k 個の隣接点と対応する特徴を見つけます。これに基づいて、中心点の特徴と特徴次元を連結して特徴次元の拡張を実現し、より多くの意味情報をより深いネットワーク層にエンコードできるようにします。

2番目はジオメトリ抽出です。まず平均と標準偏差を使用して座標を正規化し、三角関数を使用して相対位置を計算します。

相対的な幾何重みを取得し、 としてマークします。その後、次の式を通じて重み付けされた近傍特徴を取得します

最後のステップはローカル機能の集約です。ローカル特徴集約を実行するために、最大プーリングと平均プーリングを使用します。

ローカル ジオメトリ集約の 4 つのステージを完了した後、最大プーリングと平均プーリングを再度適用して、ポイント クラウドのグローバル フィーチャを取得します。

(2)ポイントメモリバンク

ノンパラメトリックエンコーダによる特徴抽出後、Point-NN には学習可能なパラメータが含まれていないため、従来の学習可能な分類ヘッドは使用せず、代わりにトレーニングを必要としないポイントメモリバンクを採用しました。まず、ノンパラメトリック エンコーダーを使用してトレーニング セットのバンクを構築し、次に推論中に類似性マッチングを通じて予測を出力します (下の図を参照)。

a. 記憶の構築

ポイントメモリは、特徴メモリとラベルメモリで構成されます。ポイント クラウド分類タスクを例にとると、指定されたトレーニング セットに K カテゴリの N ポイント クラウドが含まれていると仮定します。 N 個のトレーニング セット ポイント クラウドのグローバル機能は、ノンパラメトリック エンコーダーを通じて取得でき、対応する分類ラベルはワンホット エンコーディングに変換され、サンプル次元に沿って連結され、2 つのマトリックスとしてキャッシュされます。

b. 類似性に基づく予測

推論フェーズでは、構築されたバンクを使用して 2 つの行列乗算を実行し、分類を完了します。まず、ノンパラメトリック エンコーダーを使用してテスト ポイント クラウドのグローバル特徴を計算し特徴メモリとのコサイン類似度を計算します。

写真

次に、ラベル メモリ内のワンホット ラベルに重み付けが行われます。特徴メモリの類似度が高いほど、最終的な分類ロジットへの貢献度が大きくなり、逆もまた同様です。

この類似性に基づく計算により、ポイントメモリバンクはトレーニングなしでトレーニングセットから抽出された知識を学習し、推論プロセス中にさまざまなタスクを適応的に完了することができます。

2. Point-NNの他の3Dタスクへの拡張

上記は主に分類タスクにおける Point-NN の応用についての紹介です。Point-NN は 3D コンポーネントのセグメンテーションや 3D オブジェクト検出タスクにも使用できます。

(1)3Dパーツセグメンテーション

全体的な特徴を抽出して分類する分類タスクとは異なり、コンポーネントセグメンテーションでは各ポイントの分類が必要です。そのため、この論文では、非パラメトリック エンコーダに接続された対称非パラメトリック デコーダを使用して、ポイント クラウド機能をアップサンプリングし、入力のポイント数を復元します。具体的には、デコーダーの各段階で、相対位置によって重み付けすることで、ローカル中心点の特徴を周囲の領域点に拡散します。ポイントメモリバンクでは、まずエンコーダーとデコーダーを使用して、トレーニング セット内の各ポイントの特徴を取得します。ビデオ メモリの消費を節約するために、オブジェクトごとに各コンポーネントの特徴を平均化し、特徴メモリとしてバンクに保存します。

(2)3D物体検出

検出タスクでは、3D 検出器の分類ヘッドとして Point-NN を使用します。事前トレーニング済みの検出器が 3D 提案を生成した後、Point-NN は分類タスクと同様に、非パラメトリック エンコーダーを使用して検出されたオブジェクトのグローバル特徴を取得します。ポイントメモリバンクを構築する際には、トレーニング セット内の各 3D ボックス ラベル内のポイント クラウドをサンプリングし、サンプリングされた各オブジェクトのグローバル機能をエンコードして、機能メモリを取得します。特に、元の空間の 3D 位置情報を保持し、より優れた検出パフォーマンスを実現するために、他のタスクのように各オブジェクトのポイント クラウド座標を正規化しません。

3. ポイントNNから開始

(1)建築フレームワークとしてのPoint-PN

私たちは Point-NN を優れたノンパラメトリック フレームワークとみなしており、これに単純な学習可能な線形レイヤーを挿入して、パラメーター化された 3D ネットワークである Point-PN を構築します。既存の 3D ネットワークと比較して、Point-PN には複雑なローカル演算子が含まれず、学習可能なパラメーターがほとんどなく、優れた 3D パフォーマンスを実現します。

写真

Point-PN を構築するために実行した手順は次のとおりです。まず、図 1 (A) に示すように、ポイント メモリ バンクを従来の学習可能な分類ヘッドに置き換えます。ModelNet40 分類タスクでは、この手順により、0.3M のパラメーターのみを使用して、分類パフォーマンスが Point-NN の 81.8% から 90.3% に向上します。次に、生のポイント埋め込みを線形レイヤー (B) に置き換えます。これにより、分類パフォーマンスがさらに 90.8% に向上します。マルチスケールの階層的特徴をより適切に抽出するために、各段階で非パラメトリック エンコーダーに線形レイヤーを挿入します。具体的には、各ステージで、(C、D、E) に示すように、ジオメトリ抽出の前後に 2 つの線形レイヤーが挿入され、高レベルの空間情報が取得されます。このようにして、最終的な Point-PN は、わずか 0.8M のパラメータで 93.8% のパフォーマンスを達成でき、三角関数と単純な線形レイヤーのみが含まれます。これは、既存の高度な演算子や大きなパラメータと比較して、非パラメトリック フレームワークから始めて、シンプルで効率的な 3D モデルを取得できることを示しています。

(2)プラグアンドプレイモジュールとして

Point-NN は、追加のトレーニングなしで、既存の 3D 事前トレーニング済みモデルのパフォーマンスを向上できます。分類タスクを例にとると、Point-NN と事前トレーニング済みモデルによって予測された分類ロジットを直接追加して、補完的な 3D 知識を提供し、パフォーマンスを向上させます。以下の特徴可視化に示すように、Point-NN は主に点群の低レベル、高頻度の特徴を抽出し、飛行機の翼端、椅子の脚、街灯柱などの鋭い 3 次元構造の周囲でより高い応答値を生成します。一方、トレーニングされた PointNet++ は、点群の高レベルの意味情報に重点を置いています。それらのロジットを追加することで、飛行機の胴体、椅子の本体、街灯のシェードなどの補完的な効果を得ることができます。

写真

3. 実験

1. ポイントNNとポイントPN

(1)3D物体分類(形状分類)

写真

2 つの代表的な 3D オブジェクト分類データセットである ModelNet40 と ScanObjectNN では、Point-NN は優れた分類結果を達成し、ScanObjectNN で完全にトレーニングされた 3DmFV モデルよりも優れたパフォーマンスを発揮しました。これは、パラメーターやトレーニングなしで Point-NN の 3D 理解機能を完全に実証します。

Point-PN も両方のデータセットで競争力のある結果を達成しました。 ScanObjectNN の場合、Point-PN は 12.6M の PointMLP と比較して、パラメータが 16 倍少なく、推論速度が 6 倍速く、精度が 1.9% 高くなります。 ModelNet40 データセットでは、Point-PN は CurveNet と同等の結果を達成しましたが、パラメータは 2.5 倍少なく、推論速度は 6 倍高速でした。

(2)少数ショット3D分類

既存の完全にトレーニングされた 3D モデルと比較すると、Point-NN の少数ショットのパフォーマンスは、2 番目に優れた方法を大幅に上回ります。これは、学習可能なパラメータを持つ従来のネットワークでは、トレーニング サンプルが限られているために深刻な過剰適合の問題が発生するためです。

(3)3Dパーツセグメンテーション

mIoU が 70.4% であることは、Point-NN がセグメンテーション タスクで優れたパフォーマンスのポイント レベルの特徴を生成し、きめ細かい 3D 空間理解を実現できることを示しています。

Poinnt-PN は 86.6% の mIoU を達成できます。 Curvenet と比較すると、Point-PN はトレーニング時間を 28 時間節約でき、推論速度は 6 倍高速です。

(4)3D物体検出

Point-NN を検出器の分類ヘッドとして使用し、2 つの一般的な 3D 検出器である VoteNet と 3DETR-m を採用して、カテゴリに依存しない 3D 領域提案を抽出します。ポイント クラウド座標を正規化しない (w/o nor.) ため、元のシーン内のオブジェクトの 3D 位置に関するより多くの情報を保持でき、Point-NN の AP スコアが大幅に向上します。

2. Point-NNのプラグアンドプレイ

(1)3D物体分類(形状分類)

Point-NN は、既存の方法の分類パフォーマンスを効果的に向上させることができます。ScanObjectNN データセットでは、Point-NN は PointNet と PoitMLP の両方の分類精度を 2% 向上させることができます。

(2)3Dセグメンテーションと検出

セグメンテーションタスクの場合、ShapeNetPart データセットの評価指標はすでに飽和しているため、CurveNet に対する Point-NN の 0.1% の改善はすでに非常に良好な効果です。検出タスクでは、Point-NN は 3DETR-m で 1.02% と 11.05% の良好な向上を達成しました。

議論

1. Point-NN の三角関数が 3D 情報をエンコードできるのはなぜですか?

(1)高周波3D構造情報の取得

下の図の Point-NN 特徴の視覚化と、分解したポイント クラウドの低周波情報と高周波情報を通じて、Point-NN は主にエッジ、コーナー、その他の細かい詳細など、ポイント クラウドの高周波空間特徴をキャプチャしていることがわかります。

写真

(2)コードポイント間の相対位置情報

三角関数自体は、点群の絶対位置情報を提供できます。 2 つの点とについて、まず C 次元の位置エンコーディングを取得します。式は次のようになります。

それらの相対的な位置関係は、それらの間のドット積によって得られます。式は次のとおりです。

x軸を例にとると、

写真

この式は、x 軸上の 2 つの点の相対的な位置を表します。したがって、三角関数は点群間の絶対および相対位置情報を取得できるため、Point-NN による局所的な点群の構造的理解に役立ちます。

2. Point-NN はプラグアンドプレイ方式で Point-PN のパフォーマンスを向上できますか?

写真


上の表に示すように、Point-NN の Point-PN に対する改善は極めて限られています。上の図の視覚化結果から、Point-NN と Point-PN 間の補完性は、Point-NN と PointNet++ 間の補完性よりも弱いことがわかります。これは、Point-PN の基本構造が Point-NN から継承されているため、三角関数を通じて 3D 高周波情報を取得し、Point-PN と同様の特徴キャプチャ機能を備えているためです。

3. トレーニングを必要としない他の3Dモデルとの比較

写真

既存の 3D モデルの中には、PointCLIP シリーズなどの CLIP 事前トレーニング済みモデルに基づく転移学習方式があり、これも 3D 分野でのトレーニングを必要としません。上記の表の比較から、Point-NN はトレーニングなしで優れた分類性能を達成できることがわかります。

4. Point-NNとPnP-3Dの増強効果の比較

PnP-3D は、3D モデル用のプラグアンドプレイの学習可能な拡張モジュールを提案していますが、追加の学習可能なパラメータが導入され、再トレーニングが必要となり、より多くのコンピューティング リソースを消費します。上記の表に示すように、比較すると、Point-NN は追加のパラメーターやトレーニングなしで、同様の強化されたパフォーマンスを実現できます。

V. 要約と展望

本論文では、3D 分野で初めてパラメータフリーかつトレーニングフリーのネットワークである Point-NN を提案し、さまざまな 3D タスクで優れたパフォーマンスを実現します。この研究が、単に複雑な 3D 演算子を追加したり、多数のネットワーク パラメータを積み重ねるのではなく、ノンパラメトリック 3D 研究に焦点を当てた研究を促進するきっかけとなることを願っています。今後の研究では、より高度なノンパラメトリック 3D モデルを調査し、それをより幅広い 3D アプリケーション シナリオに拡張する予定です。

<<:  5つの異なるタイプの人工知能

>>:  より強力なLlama 2はオープンソースであり、商用目的で直接使用できます。一夜にして、ビッグモデルの風景は変わりました。

ブログ    
ブログ    

推薦する

...

...

アルゴリズムはあなたが次に何をするかを知っている

[[113040]]コンピューターがまだ十分に機能していない分野がいくつかあります。たとえば、顔認識...

...

機械学習トレーニングマニュアル: 頑固なブロンズから最強の王へ

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

大きなモデルに「深呼吸して一歩ずつ進んでください」と指示すると、驚くほど効果があります。DeepMindは、モデルに指示を与える最も効果的な方法を見つけました。

最適化はあらゆる分野で重要です。一部の最適化は初期化から始まり、その後ソリューションを繰り返し更新し...

医療ロボットが登場し、医療分野は大きな変化を迎える

近年、人工知能の発展、技術の飛躍的進歩、その応用分野の漸進的な拡大に伴い、人々の生活と福祉の重要な一...

...

例 | CNN と Python を使用した肺炎検出

導入こんにちは!数時間前にディープラーニング プロジェクトを終えたので、その成果を共有したいと思いま...

AIとビッグデータに焦点を当て、インテルとToutiaoが技術革新研究所を設立

[原文は51CTO.comより] 8月22日、インテルとToutiaoの共同戦略協力記者会見と「デー...

Open LLM リストが再び更新されました。Llama 2 よりも強力な「Duckbill Puss」が登場します。

OpenAI の GPT-3.5 や GPT-4 などのクローズドソース モデルの優位性に挑戦する...

...

...

MIUI 10の最後の開発バージョンが間もなくリリースされます。MIUI 11も間もなく登場します。

8月22日、MIUIは、より良い最適化効果を実現し、Miファンに優れたシステム体験をもたらすために...

主流のブロックチェーンコンセンサスアルゴリズムの包括的なガイド

あらゆる優れた暗号通貨の背後には、優れたコンセンサス アルゴリズムが存在します。完璧なコンセンサス ...