0パラメータ+0トレーニング、3D点群解析手法Point-NNは複数のSOTAを更新します

論文リンク: https://arxiv.org/pdf/2303.08134.pdf
コードアドレス: https://github.com/ZrrSkywalker/Point-NN

この論文では、3D ポイントクラウド分析用の非パラメトリックネットワーク Point-NN を提案します。これは、最遠点サンプリング (FPS)、k 近傍法 (k-NN)、三角関数、およびプーリング操作という、完全に学習不可能なコンポーネントのみで構成されています。パラメータやトレーニングを必要とせず、さまざまな 3D タスクで優れた精度を達成でき、少数ショット分類では既存の完全にトレーニングされたモデルを大幅に上回ることさえできます。

この研究は、Point-NN のノンパラメトリックフレームワークに基づいて、現在の 3D 分野に次のように貢献します。

1. まず、単純な線形層を挿入することで、Point-NN、Point-PN のパラメータ化されたネットワークを構築できます。 Point-NN は強力なノンパラメトリック基盤を備えているため、構築された Point-PN では、優れた 3D 分類およびセグメンテーションパフォーマンスを示すために、少数の学習可能なパラメーターのみが必要です。

2. 次に、Point-NN はトレーニングを必要としないため、プラグアンドプレイの拡張モジュールとして使用して、既存のトレーニング済み 3D モデルを拡張できます。補完的な知識を提供することで、Point-NN はさまざまな 3D タスクにおける元の SOTA パフォーマンスを向上させることができます。

1. はじめに

1. 動機

3D ポイントクラウドの処理と分析は困難な作業であり、学界と産業界の両方で大きな注目を集めています。 PointNet++ 以降、後続の 3D モデルでは、より複雑なローカル空間演算子が設計され、ネットワークの学習可能なパラメータの数が増えてパフォーマンスが向上しました。ただし、継続的に更新される学習可能なモジュールを除けば、基本的にはすべて、最遠点サンプリング (FPS)、k 最近傍 (k-NN)、プーリング操作など、同じ基盤となるマルチスケールネットワークフレームワークを使用します。現在、これらのノンパラメトリックコンポーネントの可能性を探る研究はほとんどありません。そのため、この論文では、これらのノンパラメトリックコンポーネントは 3D 理解にどの程度貢献するのかという疑問を提起し、検討します。非パラメトリックコンポーネントのみを使用して、トレーニングなしで 3D ポイントクラウド分析を実現することは可能ですか?

2. 貢献

上記の問題を解決するために、本論文では、初めてノンパラメトリック 3D ネットワーク Point-NN を提案します。全体の構造は上図のようになります。 Point-NN は、3D 特徴抽出用の非パラメトリックエンコーダーと、特定のタスク認識用のポイントクラウドメモリバンクで構成されています。ノンパラメトリックエンコーダーは、最遠点サンプリング (FPS)、k 最近傍 (k-NN)、三角関数、プーリングを使用して、ローカルの幾何学的図形を徐々に集約し、ポイントクラウドの高次元のグローバル特徴を生成する多段階構造設計を採用しています。学習可能な演算子を使用せずに、単純な三角関数のみを使用してローカル空間ジオメトリ情報を取得します。次に、このエンコーダーを使用して、すべてのトレーニングセットポイントクラウドの特徴を抽出し、ポイントクラウドメモリとしてキャッシュします。テスト中、ポイントクラウドメモリは、テストポイントクラウドとトレーニングセットポイントクラウドの特徴に対して類似性マッチングを実行することにより、特定のタスクの予測を出力します。

Point-NN は、トレーニングなしでも、3D 分類、セグメンテーション、検出などのさまざまな 3D タスクで優れたパフォーマンスを実現でき、既存の完全にトレーニングされたモデルよりも優れたパフォーマンスを発揮することもできます。これに基づいて、次の図(a)と(b)に示すように、現在の3Dフィールドに対するPoint-NNの2つの寄与をさらに提案しました。

写真

1) Point-NNをベースに、図(a)に示すように、Point-NNの各ステージに単純な線形レイヤーを挿入することで、パラメータ効率の高い変形であるPoint-PNを導入します。 Point-PN には複雑なローカル演算子は含まれておらず、Point-NN から継承された線形レイヤーと三角関数演算子のみが含まれているため、効率とパフォーマンスの両面でメリットが得られます。

2) Point-NNをプラグアンドプレイモジュールとして使用し、さまざまな3Dタスクでトレーニングされたモデルに補完的な知識を提供し、上図(b)に示すように、推論中にこれらのトレーニング済みモデルのパフォーマンスを直接向上させることができます。

2. 方法

1. ポイントNN

Point-NN は、非パラメトリックエンコーダー (EncNP) とポイントメモリバンク (PoM) で構成されます。入力ポイントクラウドについては、EncNP を使用してグローバルフィーチャを抽出し、PoM の特徴類似性マッチングを通じて分類結果を出力します。式を下の図に示します。

写真

次に、Point-NN のこれら 2 つのモジュールを 1 つずつ紹介します。

（１）ノンパラメトリックエンコーダ

ノンパラメトリックエンコーダーは、まず入力ポイントクラウドに対して Raw-point Embedding を実行し、3D の元のポイント座標を高次元の特徴に変換します。次に、ローカルジオメトリ集約の 4 段階を通じてローカル特徴を徐々に集約し、最終的なポイントクラウドのグローバル特徴を取得します (下図を参照)。

写真

a. 生のポイント埋め込み

Transformer の位置エンコーディングを参照します。入力ポイントクラウド内のポイントについては、三角関数を使用して次元ベクトルに埋め込みます。

それぞれ 3 つの軸の位置エンコーディングを表します。たとえば、チャネルインデックスの場合、特定の位置エンコード式は次のようになります。

このうち、α と β はそれぞれスケールと波長を制御します。この三角エンコーディングにより、点群の絶対位置情報を高次元の特徴空間にマッピングし、その後のドット乗算操作により、重みに応じて異なる点間の相対位置情報を取得し、3次元形状のきめ細かい構造変化を捉えることができます。

b. ローカルジオメトリ集約

各ポイントクラウドスケールの処理は、3 つのステップに分けられます。

1つ目は機能拡張です。 FPS を使用してポイントクラウドの数をダウンサンプリングします。ダウンサンプリング後に取得された各中心点に対して、k-NN を使用して k 個の隣接点と対応する特徴を見つけます。これに基づいて、中心点の特徴と特徴次元を連結して特徴次元の拡張を実現し、より多くの意味情報をより深いネットワーク層にエンコードできるようにします。

2番目はジオメトリ抽出です。まず平均と標準偏差を使用して座標を正規化し、三角関数を使用して相対位置を計算します。

、相対的な幾何重みを取得し、としてマークします。その後、次の式を通じて重み付けされた近傍特徴を取得します。

最後のステップはローカル機能の集約です。ローカル特徴集約を実行するために、最大プーリングと平均プーリングを使用します。

ローカルジオメトリ集約の 4 つのステージを完了した後、最大プーリングと平均プーリングを再度適用して、ポイントクラウドのグローバルフィーチャを取得します。

（２）ポイントメモリバンク

ノンパラメトリックエンコーダによる特徴抽出後、Point-NN には学習可能なパラメータが含まれていないため、従来の学習可能な分類ヘッドは使用せず、代わりにトレーニングを必要としないポイントメモリバンクを採用しました。まず、ノンパラメトリックエンコーダーを使用してトレーニングセットのバンクを構築し、次に推論中に類似性マッチングを通じて予測を出力します (下の図を参照)。

a. 記憶の構築

ポイントメモリは、特徴メモリとラベルメモリで構成されます。ポイントクラウド分類タスクを例にとると、指定されたトレーニングセットに K カテゴリの N ポイントクラウドが含まれていると仮定します。 N 個のトレーニングセットポイントクラウドのグローバル機能は、ノンパラメトリックエンコーダーを通じて取得でき、対応する分類ラベルはワンホットエンコーディングに変換され、サンプル次元に沿って連結され、2 つのマトリックスとしてキャッシュされます。

b. 類似性に基づく予測

推論フェーズでは、構築されたバンクを使用して 2 つの行列乗算を実行し、分類を完了します。まず、ノンパラメトリックエンコーダーを使用してテストポイントクラウドのグローバル特徴を計算し、特徴メモリとのコサイン類似度を計算します。

写真

次に、ラベルメモリ内のワンホットラベルに重み付けが行われます。特徴メモリの類似度が高いほど、最終的な分類ロジットへの貢献度が大きくなり、逆もまた同様です。

この類似性に基づく計算により、ポイントメモリバンクはトレーニングなしでトレーニングセットから抽出された知識を学習し、推論プロセス中にさまざまなタスクを適応的に完了することができます。

2. Point-NNの他の3Dタスクへの拡張

上記は主に分類タスクにおける Point-NN の応用についての紹介です。Point-NN は 3D コンポーネントのセグメンテーションや 3D オブジェクト検出タスクにも使用できます。

（１）3Dパーツセグメンテーション

全体的な特徴を抽出して分類する分類タスクとは異なり、コンポーネントセグメンテーションでは各ポイントの分類が必要です。そのため、この論文では、非パラメトリックエンコーダに接続された対称非パラメトリックデコーダを使用して、ポイントクラウド機能をアップサンプリングし、入力のポイント数を復元します。具体的には、デコーダーの各段階で、相対位置によって重み付けすることで、ローカル中心点の特徴を周囲の領域点に拡散します。ポイントメモリバンクでは、まずエンコーダーとデコーダーを使用して、トレーニングセット内の各ポイントの特徴を取得します。ビデオメモリの消費を節約するために、オブジェクトごとに各コンポーネントの特徴を平均化し、特徴メモリとしてバンクに保存します。

（２）3D物体検出

検出タスクでは、3D 検出器の分類ヘッドとして Point-NN を使用します。事前トレーニング済みの検出器が 3D 提案を生成した後、Point-NN は分類タスクと同様に、非パラメトリックエンコーダーを使用して検出されたオブジェクトのグローバル特徴を取得します。ポイントメモリバンクを構築する際には、トレーニングセット内の各 3D ボックスラベル内のポイントクラウドをサンプリングし、サンプリングされた各オブジェクトのグローバル機能をエンコードして、機能メモリを取得します。特に、元の空間の 3D 位置情報を保持し、より優れた検出パフォーマンスを実現するために、他のタスクのように各オブジェクトのポイントクラウド座標を正規化しません。

3. ポイントNNから開始

（１）建築フレームワークとしてのPoint-PN

私たちは Point-NN を優れたノンパラメトリックフレームワークとみなしており、これに単純な学習可能な線形レイヤーを挿入して、パラメーター化された 3D ネットワークである Point-PN を構築します。既存の 3D ネットワークと比較して、Point-PN には複雑なローカル演算子が含まれず、学習可能なパラメーターがほとんどなく、優れた 3D パフォーマンスを実現します。

写真

Point-PN を構築するために実行した手順は次のとおりです。まず、図 1 (A) に示すように、ポイントメモリバンクを従来の学習可能な分類ヘッドに置き換えます。ModelNet40 分類タスクでは、この手順により、0.3M のパラメーターのみを使用して、分類パフォーマンスが Point-NN の 81.8% から 90.3% に向上します。次に、生のポイント埋め込みを線形レイヤー (B) に置き換えます。これにより、分類パフォーマンスがさらに 90.8% に向上します。マルチスケールの階層的特徴をより適切に抽出するために、各段階で非パラメトリックエンコーダーに線形レイヤーを挿入します。具体的には、各ステージで、(C、D、E) に示すように、ジオメトリ抽出の前後に 2 つの線形レイヤーが挿入され、高レベルの空間情報が取得されます。このようにして、最終的な Point-PN は、わずか 0.8M のパラメータで 93.8% のパフォーマンスを達成でき、三角関数と単純な線形レイヤーのみが含まれます。これは、既存の高度な演算子や大きなパラメータと比較して、非パラメトリックフレームワークから始めて、シンプルで効率的な 3D モデルを取得できることを示しています。

（２）プラグアンドプレイモジュールとして

Point-NN は、追加のトレーニングなしで、既存の 3D 事前トレーニング済みモデルのパフォーマンスを向上できます。分類タスクを例にとると、Point-NN と事前トレーニング済みモデルによって予測された分類ロジットを直接追加して、補完的な 3D 知識を提供し、パフォーマンスを向上させます。以下の特徴可視化に示すように、Point-NN は主に点群の低レベル、高頻度の特徴を抽出し、飛行機の翼端、椅子の脚、街灯柱などの鋭い 3 次元構造の周囲でより高い応答値を生成します。一方、トレーニングされた PointNet++ は、点群の高レベルの意味情報に重点を置いています。それらのロジットを追加することで、飛行機の胴体、椅子の本体、街灯のシェードなどの補完的な効果を得ることができます。

写真

3. 実験

1. ポイントNNとポイントPN

（１）３Ｄ物体分類（形状分類）

写真

2 つの代表的な 3D オブジェクト分類データセットである ModelNet40 と ScanObjectNN では、Point-NN は優れた分類結果を達成し、ScanObjectNN で完全にトレーニングされた 3DmFV モデルよりも優れたパフォーマンスを発揮しました。これは、パラメーターやトレーニングなしで Point-NN の 3D 理解機能を完全に実証します。

Point-PN も両方のデータセットで競争力のある結果を達成しました。 ScanObjectNN の場合、Point-PN は 12.6M の PointMLP と比較して、パラメータが 16 倍少なく、推論速度が 6 倍速く、精度が 1.9% 高くなります。 ModelNet40 データセットでは、Point-PN は CurveNet と同等の結果を達成しましたが、パラメータは 2.5 倍少なく、推論速度は 6 倍高速でした。

（２）少数ショット３D分類

既存の完全にトレーニングされた 3D モデルと比較すると、Point-NN の少数ショットのパフォーマンスは、2 番目に優れた方法を大幅に上回ります。これは、学習可能なパラメータを持つ従来のネットワークでは、トレーニングサンプルが限られているために深刻な過剰適合の問題が発生するためです。

（３）３Dパーツセグメンテーション

mIoU が 70.4% であることは、Point-NN がセグメンテーションタスクで優れたパフォーマンスのポイントレベルの特徴を生成し、きめ細かい 3D 空間理解を実現できることを示しています。

Poinnt-PN は 86.6% の mIoU を達成できます。 Curvenet と比較すると、Point-PN はトレーニング時間を 28 時間節約でき、推論速度は 6 倍高速です。

（4）3D物体検出

Point-NN を検出器の分類ヘッドとして使用し、2 つの一般的な 3D 検出器である VoteNet と 3DETR-m を採用して、カテゴリに依存しない 3D 領域提案を抽出します。ポイントクラウド座標を正規化しない (w/o nor.) ため、元のシーン内のオブジェクトの 3D 位置に関するより多くの情報を保持でき、Point-NN の AP スコアが大幅に向上します。

2. Point-NNのプラグアンドプレイ

（１）３Ｄ物体分類（形状分類）

Point-NN は、既存の方法の分類パフォーマンスを効果的に向上させることができます。ScanObjectNN データセットでは、Point-NN は PointNet と PoitMLP の両方の分類精度を 2% 向上させることができます。

（２）３Dセグメンテーションと検出

セグメンテーションタスクの場合、ShapeNetPart データセットの評価指標はすでに飽和しているため、CurveNet に対する Point-NN の 0.1% の改善はすでに非常に良好な効果です。検出タスクでは、Point-NN は 3DETR-m で 1.02% と 11.05% の良好な向上を達成しました。

議論

1. Point-NN の三角関数が 3D 情報をエンコードできるのはなぜですか?

（１）高周波３Ｄ構造情報の取得

下の図の Point-NN 特徴の視覚化と、分解したポイントクラウドの低周波情報と高周波情報を通じて、Point-NN は主にエッジ、コーナー、その他の細かい詳細など、ポイントクラウドの高周波空間特徴をキャプチャしていることがわかります。

写真

（２）コードポイント間の相対位置情報

三角関数自体は、点群の絶対位置情報を提供できます。 2 つの点とについて、まず C 次元の位置エンコーディングを取得します。式は次のようになります。

それらの相対的な位置関係は、それらの間のドット積によって得られます。式は次のとおりです。

x軸を例にとると、

写真

この式は、x 軸上の 2 つの点の相対的な位置を表します。したがって、三角関数は点群間の絶対および相対位置情報を取得できるため、Point-NN による局所的な点群の構造的理解に役立ちます。

2. Point-NN はプラグアンドプレイ方式で Point-PN のパフォーマンスを向上できますか?

写真

上の表に示すように、Point-NN の Point-PN に対する改善は極めて限られています。上の図の視覚化結果から、Point-NN と Point-PN 間の補完性は、Point-NN と PointNet++ 間の補完性よりも弱いことがわかります。これは、Point-PN の基本構造が Point-NN から継承されているため、三角関数を通じて 3D 高周波情報を取得し、Point-PN と同様の特徴キャプチャ機能を備えているためです。

3. トレーニングを必要としない他の3Dモデルとの比較

写真

既存の 3D モデルの中には、PointCLIP シリーズなどの CLIP 事前トレーニング済みモデルに基づく転移学習方式があり、これも 3D 分野でのトレーニングを必要としません。上記の表の比較から、Point-NN はトレーニングなしで優れた分類性能を達成できることがわかります。

4. Point-NNとPnP-3Dの増強効果の比較

PnP-3D は、3D モデル用のプラグアンドプレイの学習可能な拡張モジュールを提案していますが、追加の学習可能なパラメータが導入され、再トレーニングが必要となり、より多くのコンピューティングリソースを消費します。上記の表に示すように、比較すると、Point-NN は追加のパラメーターやトレーニングなしで、同様の強化されたパフォーマンスを実現できます。

V. 要約と展望

本論文では、3D 分野で初めてパラメータフリーかつトレーニングフリーのネットワークである Point-NN を提案し、さまざまな 3D タスクで優れたパフォーマンスを実現します。この研究が、単に複雑な 3D 演算子を追加したり、多数のネットワークパラメータを積み重ねるのではなく、ノンパラメトリック 3D 研究に焦点を当てた研究を促進するきっかけとなることを願っています。今後の研究では、より高度なノンパラメトリック 3D モデルを調査し、それをより幅広い 3D アプリケーションシナリオに拡張する予定です。

<<: 5つの異なるタイプの人工知能

>>: より強力なLlama 2はオープンソースであり、商用目的で直接使用できます。一夜にして、ビッグモデルの風景は変わりました。