Point Transformer V3: よりシンプルに、より速く、より強力に!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

元のタイトル: Point Transformer V3: よりシンプルに、より速く、より強く

論文リンク: https://arxiv.org/pdf/2312.10035.pdf

コードリンク: https://github.com/Pointcept/PointTransformerV3

著者ユニット: HKU SH AI Lab MPI PKU MIT

論文のアイデア:

この論文は、注意メカニズム内での革新を追求することを意図するものではありません。代わりに、スケールの力を活用して、ポイントクラウド処理のコンテキストにおける精度と効率の間の既存のトレードオフを克服することに重点を置いています。この論文では、3D 大規模表現学習の最近の進歩からインスピレーションを得て、モデルのパフォーマンスは設計の複雑さよりも規模の影響を受けやすいことを認識しています。そのため、本論文では、KNN の正確な近傍検索を特定のパターンに編成されたポイントクラウドの効率的なシリアル化された近傍マッピングに置き換えるなど、スケーリング後の全体的なパフォーマンスへの影響が少ない特定のメカニズムよりも、精度よりもシンプルさと効率を優先する Point Transformer V3 (PTv3) を提案します。この原理により、大幅なスケーリングが可能になり、受容野が 16 ポイントから 1024 ポイントに拡張され、高い効率性を維持します (前身の PTv2 に比べて処理速度が 3 倍、メモリ効率が 10 倍)。 PTv3 は、屋内と屋外の両方のシーンをカバーする 20 を超えるダウンストリームタスクで最先端の結果を達成します。 PTv3 は、マルチデータセットの共同トレーニングによるさらなる機能強化を通じて、これらの結果を次のレベルに押し上げます。

ネットワーク設計:

3D表現学習における最近の進歩[85]は、複数の3Dデータセットにわたる共同トレーニング手法を導入することで、点群処理におけるデータサイズの制限を克服する進歩を遂げました。この戦略と組み合わせることで、効率的な畳み込みバックボーン[12]は、ポイントクラウドトランスフォーマー[38、84]に一般的に関連付けられている精度のギャップを効果的に埋めます。ただし、ポイントクラウドトランスフォーマー自体は、スパース畳み込みと比較した効率のギャップのため、このスケールの利点をまだ十分に享受できていません。この発見が、スケーリング原理の観点からポイント変圧器の設計上の選択を再評価するという、この研究の当初の動機を形作りました。この論文では、モデルのパフォーマンスは複雑な設計よりも規模によって大きく左右されると主張しています。

したがって、本稿では、スケーラビリティを実現するために、いくつかのメカニズムの精度よりもシンプルさと効率性を優先する Point Transformer V3 (PTv3) を紹介します。このような調整は、スケーリング後の全体的なパフォーマンスにほとんど影響を与えません。具体的には、PTv3 は優れた効率性とスケーラビリティを実現するために、次の調整を行いました。

PTv3は、最近の2つの進歩[48、77]に触発され、構造化ポイントクラウドから非構造化ポイントクラウドへのスケーラビリティの利点を認識し、K近傍法（KNN）クエリによって定義される従来の空間近接性を変換します。これは、転送時間の28%を占めます。代わりに、特定のパターンに従って編成されたポイントクラウド内のシリアル化された近隣の可能性を探ります。
PTv3 は、シフトウィンドウ (アテンションオペレーターの融合を妨げる) や近傍メカニズム (メモリ消費量の増加につながる) などのより複雑なアテンションパッチ相互作用メカニズムを、シリアル化されたポイントクラウド向けに調整された簡素化されたアプローチに置き換えます。
PTv3 では、転送時間の 26% を占める相対位置エンコーディングへの依存がなくなり、よりシンプルなフロントエンドのスパース畳み込み層が採用されています。

私たちは、これらの設計は、スケーリングの原理と既存のポイントクラウドトランスフォーマーの進歩によってもたらされた直感的な選択であると主張します。重要なのは、この記事では、詳細なモジュール設計ではなく、スケーラビリティがバックボーン設計にどのように影響するかを理解することの重要性を強調していることです。

この原理により、スケーラビリティが大幅に向上し、精度と効率の間の従来のトレードオフが克服されます (図 1 を参照)。 PTv3 は、前世代に比べて推論速度が 3.3 倍高速化し、メモリ使用量が 10.2 倍削減されます。さらに重要なのは、PTv3 が認識範囲を拡大する固有の能力を活用して、効率性を維持しながら受容フィールドを 16 ポイントから 1024 ポイントに拡張することです。このスケーラビリティは、現実世界の認識タスクにおける優れたパフォーマンスをサポートし、PTv3 は屋内と屋外の両方のシーンで 20 を超えるダウンストリームタスクで最先端の結果を達成します。 PTv3は、マルチデータセットトレーニングを通じてデータサイズをさらに拡大することで、これらの結果をさらに改善します[85]。この記事から得た洞察が、この方向への将来の研究に刺激を与えることを願っています。

図 1. Point Transformer V3 (PTv3) の概要。前身のPTv2[84]と比較すると、当社のPTv3は以下の点で優れています。1. パフォーマンスの向上。 PTv3 は、屋内および屋外のさまざまな 3D 認識タスクで最先端の結果を達成します。 2. 受容野が広くなる。シンプルさと効率性を活かして、PTv3 は受信フィールドを 16 ポイントから 1024 ポイントに拡張します。 3. 速度が速くなります。 PTv3 は処理速度を大幅に向上させ、遅延の影響を受けやすいアプリケーションに適しています。 4. メモリ消費量を削減します。 PTv3 はメモリ使用量を削減し、より幅広い状況でのアクセシビリティを向上させます。

図 2. PTv2 コンポーネントの遅延ツリー図。この論文では、PTv2 の各コンポーネントの転送時間比をベンチマークし、視覚化します。 KNN クエリと RPE を合わせると、転送時間の 54% を占めます。

図 3. ポイントクラウドのシリアル化。この記事では、トリプル視覚化を通じて 4 つのシリアル化パターンを示します。各トリプレットについて、シリアル化に使用される空間充填曲線 (左)、空間充填曲線内のポイントクラウドシリアル化変数の順序 (中央)、およびローカルアテンション用のシリアル化されたポイントクラウドのグループ化されたパッチ (右) が表示されます。 4 つのシリアル化モードの変換により、注意メカニズムはさまざまな空間関係とコンテキストをキャプチャできるようになり、モデルの精度と一般化能力が向上します。

図 4. パッチのグループ化。 (a) 特定のシリアル化スキーマから導出された順序に従ってポイントクラウドを並べ替えます。 (b) 指定されたパッチサイズで割り切れるように、隣接するパッチからポイントを借用してポイントクラウドシーケンスを埋めます。

図5. パッチの相互作用。 (a) 標準パッチグループ化 (規則的でシフトされていない配置)、(b) Shift-Dilation (ポイントが一定の間隔でクラスター化され、膨張効果を生み出す)、(c) Shift Patch (シフトウィンドウメソッドに似たシフトメカニズムを使用する)、(d) Shift Order (異なるシリアル化パターンが連続する注意層に周期的に割り当てられる)、(d) Shuffle Order (シリアル化パターンのシーケンスが注意層に入力される前にランダム化される)。

図 6. 全体的なアーキテクチャ。

実験結果:

要約:

この論文では、ポイントクラウド処理における精度と効率の間の従来のトレードオフを克服するための大きな一歩を踏み出す Point Transformer V3 を紹介します。バックボーン設計におけるスケーリング原則の新しい解釈に基づいて、モデルのパフォーマンスは設計の複雑さよりも規模によって大きく影響を受けると主張します。この論文では、影響の少ないメカニズムの精度よりも効率を優先することで、規模の経済性を活用し、パフォーマンスを向上させます。つまり、モデルをよりシンプルかつ高速にすることで、この論文ではモデルをより強力にすることができます。