Point Transformer V3: よりシンプルに、より速く、より強力に!

Point Transformer V3: よりシンプルに、より速く、より強力に!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

元のタイトル: Point Transformer V3: よりシンプルに、より速く、より強く

論文リンク: https://arxiv.org/pdf/2312.10035.pdf

コードリンク: https://github.com/Pointcept/PointTransformerV3

著者ユニット: HKU SH AI Lab MPI PKU MIT

論文のアイデア:

この論文は、注意メカニズム内での革新を追求することを意図するものではありません。代わりに、スケールの力を活用して、ポイント クラウド処理のコンテキストにおける精度と効率の間の既存のトレードオフを克服することに重点を置いています。この論文では、3D 大規模表現学習の最近の進歩からインスピレーションを得て、モデルのパフォーマンスは設計の複雑さよりも規模の影響を受けやすいことを認識しています。そのため、本論文では、KNN の正確な近傍検索を特定のパターンに編成されたポイント クラウドの効率的なシリアル化された近傍マッピングに置き換えるなど、スケーリング後の全体的なパフォーマンスへの影響が少ない特定のメカニズムよりも、精度よりもシンプルさと効率を優先する Point Transformer V3 (PTv3) を提案します。この原理により、大幅なスケーリングが可能になり、受容野が 16 ポイントから 1024 ポイントに拡張され、高い効率性を維持します (前身の PTv2 に比べて処理速度が 3 倍、メモリ効率が 10 倍)。 PTv3 は、屋内と屋外の両方のシーンをカバーする 20 を超えるダウンストリーム タスクで最先端の結果を達成します。 PTv3 は、マルチデータセットの共同トレーニングによるさらなる機能強化を通じて、これらの結果を次のレベルに押し上げます。

ネットワーク設計:

3D表現学習における最近の進歩[85]は、複数の3Dデータセットにわたる共同トレーニング手法を導入することで、点群処理におけるデータサイズの制限を克服する進歩を遂げました。この戦略と組み合わせることで、効率的な畳み込みバックボーン[12]は、ポイントクラウドトランスフォーマー[38、84]に一般的に関連付けられている精度のギャップを効果的に埋めます。ただし、ポイント クラウド トランスフォーマー自体は、スパース畳み込みと比較した効率のギャップのため、このスケールの利点をまだ十分に享受できていません。この発見が、スケーリング原理の観点からポイント変圧器の設計上の選択を再評価するという、この研究の当初の動機を形作りました。この論文では、モデルのパフォーマンスは複雑な設計よりも規模によって大きく左右されると主張しています。

したがって、本稿では、スケーラビリティを実現するために、いくつかのメカニズムの精度よりもシンプルさと効率性を優先する Point Transformer V3 (PTv3) を紹介します。このような調整は、スケーリング後の全体的なパフォーマンスにほとんど影響を与えません。具体的には、PTv3 は優れた効率性とスケーラビリティを実現するために、次の調整を行いました。

  • PTv3は、最近の2つの進歩[48、77]に触発され、構造化ポイントクラウドから非構造化ポイントクラウドへのスケーラビリティの利点を認識し、K近傍法(KNN)クエリによって定義される従来の空間近接性を変換します。これは、転送時間の28%を占めます。代わりに、特定のパターンに従って編成されたポイント クラウド内のシリアル化された近隣の可能性を探ります。
  • PTv3 は、シフト ウィンドウ (アテンション オペレーターの融合を妨げる) や近傍メカニズム (メモリ消費量の増加につながる) などのより複雑なアテンション パッチ相互作用メカニズムを、シリアル化されたポイント クラウド向けに調整された簡素化されたアプローチに置き換えます。
  • PTv3 では、転送時間の 26% を占める相対位置エンコーディングへの依存がなくなり、よりシンプルなフロントエンドのスパース畳み込み層が採用されています。

私たちは、これらの設計は、スケーリングの原理と既存のポイント クラウド トランスフォーマーの進歩によってもたらされた直感的な選択であると主張します。重要なのは、この記事では、詳細なモジュール設計ではなく、スケーラビリティがバックボーン設計にどのように影響するかを理解することの重要性を強調していることです。

この原理により、スケーラビリティが大幅に向上し、精度と効率の間の従来のトレードオフが克服されます (図 1 を参照)。 PTv3 は、前世代に比べて推論速度が 3.3 倍高速化し、メモリ使用量が 10.2 倍削減されます。さらに重要なのは、PTv3 が認識範囲を拡大する固有の能力を活用して、効率性を維持しながら受容フィールドを 16 ポイントから 1024 ポイントに拡張することです。このスケーラビリティは、現実世界の認識タスクにおける優れたパフォーマンスをサポートし、PTv3 は屋内と屋外の両方のシーンで 20 を超えるダウンストリーム タスクで最先端の結果を達成します。 PTv3は、マルチデータセットトレーニングを通じてデータサイズをさらに拡大することで、これらの結果をさらに改善します[85]。この記事から得た洞察が、この方向への将来の研究に刺激を与えることを願っています。

図 1. Point Transformer V3 (PTv3) の概要。前身のPTv2[84]と比較すると、当社のPTv3は以下の点で優れています。1. パフォーマンスの向上。 PTv3 は、屋内および屋外のさまざまな 3D 認識タスクで最先端の結果を達成します。 2. 受容野が広くなる。シンプルさと効率性を活かして、PTv3 は受信フィールドを 16 ポイントから 1024 ポイントに拡張します。 3. 速度が速くなります。 PTv3 は処理速度を大幅に向上させ、遅延の影響を受けやすいアプリケーションに適しています。 4. メモリ消費量を削減します。 PTv3 はメモリ使用量を削減し、より幅広い状況でのアクセシビリティを向上させます。

図 2. PTv2 コンポーネントの遅延ツリー図。この論文では、PTv2 の各コンポーネントの転送時間比をベンチマークし、視覚化します。 KNN クエリと RPE を合わせると、転送時間の 54% を占めます。

図 3. ポイント クラウドのシリアル化。この記事では、トリプル視覚化を通じて 4 つのシリアル化パターンを示します。各トリプレットについて、シリアル化に使用される空間充填曲線 (左)、空間充填曲線内のポイント クラウド シリアル化変数の順序 (中央)、およびローカル アテンション用のシリアル化されたポイント クラウドのグループ化されたパッチ (右) が表示されます。 4 つのシリアル化モードの変換により、注意メカニズムはさまざまな空間関係とコンテキストをキャプチャできるようになり、モデルの精度と一般化能力が向上します。

図 4. パッチのグループ化。 (a) 特定のシリアル化スキーマから導出された順序に従ってポイントクラウドを並べ替えます。 (b) 指定されたパッチサイズで割り切れるように、隣接するパッチからポイントを借用してポイントクラウドシーケンスを埋めます。

図5. パッチの相互作用。 (a) 標準パッチ グループ化 (規則的でシフトされていない配置)、(b) Shift-Dilation (ポイントが一定の間隔でクラスター化され、膨張効果を生み出す)、(c) Shift Patch (シフト ウィンドウ メソッドに似たシフト メカニズムを使用する)、(d) Shift Order (異なるシリアル化パターンが連続する注意層に周期的に割り当てられる)、(d) Shuffle Order (シリアル化パターンのシーケンスが注意層に入力される前にランダム化される)。

図 6. 全体的なアーキテクチャ。

実験結果:

要約:

この論文では、ポイント クラウド処理における精度と効率の間の従来のトレードオフを克服するための大きな一歩を踏み出す Point Transformer V3 を紹介します。バックボーン設計におけるスケーリング原則の新しい解釈に基づいて、モデルのパフォーマンスは設計の複雑さよりも規模によって大きく影響を受けると主張します。この論文では、影響の少ないメカニズムの精度よりも効率を優先することで、規模の経済性を活用し、パフォーマンスを向上させます。つまり、モデルをよりシンプルかつ高速にすることで、この論文ではモデルをより強力にすることができます。

引用:

Wu, X., Jiang, L., Wang, P., Liu, Z., Liu, X., Qiao, Y., Ouyang, W., He, T., & Zhao, H. (2023). Point Transformer V3: よりシンプルに、より速く、より強力に。  翻訳: ...

オリジナルリンク: https://mp.weixin.qq.com/s/u_kN8bCHO96x9FfS4HQGiA

<<:  機械学習モデルのパフォーマンスを測定する 10 の指標

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能ネットワークが教育に与える影響を探る

教育業界は、テクノロジーの継続的な進歩によって大きなパラダイムシフトを経験しています。人工知能(AI...

私の国の自動運転開発は、年初に巨額の資金提供を受けて大いに支持されている

自動運転は、さまざまな交通問題を解決し、スマートシティの発展を実現するための共通の選択肢として、近年...

過大評価された5つのテクノロジー:誇大宣伝の裏にある現実を探る

すべてのテクノロジーが期待通りの成果を上げたり、当初の約束を果たしたりするわけではありません。技術進...

...

ロボットが2000万の仕事に取って代わる:最大の懸念は30代なのに何も知らないこと

[[269741]] 01 数日前、あるニュースが私の周りの多くの人々に反省と心配を抱かせました。 ...

...

...

「初の顔認証事件」の最終判決がこちら

[[392244]] 4月9日午後3時、「初の顔認識事件」は杭州市中級人民法院で二審判決を受けた。こ...

食習慣の変化に伴い、スマートロボットキッチン技術が熱を帯びる

COVID-19パンデミックが続く中、非接触型の食事がますます人気になっています。宅配やテイクアウト...

世界ロボット会議は、未来がここにあることを伝えます。

「リラックスして、直立不動で、右を向いてください!」司会者の指示に従い、一列に並んだロボットが一斉...

マイクロソフトは低コストのAIモデルを見つけるために多方面に賭けている

マイクロソフトはOpenAI LPの半分以下を所有していると言われているが、それでもパワーは劣るがよ...

...

AIチップの過去、現在、そして未来

AIの力は、医療紛争、化学合成、犯罪者識別、自動運転などの応用分野で拡大しています。 AI は現在何...

Apple の生成 AI ツール Apple GPT: 遅れて登場したが、他の利点もある

Appleは、ChatGPTやGoogleのBardのような大規模言語モデル(LLM)と競合する独自...

AIは当面、都市のゴミ出しを支援できないかもしれない

上海がゴミの分別を推進し始めて以来、クレイジーな上海寧は多くのジョークや絵文字を投稿し、大多数のネッ...