Point Transformer V3: よりシンプルに、より速く、より強力に!

Point Transformer V3: よりシンプルに、より速く、より強力に!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

元のタイトル: Point Transformer V3: よりシンプルに、より速く、より強く

論文リンク: https://arxiv.org/pdf/2312.10035.pdf

コードリンク: https://github.com/Pointcept/PointTransformerV3

著者ユニット: HKU SH AI Lab MPI PKU MIT

論文のアイデア:

この論文は、注意メカニズム内での革新を追求することを意図するものではありません。代わりに、スケールの力を活用して、ポイント クラウド処理のコンテキストにおける精度と効率の間の既存のトレードオフを克服することに重点を置いています。この論文では、3D 大規模表現学習の最近の進歩からインスピレーションを得て、モデルのパフォーマンスは設計の複雑さよりも規模の影響を受けやすいことを認識しています。そのため、本論文では、KNN の正確な近傍検索を特定のパターンに編成されたポイント クラウドの効率的なシリアル化された近傍マッピングに置き換えるなど、スケーリング後の全体的なパフォーマンスへの影響が少ない特定のメカニズムよりも、精度よりもシンプルさと効率を優先する Point Transformer V3 (PTv3) を提案します。この原理により、大幅なスケーリングが可能になり、受容野が 16 ポイントから 1024 ポイントに拡張され、高い効率性を維持します (前身の PTv2 に比べて処理速度が 3 倍、メモリ効率が 10 倍)。 PTv3 は、屋内と屋外の両方のシーンをカバーする 20 を超えるダウンストリーム タスクで最先端の結果を達成します。 PTv3 は、マルチデータセットの共同トレーニングによるさらなる機能強化を通じて、これらの結果を次のレベルに押し上げます。

ネットワーク設計:

3D表現学習における最近の進歩[85]は、複数の3Dデータセットにわたる共同トレーニング手法を導入することで、点群処理におけるデータサイズの制限を克服する進歩を遂げました。この戦略と組み合わせることで、効率的な畳み込みバックボーン[12]は、ポイントクラウドトランスフォーマー[38、84]に一般的に関連付けられている精度のギャップを効果的に埋めます。ただし、ポイント クラウド トランスフォーマー自体は、スパース畳み込みと比較した効率のギャップのため、このスケールの利点をまだ十分に享受できていません。この発見が、スケーリング原理の観点からポイント変圧器の設計上の選択を再評価するという、この研究の当初の動機を形作りました。この論文では、モデルのパフォーマンスは複雑な設計よりも規模によって大きく左右されると主張しています。

したがって、本稿では、スケーラビリティを実現するために、いくつかのメカニズムの精度よりもシンプルさと効率性を優先する Point Transformer V3 (PTv3) を紹介します。このような調整は、スケーリング後の全体的なパフォーマンスにほとんど影響を与えません。具体的には、PTv3 は優れた効率性とスケーラビリティを実現するために、次の調整を行いました。

  • PTv3は、最近の2つの進歩[48、77]に触発され、構造化ポイントクラウドから非構造化ポイントクラウドへのスケーラビリティの利点を認識し、K近傍法(KNN)クエリによって定義される従来の空間近接性を変換します。これは、転送時間の28%を占めます。代わりに、特定のパターンに従って編成されたポイント クラウド内のシリアル化された近隣の可能性を探ります。
  • PTv3 は、シフト ウィンドウ (アテンション オペレーターの融合を妨げる) や近傍メカニズム (メモリ消費量の増加につながる) などのより複雑なアテンション パッチ相互作用メカニズムを、シリアル化されたポイント クラウド向けに調整された簡素化されたアプローチに置き換えます。
  • PTv3 では、転送時間の 26% を占める相対位置エンコーディングへの依存がなくなり、よりシンプルなフロントエンドのスパース畳み込み層が採用されています。

私たちは、これらの設計は、スケーリングの原理と既存のポイント クラウド トランスフォーマーの進歩によってもたらされた直感的な選択であると主張します。重要なのは、この記事では、詳細なモジュール設計ではなく、スケーラビリティがバックボーン設計にどのように影響するかを理解することの重要性を強調していることです。

この原理により、スケーラビリティが大幅に向上し、精度と効率の間の従来のトレードオフが克服されます (図 1 を参照)。 PTv3 は、前世代に比べて推論速度が 3.3 倍高速化し、メモリ使用量が 10.2 倍削減されます。さらに重要なのは、PTv3 が認識範囲を拡大する固有の能力を活用して、効率性を維持しながら受容フィールドを 16 ポイントから 1024 ポイントに拡張することです。このスケーラビリティは、現実世界の認識タスクにおける優れたパフォーマンスをサポートし、PTv3 は屋内と屋外の両方のシーンで 20 を超えるダウンストリーム タスクで最先端の結果を達成します。 PTv3は、マルチデータセットトレーニングを通じてデータサイズをさらに拡大することで、これらの結果をさらに改善します[85]。この記事から得た洞察が、この方向への将来の研究に刺激を与えることを願っています。

図 1. Point Transformer V3 (PTv3) の概要。前身のPTv2[84]と比較すると、当社のPTv3は以下の点で優れています。1. パフォーマンスの向上。 PTv3 は、屋内および屋外のさまざまな 3D 認識タスクで最先端の結果を達成します。 2. 受容野が広くなる。シンプルさと効率性を活かして、PTv3 は受信フィールドを 16 ポイントから 1024 ポイントに拡張します。 3. 速度が速くなります。 PTv3 は処理速度を大幅に向上させ、遅延の影響を受けやすいアプリケーションに適しています。 4. メモリ消費量を削減します。 PTv3 はメモリ使用量を削減し、より幅広い状況でのアクセシビリティを向上させます。

図 2. PTv2 コンポーネントの遅延ツリー図。この論文では、PTv2 の各コンポーネントの転送時間比をベンチマークし、視覚化します。 KNN クエリと RPE を合わせると、転送時間の 54% を占めます。

図 3. ポイント クラウドのシリアル化。この記事では、トリプル視覚化を通じて 4 つのシリアル化パターンを示します。各トリプレットについて、シリアル化に使用される空間充填曲線 (左)、空間充填曲線内のポイント クラウド シリアル化変数の順序 (中央)、およびローカル アテンション用のシリアル化されたポイント クラウドのグループ化されたパッチ (右) が表示されます。 4 つのシリアル化モードの変換により、注意メカニズムはさまざまな空間関係とコンテキストをキャプチャできるようになり、モデルの精度と一般化能力が向上します。

図 4. パッチのグループ化。 (a) 特定のシリアル化スキーマから導出された順序に従ってポイントクラウドを並べ替えます。 (b) 指定されたパッチサイズで割り切れるように、隣接するパッチからポイントを借用してポイントクラウドシーケンスを埋めます。

図5. パッチの相互作用。 (a) 標準パッチ グループ化 (規則的でシフトされていない配置)、(b) Shift-Dilation (ポイントが一定の間隔でクラスター化され、膨張効果を生み出す)、(c) Shift Patch (シフト ウィンドウ メソッドに似たシフト メカニズムを使用する)、(d) Shift Order (異なるシリアル化パターンが連続する注意層に周期的に割り当てられる)、(d) Shuffle Order (シリアル化パターンのシーケンスが注意層に入力される前にランダム化される)。

図 6. 全体的なアーキテクチャ。

実験結果:

要約:

この論文では、ポイント クラウド処理における精度と効率の間の従来のトレードオフを克服するための大きな一歩を踏み出す Point Transformer V3 を紹介します。バックボーン設計におけるスケーリング原則の新しい解釈に基づいて、モデルのパフォーマンスは設計の複雑さよりも規模によって大きく影響を受けると主張します。この論文では、影響の少ないメカニズムの精度よりも効率を優先することで、規模の経済性を活用し、パフォーマンスを向上させます。つまり、モデルをよりシンプルかつ高速にすることで、この論文ではモデルをより強力にすることができます。

引用:

Wu, X., Jiang, L., Wang, P., Liu, Z., Liu, X., Qiao, Y., Ouyang, W., He, T., & Zhao, H. (2023). Point Transformer V3: よりシンプルに、より速く、より強力に。  翻訳: ...

オリジナルリンク: https://mp.weixin.qq.com/s/u_kN8bCHO96x9FfS4HQGiA

<<:  機械学習モデルのパフォーマンスを測定する 10 の指標

>>: 

ブログ    
ブログ    
ブログ    

推薦する

...

...

AI による顔を変える動画が何百万人ものユーザーを獲得。たった 1 ステップで楽しさから恐怖感まで

今朝、私の友人の輪の中に、AI による顔の変形に関する短い動画が大量に現れました。これらの短編動画の...

Microsoft が OpenAI のライバルと提携!ミストラルの最新のトップレベルモデルはオープンソースではなくなった

ノア著制作:51CTO テクノロジースタック(WeChat ID:blog)最近、マイクロソフトは、...

興味深い記事:女の子を追いかけるためのさまざまなアルゴリズムを教える

動的プログラミング基本的に、それは次のことを意味します。女の子を追いかけるときは、彼女の親しい友達全...

...

Nature Sub-Journal | NUS と ByteDance が初めて AI メタ学習を脳画像に導入

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ChatGPTがやってくる、個人はそれにどう対処すべきか

このテーマについて、人工知能の起源と発展、その一般原理、不安を避ける方法、そして時代に追いつく方法な...

大規模ウェブサイトのアルゴリズムとアーキテクチャについての簡単な説明(パート 2)

順序前回の記事「大規模 Web サイトのアルゴリズムとアーキテクチャに関する簡単な説明 (パート 1...

MIT スタンフォード トランスフォーマーの最新研究: 過剰トレーニングにより、中程度のモデルが構造一般化能力を「発現」できるようになる

人間にとって、文章は階層的です。文の階層構造は表現と理解の両方にとって非常に重要です。しかし、自然言...

宇宙インテリジェンスは産業変革に新たな推進力をもたらす。ファーウェイは能力とパートナーを開放し、ウィンウィンの時代を実現する

8月5日、ファーウェイ開発者会議2023(HDC 2023)全社スマートテクノロジーフォーラムが深セ...

...

機械学習モデルが公平かどうかを簡単に確認する方法

[[361220]] [51CTO.com クイック翻訳] 私たちはますます分断が進む世界に住んでい...

データ構造とアルゴリズムソート - 理解できないなら、私に相談してください

[[194165]]以下では、主にデータ構造の教科書で紹介されている「10 種類のソートアルゴリズム...

人工知能が将来経験する7つの段階

2030年までに、人工知能のおかげで世界のGDPは15.7兆ドル増加するでしょう。企業の 84% は...