Point Transformer V3: よりシンプルに、より速く、より強力に!

Point Transformer V3: よりシンプルに、より速く、より強力に!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

元のタイトル: Point Transformer V3: よりシンプルに、より速く、より強く

論文リンク: https://arxiv.org/pdf/2312.10035.pdf

コードリンク: https://github.com/Pointcept/PointTransformerV3

著者ユニット: HKU SH AI Lab MPI PKU MIT

論文のアイデア:

この論文は、注意メカニズム内での革新を追求することを意図するものではありません。代わりに、スケールの力を活用して、ポイント クラウド処理のコンテキストにおける精度と効率の間の既存のトレードオフを克服することに重点を置いています。この論文では、3D 大規模表現学習の最近の進歩からインスピレーションを得て、モデルのパフォーマンスは設計の複雑さよりも規模の影響を受けやすいことを認識しています。そのため、本論文では、KNN の正確な近傍検索を特定のパターンに編成されたポイント クラウドの効率的なシリアル化された近傍マッピングに置き換えるなど、スケーリング後の全体的なパフォーマンスへの影響が少ない特定のメカニズムよりも、精度よりもシンプルさと効率を優先する Point Transformer V3 (PTv3) を提案します。この原理により、大幅なスケーリングが可能になり、受容野が 16 ポイントから 1024 ポイントに拡張され、高い効率性を維持します (前身の PTv2 に比べて処理速度が 3 倍、メモリ効率が 10 倍)。 PTv3 は、屋内と屋外の両方のシーンをカバーする 20 を超えるダウンストリーム タスクで最先端の結果を達成します。 PTv3 は、マルチデータセットの共同トレーニングによるさらなる機能強化を通じて、これらの結果を次のレベルに押し上げます。

ネットワーク設計:

3D表現学習における最近の進歩[85]は、複数の3Dデータセットにわたる共同トレーニング手法を導入することで、点群処理におけるデータサイズの制限を克服する進歩を遂げました。この戦略と組み合わせることで、効率的な畳み込みバックボーン[12]は、ポイントクラウドトランスフォーマー[38、84]に一般的に関連付けられている精度のギャップを効果的に埋めます。ただし、ポイント クラウド トランスフォーマー自体は、スパース畳み込みと比較した効率のギャップのため、このスケールの利点をまだ十分に享受できていません。この発見が、スケーリング原理の観点からポイント変圧器の設計上の選択を再評価するという、この研究の当初の動機を形作りました。この論文では、モデルのパフォーマンスは複雑な設計よりも規模によって大きく左右されると主張しています。

したがって、本稿では、スケーラビリティを実現するために、いくつかのメカニズムの精度よりもシンプルさと効率性を優先する Point Transformer V3 (PTv3) を紹介します。このような調整は、スケーリング後の全体的なパフォーマンスにほとんど影響を与えません。具体的には、PTv3 は優れた効率性とスケーラビリティを実現するために、次の調整を行いました。

  • PTv3は、最近の2つの進歩[48、77]に触発され、構造化ポイントクラウドから非構造化ポイントクラウドへのスケーラビリティの利点を認識し、K近傍法(KNN)クエリによって定義される従来の空間近接性を変換します。これは、転送時間の28%を占めます。代わりに、特定のパターンに従って編成されたポイント クラウド内のシリアル化された近隣の可能性を探ります。
  • PTv3 は、シフト ウィンドウ (アテンション オペレーターの融合を妨げる) や近傍メカニズム (メモリ消費量の増加につながる) などのより複雑なアテンション パッチ相互作用メカニズムを、シリアル化されたポイント クラウド向けに調整された簡素化されたアプローチに置き換えます。
  • PTv3 では、転送時間の 26% を占める相対位置エンコーディングへの依存がなくなり、よりシンプルなフロントエンドのスパース畳み込み層が採用されています。

私たちは、これらの設計は、スケーリングの原理と既存のポイント クラウド トランスフォーマーの進歩によってもたらされた直感的な選択であると主張します。重要なのは、この記事では、詳細なモジュール設計ではなく、スケーラビリティがバックボーン設計にどのように影響するかを理解することの重要性を強調していることです。

この原理により、スケーラビリティが大幅に向上し、精度と効率の間の従来のトレードオフが克服されます (図 1 を参照)。 PTv3 は、前世代に比べて推論速度が 3.3 倍高速化し、メモリ使用量が 10.2 倍削減されます。さらに重要なのは、PTv3 が認識範囲を拡大する固有の能力を活用して、効率性を維持しながら受容フィールドを 16 ポイントから 1024 ポイントに拡張することです。このスケーラビリティは、現実世界の認識タスクにおける優れたパフォーマンスをサポートし、PTv3 は屋内と屋外の両方のシーンで 20 を超えるダウンストリーム タスクで最先端の結果を達成します。 PTv3は、マルチデータセットトレーニングを通じてデータサイズをさらに拡大することで、これらの結果をさらに改善します[85]。この記事から得た洞察が、この方向への将来の研究に刺激を与えることを願っています。

図 1. Point Transformer V3 (PTv3) の概要。前身のPTv2[84]と比較すると、当社のPTv3は以下の点で優れています。1. パフォーマンスの向上。 PTv3 は、屋内および屋外のさまざまな 3D 認識タスクで最先端の結果を達成します。 2. 受容野が広くなる。シンプルさと効率性を活かして、PTv3 は受信フィールドを 16 ポイントから 1024 ポイントに拡張します。 3. 速度が速くなります。 PTv3 は処理速度を大幅に向上させ、遅延の影響を受けやすいアプリケーションに適しています。 4. メモリ消費量を削減します。 PTv3 はメモリ使用量を削減し、より幅広い状況でのアクセシビリティを向上させます。

図 2. PTv2 コンポーネントの遅延ツリー図。この論文では、PTv2 の各コンポーネントの転送時間比をベンチマークし、視覚化します。 KNN クエリと RPE を合わせると、転送時間の 54% を占めます。

図 3. ポイント クラウドのシリアル化。この記事では、トリプル視覚化を通じて 4 つのシリアル化パターンを示します。各トリプレットについて、シリアル化に使用される空間充填曲線 (左)、空間充填曲線内のポイント クラウド シリアル化変数の順序 (中央)、およびローカル アテンション用のシリアル化されたポイント クラウドのグループ化されたパッチ (右) が表示されます。 4 つのシリアル化モードの変換により、注意メカニズムはさまざまな空間関係とコンテキストをキャプチャできるようになり、モデルの精度と一般化能力が向上します。

図 4. パッチのグループ化。 (a) 特定のシリアル化スキーマから導出された順序に従ってポイントクラウドを並べ替えます。 (b) 指定されたパッチサイズで割り切れるように、隣接するパッチからポイントを借用してポイントクラウドシーケンスを埋めます。

図5. パッチの相互作用。 (a) 標準パッチ グループ化 (規則的でシフトされていない配置)、(b) Shift-Dilation (ポイントが一定の間隔でクラスター化され、膨張効果を生み出す)、(c) Shift Patch (シフト ウィンドウ メソッドに似たシフト メカニズムを使用する)、(d) Shift Order (異なるシリアル化パターンが連続する注意層に周期的に割り当てられる)、(d) Shuffle Order (シリアル化パターンのシーケンスが注意層に入力される前にランダム化される)。

図 6. 全体的なアーキテクチャ。

実験結果:

要約:

この論文では、ポイント クラウド処理における精度と効率の間の従来のトレードオフを克服するための大きな一歩を踏み出す Point Transformer V3 を紹介します。バックボーン設計におけるスケーリング原則の新しい解釈に基づいて、モデルのパフォーマンスは設計の複雑さよりも規模によって大きく影響を受けると主張します。この論文では、影響の少ないメカニズムの精度よりも効率を優先することで、規模の経済性を活用し、パフォーマンスを向上させます。つまり、モデルをよりシンプルかつ高速にすることで、この論文ではモデルをより強力にすることができます。

引用:

Wu, X., Jiang, L., Wang, P., Liu, Z., Liu, X., Qiao, Y., Ouyang, W., He, T., & Zhao, H. (2023). Point Transformer V3: よりシンプルに、より速く、より強力に。  翻訳: ...

オリジナルリンク: https://mp.weixin.qq.com/s/u_kN8bCHO96x9FfS4HQGiA

<<:  機械学習モデルのパフォーマンスを測定する 10 の指標

>>: 

ブログ    
ブログ    

推薦する

業界の開発者にとって朗報です! Baidu PaddlePaddle のディープラーニング機能が Inspur AI サーバーに導入

8月28日、北京で開催されたAICC 2019人工知能コンピューティングカンファレンスで、Baidu...

最高裁判所は顔認識に関する新たな規制を発表:顔情報の収集には「個別の同意」が必要

[[414466]] 7月28日、最高人民法院は「顔認識技術を用いた個人情報処理に関する民事訴訟にお...

ロボットにとっては、這う方が移動には良い方法かもしれない

世界中の科学者の中には、ロボットの歩行能力を強化するために取り組んでいる者もいれば、異なる視点からロ...

あなたはまだこれらの仕事をしていますか?マシンビジョンと人工知能により、今後10年間で失業することになるかもしれません

[[216406]]新しい技術の出現は、それに関わる人々の仕事を常に変えていきます。メインフレームコ...

...

採血時に血管が見つからない?人工知能には解決策がある

[[318810]]ビッグデータダイジェスト制作出典: rutgers.edu編纂者:張大毓如、夏亜...

量子コンピューティング OpenAI が登場?元Google社員3人のチームが、物理学の限界に挑戦するAIコンピューティングチップを開発するために1億人民元を調達

生成型 AI の時代では、コンピューティング能力が技術開発の限界となっていることは明らかです。 Nv...

教師あり学習、教師なし学習、強化学習とは何ですか?ついに誰かが明らかにした

01 用語このセクションでは、機械学習の概要とその 3 つの分類 (教師あり学習、教師なし学習、強化...

モザイクを使用するのは安全ですか? AIがモザイクを除去し、導入から3日間で約7,000個の星を獲得

パスワードを隠すためにまだモザイクを使用していますか? 「見透かされる」ことには注意してください。ピ...

5G時代の到来により、携帯電話はどのように人工知能を取り入れることができるのでしょうか?

最近、第51回国際コンシューマー・エレクトロニクス・ショーが米国ラスベガスで開催され、世界中の人工知...

...

...

Google のロボット工学プログラムは度重なる失敗からどのような教訓を得たのでしょうか?

Google は再びロボットの製造を開始する予定です。 。 。このニュースを伝えたとき、私は Go...

...

ChatGPTの愚かさに対する新たな説明: 世界はAIによって変化し、訓練されたときとは異なっている

学術界は、ChatGPT がなぜ愚かになったのかという新たな説明を持っています。カリフォルニア大学サ...