マルチタスクでSOTA、UBCを実現 Googleなどが3Dポイントクラウド向けの教師なしカプセルネットワークを提案

マルチタスクでSOTA、UBCを実現 Googleなどが3Dポイントクラウド向けの教師なしカプセルネットワークを提案

これは、3D ポイント クラウド用に提案された教師なしカプセル アーキテクチャであり、3D ポイント クラウドの再構築、登録、教師なし分類において SOTA 方式よりも優れています。

物体を理解することは、コンピューター ビジョンにおける中心的な問題の 1 つです。オブジェクト理解タスクの従来の方法では、大規模な注釈付きデータセットに依存できますが、教師なし手法ではラベルが不要になります。最近、研究者たちはこれらの方法を 3D ポイント クラウドに拡張しようと試みましたが、教師なし 3D 学習の分野ではほとんど進歩がありませんでした。

最近、ブリティッシュコロンビア大学、Google Research、トロント大学のWeiwei Sun、Andrea Tagliasacchi、Geoffrey Hintonなどの研究者が、3Dポイントクラウド用の教師なしカプセルネットワークを提案しました。ヒントン氏は次のように語った。「物体の自然な構成要素と、これらの構成要素の固有の参照フレームを教師なしの方法で見つけることは、解析された画像を局所的かつ全体的な階層構造に変換することを学習する上で重要なステップです。」ポイントクラウドから始めれば、それは可能です。

具体的には、順列同変注意を介してオブジェクトのカプセル分解を計算し、ランダムに回転したオブジェクトのペアをトレーニングすることでプロセスを自己監視します。この研究の中心的なアイデアは、アテンションマスクを意味的なキーポイントに集約し、それを使用してカプセル不変性または同値性を満たす分解を監視することです。これにより、意味的に一貫した分解のトレーニングが可能になるだけでなく、オブジェクト中心の推論のための通常の操作も学習できるようになります。この場合、トレーニングには分類ラベルも手動で調整されたトレーニング データセットも必要ありません。

最後に、オブジェクト中心の表現を教師なし学習することで、私たちの方法は、3D ポイント クラウドの再構築、登録、教師なし分類において SOTA 方法よりも優れています。研究者らはソースコードとデータセットを近日中に公開する予定だと述べた。

論文リンク: https://arxiv.org/abs/2012.04718

プロジェクトのホームページ: https://canonical-capsules.github.io/

方法

ネットワークは、以下の図 2 に示すように、整列していないポイント クラウドでトレーニングされます。研究者は、ポイント クラウドを複数のコンポーネントに分解するネットワークをトレーニングし、Siamese トレーニング設定を通じて不変性/等分散性を実現しました。

次に、ポイント クラウドを学習した参照フレームに正規化し、その座標空間で自動エンコーディングを実行します。

損失

教師なし手法では一般的ですが、私たちのフレームワークは、フォーカス マップが表現で取得するさまざまな機能を制御する多数の損失に依存しています。これらの損失はすべて教師なしであり、ラベルを必要としないことに注意してください。研究者たちは、分解、正規化、再構築など、監視するネットワークの部分に応じて損失を整理した。

ネットワークアーキテクチャ

研究者らは、ネットワーク アーキテクチャを含む実装の詳細を簡単に紹介します。

  • エンコーダーE。私たちのアーキテクチャは、[42]で提案された残差接続と注目コンテキストの正規化を備えたDotNetのようなアーキテクチャに基づいています。
  • デコーダーD。式(4)のデコーダはカプセルごとに動作する。この研究で使用されたデコーダーアーキテクチャは、AtlasNetV2 [13](トレーニング可能なグリッドを備えた)に似ています。違いは、この研究では各カプセルのデコードされたポイントクラウドを対応するカプセルポーズで変換することです。
  • 回帰子K。研究者は、記述子を連結し、ReLU 活性化関数を使用して一連の完全接続レイヤーを呼び出して、P カプセルの位置を回帰するだけで済みます。出力層では、線形活性化関数を使用し、さらに出力平均を減算して、正規化されたフレーム内で回帰位置をゼロ中心にします。
  • 正規化された記述子。私たちの記述子は(拡張により)回転不変に近いだけなので、正規化後にカプセル記述子 β_k を再抽出することが有用であることがわかりました。

実験と結果

自動エンコード

研究者らは、ネットワーク タスク (再構築/オート エンコード) のトレーニングに対するアプローチのパフォーマンスを、2 つのトレーニング ベースライン (単一クラスと複数クラスの両方のバリエーションでトレーニング) と比較して評価しました。

AtlasNetV2 [13]は、パッチベースのマルチヘッドデコーダを使用した最先端のオートエンコーダである。

3D-PointCapsNet [58]は、カプセルアーキテクチャを使用した3Dポイントクラウドオートエンコーダです。

以下の表 1 は定量分析の結果を示しています。私たちの方法は、整列設定と非整列設定の両方で SOTA パフォーマンス結果を達成しています。

下の図3は定性分析の結果です。研究者らは、分解ベースの3D点群再構成法と3D-PointCapsNet [58]およびAtlasNetV2 [13]の再構成結果を提示した。

登録

研究者らは、3D ポイント クラウドを登録する能力の観点からこの方法のパフォーマンスを評価し、次の 3 つの基準と比較しました。

  • Deep Closest Points(DCP)[52]:深層学習に基づく点群登録手法。
  • DeepGMR-RRI [56]は、回転不変の特徴を持つガウス混合分布に雲を分解するSOTA法である。
  • DeepGMR–XYZ [56]では、回転不変の特徴を使用せずに生のXYZ座標を入力として使用します。

この研究で採用されたRRIアプローチの変形が使用され、RRI特徴[6]がアーキテクチャへの唯一の入力として使用されます。この論文で RRI 機能を使用する方法は、DeepGMR トレーニング プロトコルに従い、100 サイクルにわたってトレーニングを行いますが、DCP と DeepGMR については、この研究では元の著者の公式実装を使用します。定量分析の結果は以下の表2に示されています。

教師なし分類

本研究では、トレーニング損失に直接関連するタスクである再構成と登録に加えて、トレーニング損失とは関係のない分類タスクにおける本手法の有効性も評価します。結果を以下の表 3 に示します。この論文の方法はすべて SOTA Top-1 の精度を達成しています。

制御変数実験

さらに、標準カプセルのさまざまなコンポーネントがパフォーマンスに与える影響をさらに分析するために、この研究では一連の制御変数実験を実施し、その結果を以下の表 4、表 6、表 7 に示します。

表4: 損失の影響。

表6: 標準記述子の有効性。

表 7: ポイント数によるパフォーマンスへの影響。

<<:  多くの国で人工知能産業が発展を加速している(国際的視点)

>>:  単一のGPUで毎秒30フレームの4Kを実現し、リアルタイムのビデオカットアウトとアップグレードにより髪の毛のディテールを完全に再現します。

ブログ    
ブログ    

推薦する

自分だけのデジタルヒューマンを開発しよう、FACEGOODが音声駆動表現技術をオープンソース化

現在、メタバースのトレンドの下、AIデジタルヒューマンもエンターテインメント、サービス、教育、マーケ...

GPT-4V の医師免許試験の点数は、ほとんどの医学生よりも高いです。AI がクリニックに参加するまでにはどれくらい時間がかかりますか?

医用画像診断における人工知能(AI)の応用は大きな進歩を遂げました。しかし、厳密なテストがなければ、...

Cloud Pak for Data 3.0は、企業のコスト削減と効率性の向上を支援し、AI導入を加速します。

[[335519]]感染症流行後も実体経済は厳しい状況が続いている。生産停止、収益の急激な減少、資...

...

...

人気の機械学習や人工知能が金融業界で障害にぶつかるのはなぜでしょうか?

[[211551]]機械学習と人工知能は、過去数年間で精度において驚異的な進歩を遂げました。 しか...

2023年世界AI指数ランキング発表:米国と中国が1位と2位、アジア諸国は好成績

英国のメディア組織Tortoise Mediaは最近、2023年の世界AI指数ランキングを発表しまし...

2023年までに、プライバシーコンプライアンス技術の40%以上がAIに依存するようになる

ガートナーによれば、2023年までにプライバシーコンプライアンス技術の40%以上が人工知能(AI)に...

Pytorch Lightning の 6 つのヒントを使用して、ディープラーニング パイプラインを 10 倍高速化します。

[[427508]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

中秋節には月餅を食べます。今日はロボットがどのように月餅を作るかについてお話します。

最近、主要プラットフォームのホームページには、生地をこねる、餡を作る、型から外す、焼くまで、月餅を作...

テンセント・ユートゥと厦門大学は、トレーニングを必要としないViT構造検索アルゴリズムを提案した。

最近、ViT はコンピューター ビジョンの分野で強力な競争力を発揮し、複数のタスクで驚くべき進歩を遂...

...

人工知能教育の時代が到来。AIは何ができるのか?

[[265994]]最近、国際人工知能教育会議、第3回世界知能会議が相次いで開催され、さまざまなA...

機械学習について誰もが知っておくべきこと

この記事では、機械学習の知識を広め、機械学習で何ができるのか、どのように行うのかを簡単に紹介します。...

...