マルチタスクでSOTA、UBCを実現 Googleなどが3Dポイントクラウド向けの教師なしカプセルネットワークを提案

これは、3D ポイントクラウド用に提案された教師なしカプセルアーキテクチャであり、3D ポイントクラウドの再構築、登録、教師なし分類において SOTA 方式よりも優れています。

物体を理解することは、コンピュータービジョンにおける中心的な問題の 1 つです。オブジェクト理解タスクの従来の方法では、大規模な注釈付きデータセットに依存できますが、教師なし手法ではラベルが不要になります。最近、研究者たちはこれらの方法を 3D ポイントクラウドに拡張しようと試みましたが、教師なし 3D 学習の分野ではほとんど進歩がありませんでした。

最近、ブリティッシュコロンビア大学、Google Research、トロント大学のWeiwei Sun、Andrea Tagliasacchi、Geoffrey Hintonなどの研究者が、3Dポイントクラウド用の教師なしカプセルネットワークを提案しました。ヒントン氏は次のように語った。「物体の自然な構成要素と、これらの構成要素の固有の参照フレームを教師なしの方法で見つけることは、解析された画像を局所的かつ全体的な階層構造に変換することを学習する上で重要なステップです。」ポイントクラウドから始めれば、それは可能です。

具体的には、順列同変注意を介してオブジェクトのカプセル分解を計算し、ランダムに回転したオブジェクトのペアをトレーニングすることでプロセスを自己監視します。この研究の中心的なアイデアは、アテンションマスクを意味的なキーポイントに集約し、それを使用してカプセル不変性または同値性を満たす分解を監視することです。これにより、意味的に一貫した分解のトレーニングが可能になるだけでなく、オブジェクト中心の推論のための通常の操作も学習できるようになります。この場合、トレーニングには分類ラベルも手動で調整されたトレーニングデータセットも必要ありません。

最後に、オブジェクト中心の表現を教師なし学習することで、私たちの方法は、3D ポイントクラウドの再構築、登録、教師なし分類において SOTA 方法よりも優れています。研究者らはソースコードとデータセットを近日中に公開する予定だと述べた。

論文リンク: https://arxiv.org/abs/2012.04718

プロジェクトのホームページ: https://canonical-capsules.github.io/

方法

ネットワークは、以下の図 2 に示すように、整列していないポイントクラウドでトレーニングされます。研究者は、ポイントクラウドを複数のコンポーネントに分解するネットワークをトレーニングし、Siamese トレーニング設定を通じて不変性/等分散性を実現しました。

次に、ポイントクラウドを学習した参照フレームに正規化し、その座標空間で自動エンコーディングを実行します。

損失

教師なし手法では一般的ですが、私たちのフレームワークは、フォーカスマップが表現で取得するさまざまな機能を制御する多数の損失に依存しています。これらの損失はすべて教師なしであり、ラベルを必要としないことに注意してください。研究者たちは、分解、正規化、再構築など、監視するネットワークの部分に応じて損失を整理した。

ネットワークアーキテクチャ

研究者らは、ネットワークアーキテクチャを含む実装の詳細を簡単に紹介します。

エンコーダーE。私たちのアーキテクチャは、[42]で提案された残差接続と注目コンテキストの正規化を備えたDotNetのようなアーキテクチャに基づいています。
デコーダーD。式（４）のデコーダはカプセルごとに動作する。この研究で使用されたデコーダーアーキテクチャは、AtlasNetV2 [13]（トレーニング可能なグリッドを備えた）に似ています。違いは、この研究では各カプセルのデコードされたポイントクラウドを対応するカプセルポーズで変換することです。

回帰子K。研究者は、記述子を連結し、ReLU 活性化関数を使用して一連の完全接続レイヤーを呼び出して、P カプセルの位置を回帰するだけで済みます。出力層では、線形活性化関数を使用し、さらに出力平均を減算して、正規化されたフレーム内で回帰位置をゼロ中心にします。
正規化された記述子。私たちの記述子は（拡張により）回転不変に近いだけなので、正規化後にカプセル記述子 β_k を再抽出することが有用であることがわかりました。

実験と結果

自動エンコード

研究者らは、ネットワークタスク (再構築/オートエンコード) のトレーニングに対するアプローチのパフォーマンスを、2 つのトレーニングベースライン (単一クラスと複数クラスの両方のバリエーションでトレーニング) と比較して評価しました。

AtlasNetV2 [13]は、パッチベースのマルチヘッドデコーダを使用した最先端のオートエンコーダである。

3D-PointCapsNet [58]は、カプセルアーキテクチャを使用した3Dポイントクラウドオートエンコーダです。

以下の表 1 は定量分析の結果を示しています。私たちの方法は、整列設定と非整列設定の両方で SOTA パフォーマンス結果を達成しています。

下の図3は定性分析の結果です。研究者らは、分解ベースの3D点群再構成法と3D-PointCapsNet [58]およびAtlasNetV2 [13]の再構成結果を提示した。

登録

研究者らは、3D ポイントクラウドを登録する能力の観点からこの方法のパフォーマンスを評価し、次の 3 つの基準と比較しました。

Deep Closest Points（DCP）[52]：深層学習に基づく点群登録手法。
DeepGMR-RRI [56]は、回転不変の特徴を持つガウス混合分布に雲を分解するSOTA法である。
DeepGMR–XYZ [56]では、回転不変の特徴を使用せずに生のXYZ座標を入力として使用します。

この研究で採用されたRRIアプローチの変形が使用され、RRI特徴[6]がアーキテクチャへの唯一の入力として使用されます。この論文で RRI 機能を使用する方法は、DeepGMR トレーニングプロトコルに従い、100 サイクルにわたってトレーニングを行いますが、DCP と DeepGMR については、この研究では元の著者の公式実装を使用します。定量分析の結果は以下の表2に示されています。

教師なし分類

本研究では、トレーニング損失に直接関連するタスクである再構成と登録に加えて、トレーニング損失とは関係のない分類タスクにおける本手法の有効性も評価します。結果を以下の表 3 に示します。この論文の方法はすべて SOTA Top-1 の精度を達成しています。

制御変数実験

さらに、標準カプセルのさまざまなコンポーネントがパフォーマンスに与える影響をさらに分析するために、この研究では一連の制御変数実験を実施し、その結果を以下の表 4、表 6、表 7 に示します。

表4: 損失の影響。

表6: 標準記述子の有効性。

表 7: ポイント数によるパフォーマンスへの影響。

<<: 多くの国で人工知能産業が発展を加速している（国際的視点）

>>: 単一のGPUで毎秒30フレームの4Kを実現し、リアルタイムのビデオカットアウトとアップグレードにより髪の毛のディテールを完全に再現します。

ブログ

マルチタスクでSOTA、UBCを実現 Googleなどが3Dポイントクラウド向けの教師なしカプセルネットワークを提案

機械学習で知っておくべき 8 つの次元削減手法、最後の手法は超ハードコアです!

PHP再帰アルゴリズムの詳細な例分析

学生がChatGPTで不正行為をするのを防ぐために、大学の教授たちは紙ベースの試験を復活させたり、口頭試験に切り替えたりし始めている。ネットユーザー：幸いにも私は卒業した

戦闘計画システムにおける人工知能技術の応用に関する研究

驚きですか、それともショックですか?機械学習アルゴリズムの「高エネルギー」な瞬間を評価する

OpenAI、リーダーシップ争いの末に新事業GPTストアを立ち上げ

効率的な整数計画法ソリューション、Kuaishouは多変量因果森林モデルを提案し、インテリジェントなマーケティング効果が顕著です

推薦する

ルカンの弟子の超詳細なメモが公開され、メタワールドモデルが初公開！最初の「ヒューマノイド」モデルはどのようにして生まれたのでしょうか?

カーリー：プロのカーリング選手に匹敵するスポーツロボット

人工知能のこれらの5つのトレンドが世界に影響を与えることは注目に値する。

元Googleロボット部門責任者が伸縮自在のアシスタントロボットを開発

Meta がテキストを音声に変換するオープンソースライブラリ AudioCraft をリリース

AIによるサイバーセキュリティの自動化

AIoT = AI + IoT、舞台裏で誰が誰をもっと必要としているのでしょうか?

2019 年のディープラーニング自然言語処理のトップ 10 開発トレンド

バナナの皮をむくのに9つの手順が必要ですか？ロボットが果肉を傷つけないように、研究者たちは何百本ものバナナの皮をむくのに13時間を費やした。

ビッグデータの時代に、「アルゴリズム崇拝」に陥らないためにはどうすればいいのでしょうか?