これは、3D ポイント クラウド用に提案された教師なしカプセル アーキテクチャであり、3D ポイント クラウドの再構築、登録、教師なし分類において SOTA 方式よりも優れています。 物体を理解することは、コンピューター ビジョンにおける中心的な問題の 1 つです。オブジェクト理解タスクの従来の方法では、大規模な注釈付きデータセットに依存できますが、教師なし手法ではラベルが不要になります。最近、研究者たちはこれらの方法を 3D ポイント クラウドに拡張しようと試みましたが、教師なし 3D 学習の分野ではほとんど進歩がありませんでした。 最近、ブリティッシュコロンビア大学、Google Research、トロント大学のWeiwei Sun、Andrea Tagliasacchi、Geoffrey Hintonなどの研究者が、3Dポイントクラウド用の教師なしカプセルネットワークを提案しました。ヒントン氏は次のように語った。「物体の自然な構成要素と、これらの構成要素の固有の参照フレームを教師なしの方法で見つけることは、解析された画像を局所的かつ全体的な階層構造に変換することを学習する上で重要なステップです。」ポイントクラウドから始めれば、それは可能です。 具体的には、順列同変注意を介してオブジェクトのカプセル分解を計算し、ランダムに回転したオブジェクトのペアをトレーニングすることでプロセスを自己監視します。この研究の中心的なアイデアは、アテンションマスクを意味的なキーポイントに集約し、それを使用してカプセル不変性または同値性を満たす分解を監視することです。これにより、意味的に一貫した分解のトレーニングが可能になるだけでなく、オブジェクト中心の推論のための通常の操作も学習できるようになります。この場合、トレーニングには分類ラベルも手動で調整されたトレーニング データセットも必要ありません。 最後に、オブジェクト中心の表現を教師なし学習することで、私たちの方法は、3D ポイント クラウドの再構築、登録、教師なし分類において SOTA 方法よりも優れています。研究者らはソースコードとデータセットを近日中に公開する予定だと述べた。 論文リンク: https://arxiv.org/abs/2012.04718 プロジェクトのホームページ: https://canonical-capsules.github.io/ 方法 ネットワークは、以下の図 2 に示すように、整列していないポイント クラウドでトレーニングされます。研究者は、ポイント クラウドを複数のコンポーネントに分解するネットワークをトレーニングし、Siamese トレーニング設定を通じて不変性/等分散性を実現しました。 次に、ポイント クラウドを学習した参照フレームに正規化し、その座標空間で自動エンコーディングを実行します。 損失 教師なし手法では一般的ですが、私たちのフレームワークは、フォーカス マップが表現で取得するさまざまな機能を制御する多数の損失に依存しています。これらの損失はすべて教師なしであり、ラベルを必要としないことに注意してください。研究者たちは、分解、正規化、再構築など、監視するネットワークの部分に応じて損失を整理した。 ネットワークアーキテクチャ 研究者らは、ネットワーク アーキテクチャを含む実装の詳細を簡単に紹介します。
実験と結果 自動エンコード 研究者らは、ネットワーク タスク (再構築/オート エンコード) のトレーニングに対するアプローチのパフォーマンスを、2 つのトレーニング ベースライン (単一クラスと複数クラスの両方のバリエーションでトレーニング) と比較して評価しました。 AtlasNetV2 [13]は、パッチベースのマルチヘッドデコーダを使用した最先端のオートエンコーダである。 3D-PointCapsNet [58]は、カプセルアーキテクチャを使用した3Dポイントクラウドオートエンコーダです。 以下の表 1 は定量分析の結果を示しています。私たちの方法は、整列設定と非整列設定の両方で SOTA パフォーマンス結果を達成しています。 下の図3は定性分析の結果です。研究者らは、分解ベースの3D点群再構成法と3D-PointCapsNet [58]およびAtlasNetV2 [13]の再構成結果を提示した。 登録 研究者らは、3D ポイント クラウドを登録する能力の観点からこの方法のパフォーマンスを評価し、次の 3 つの基準と比較しました。
この研究で採用されたRRIアプローチの変形が使用され、RRI特徴[6]がアーキテクチャへの唯一の入力として使用されます。この論文で RRI 機能を使用する方法は、DeepGMR トレーニング プロトコルに従い、100 サイクルにわたってトレーニングを行いますが、DCP と DeepGMR については、この研究では元の著者の公式実装を使用します。定量分析の結果は以下の表2に示されています。 教師なし分類 本研究では、トレーニング損失に直接関連するタスクである再構成と登録に加えて、トレーニング損失とは関係のない分類タスクにおける本手法の有効性も評価します。結果を以下の表 3 に示します。この論文の方法はすべて SOTA Top-1 の精度を達成しています。 制御変数実験 さらに、標準カプセルのさまざまなコンポーネントがパフォーマンスに与える影響をさらに分析するために、この研究では一連の制御変数実験を実施し、その結果を以下の表 4、表 6、表 7 に示します。 表4: 損失の影響。 表6: 標準記述子の有効性。 表 7: ポイント数によるパフォーマンスへの影響。 |
<<: 多くの国で人工知能産業が発展を加速している(国際的視点)
>>: 単一のGPUで毎秒30フレームの4Kを実現し、リアルタイムのビデオカットアウトとアップグレードにより髪の毛のディテールを完全に再現します。
現在、メタバースのトレンドの下、AIデジタルヒューマンもエンターテインメント、サービス、教育、マーケ...
医用画像診断における人工知能(AI)の応用は大きな進歩を遂げました。しかし、厳密なテストがなければ、...
[[335519]]感染症流行後も実体経済は厳しい状況が続いている。生産停止、収益の急激な減少、資...
[[211551]]機械学習と人工知能は、過去数年間で精度において驚異的な進歩を遂げました。 しか...
英国のメディア組織Tortoise Mediaは最近、2023年の世界AI指数ランキングを発表しまし...
ガートナーによれば、2023年までにプライバシーコンプライアンス技術の40%以上が人工知能(AI)に...
[[427508]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
最近、主要プラットフォームのホームページには、生地をこねる、餡を作る、型から外す、焼くまで、月餅を作...
最近、ViT はコンピューター ビジョンの分野で強力な競争力を発揮し、複数のタスクで驚くべき進歩を遂...
[[265994]]最近、国際人工知能教育会議、第3回世界知能会議が相次いで開催され、さまざまなA...
この記事では、機械学習の知識を広め、機械学習で何ができるのか、どのように行うのかを簡単に紹介します。...