ResNetは3Dモデルにも使える。清華大学の「Jitu」チームが新たな研究を開始

ResNetは3Dモデルにも使える。清華大学の「Jitu」チームが新たな研究を開始

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI を使用して 2 次元画像を処理することは、畳み込みニューラル ネットワーク (CNN) の基礎と切り離せません。

しかし、CNN は 3 次元モデルに関してはそれほど強力ではありません。

主な理由は、3D モデルは通常、次のようなメッシュ データによって表現されるためです。

これらの三角形には、点、辺、面という 3 つの異なる要素が含まれています。規則的な構造と階層的な表現が欠けているため、常に正方形である CNN では扱いが困難です。

△CNN図、出典:Wikipedia

では、VGG や ResNet のような成熟した使いやすい CNN バックボーン ネットワークは、3 次元モデルのディープラーニングには使用できないのでしょうか?

あまり。

最近、清華大学の Jittor チームは、三角形メッシュの面用の畳み込みニューラル ネットワークSubdivNet を初めて提案しました。

SubdivNet に基づいて、成熟した画像ネットワーク アーキテクチャを 3 次元ジオメトリ学習に移行できます。

さらに、関連する論文やコードもオープンソース化されています。

細分構造に基づくグリッド畳み込みネットワーク

では、SubdivNet はどのようにして 2D と 3D の間の障壁を打ち破るのでしょうか?

具体的には、これはサブディビジョン構造に基づいたグリッド畳み込みネットワークです。

入力メッシュデータに対して、まず再メッシュを実行してサブディビジョン構造を構築し、一般的なメッシュのマルチ解像度表現を取得します。次に、パッチ畳み込み法アップおよびダウンサンプリング法が注目されます。

パッチ畳み込み法

従来のグリッド ディープラーニング手法では、通常、特徴をポイントまたはエッジに保存していましたが、ポイントの次数が固定されておらず、エッジの畳み込みが柔軟ではないという問題が発生しました。

そのため、Ji Tu チームは、各パッチと 3 つの隣接するパッチの規則的な性質を最大限に活用するために、パッチ上のグリッド畳み込み法を提案しました。

さらに、この規則的な特性に基づいて、研究チームはパッチ間の距離に応じてさまざまな畳み込みモードをさらに設計しました。

△kは畳み込みカーネルのサイズ、dは穴の長さ

3次元データ形式におけるパッチの順序は固定されていないため、畳み込み結果を計算する際、SubdivNetは近傍平均、差分平均などを取ることで、計算結果がパッチの順序に依存せず、順列不変性を満たします。

アップダウンサンプリング法

アップサンプリングとダウンサンプリングの部分を見てみましょう。

SubdivNet は、従来のループ サブディビジョン サーフェス モデリングにヒントを得て、サブディビジョン構造に基づいてアップサンプリングおよびダウンサンプリング メソッドを構築します。

つまり、プーリング(ダウンサンプリング)処理では、メッシュデータが再グリッド化され、そのファセットが細分化された接続構造を持つため、 4 個を 1 個に変換し、高解像度から低解像度まで、ファセット フィーチャのプーリング操作を実現できます。

アップサンプリング処理中に、顔は4 つの部分に分割されます

このように、アップサンプリングとダウンサンプリングの方法は規則的かつ均一であり、双線形補間などの要件も達成できます。

パッチ畳み込み法とアップサンプリング法およびダウンサンプリング法を組み合わせることで、VGG、ResNet、DeepLabV3+ などの従来の 2D 畳み込みネットワークを 3D モデルのディープラーニングに簡単に移行できます。

SubdivNet メソッドは、清華大学のディープラーニングフレームワークである Jittor に基づいて実装されていることは注目に値します。その中でも、グラフ カウント フレームワークは、追加の C++ コードなしで近傍インデックスを実装できる効率的な再インデックス演算子を提供します。

実験結果

SubdivNetの効果については、実験結果を見てみましょう。

まず、メッシュ分類データセットでは、SubdivNet は SHREC11 および Cube Engraving データセットで初めて100% の分類精度を達成しました。

メッシュセグメンテーションに関しては、定量的な指標では、SubdivNet のセグメンテーション精度は、比較に使用したポイントクラウドおよびメッシュ方式よりも高くなっています。

形状対応実験では、SubdivNet も SOTA レベルに到達しました。

著者について

この論文は、清華大学コンピュータサイエンス学部の胡世民教授のチームによるものです。

著者は胡世民氏と博士課程の学生である劉正寧氏、郭孟浩氏、黄家慧氏ら、およびカーディフ大学のラルフ・マーティン教授です。

同時に、彼らは清華大学の「Jitu」フレームワークチームのメンバーでもあります。

JiTuは中国の大学がオープンソース化した初のディープラーニングフレームワークです。開発チームは清華大学コンピュータサイエンス学部グラフィックス研究室で、責任者は胡世民教授です。

研究室の主な研究分野は、コンピュータグラフィックス、コンピュータビジョン、インテリジェント情報処理、インテリジェントロボット、システムソフトウェアなどです。ACM TOG、IEEE TVCG、IEEE PAMI、ACM SIGGRAPH、IEEE CVPR、IEEE ICRA、USENIX ATCなどの重要な国際ジャーナルに100件以上の論文が掲載されています。

現在、この計画策定の主力となっているのは、梁盾、楊国燁、楊国偉、周文洋、劉正寧、李祥麗、郭夢浩、辛航高を含む研究室の博士課程の学生グループである。

TensorFlow や PyTorch とは異なり、JiGraph はメタ演算子と統合計算グラフを使用して、完全に動的コンパイルに基づいたディープラーニング フレームワークです。

これまで、JiTu は微分可能レンダリングと動的グラフ推論の点で PyTorch を上回っていました。

論文の宛先:
https://arxiv.org/abs/2106.02285

プロジェクトアドレス:
https://github.com/lzhengning/SubdivNet

参考リンク:
https://mp.weixin.qq.com/s/tJjarzqU7MvS_pHWWO3JYQ

<<:  人工知能の今後の発展方向は何でしょうか?

>>:  初期の携帯電話で使用されていたGPRS暗号化アルゴリズムが意図的に弱められていたことが明らかになった。

ブログ    
ブログ    

推薦する

女の子があなたを好きかどうか知りたいですか?ハーバード大学の10代のAIがチャット記録に基づいて恋愛の確率を計算

[[279803]] △『小林さんちのメイドラゴン』よりこの記事はAI新メディアQuantum Bi...

マーケティングにおける人工知能の 4 つの実際の応用

人工知能 (AI) は誕生以来長い道のりを歩み、大きな進歩を遂げています。これは、Amazon や ...

「顔認識」は「性格認識」を生み出しました。テクノロジーが善のために使われるようになるまでにはどれくらい時間がかかるのでしょうか?

最近、顔認識の新技術に関する記事が科学誌「サイエンティフィック・リポーツ」に掲載された。ロシアの研究...

TikTok本社は米国に残り、ByteDanceが管理権とコアアルゴリズムを保持する

事情に詳しい関係者らは、米政府に提出した提案に基づき、バイトダンスがティックトックの本社を米国内に維...

機械学習における分類タスクの共通評価指標とPythonコード実装

データ ポイントを特定の数の定義済みクラスに分類するように ML モデルをトレーニングすることがタス...

...

エッジコンピューティングとエッジ AI とは何ですか?この2つの違いは何でしょうか?

AIチップはクラウドとエッジに分かれています。クラウドチップは高いパフォーマンスが求められますが、...

人工知能サイバーセキュリティの市場価値は2030年までに1018億ドルに達する

[[418355]]調査会社Research And Marketsの最新レポートによると、人工知能...

蘇州の路上には自動運転バスが走っている。これは試験運行ではない。市民は無料で乗車できる。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

プロセス産業におけるグリーン製造における人工知能の機会と課題

1. はじめにプロセス産業は原材料産業の一分野であり、国民経済にとって大きな意義を持っています。数十...

OpenAI GPTストアは来週開始予定

OpenAI は 2024 年に出発する準備が整っているようです。 ChatGPT の背後にある会社...

行列分解はディープラーニングに勝る! MIT が時系列データベース tspDB をリリース: 機械学習に SQL を使用

人類が歴史から学んだ唯一の教訓は、人類は歴史から何も学べないということだ。 「しかし、機械は学習でき...

ビッグニュース!アリババの音声認識モデルのコア技術により、未来を「聞く」ことができる

[[255840]] Ali Sister の紹介: 音声認識技術は人工知能技術の重要な部分として、...

...

...