ResNetは3Dモデルにも使える。清華大学の「Jitu」チームが新たな研究を開始

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI を使用して 2 次元画像を処理することは、畳み込みニューラルネットワーク (CNN) の基礎と切り離せません。

しかし、CNN は 3 次元モデルに関してはそれほど強力ではありません。

主な理由は、3D モデルは通常、次のようなメッシュデータによって表現されるためです。

これらの三角形には、点、辺、面という 3 つの異なる要素が含まれています。規則的な構造と階層的な表現が欠けているため、常に正方形である CNN では扱いが困難です。

△CNN図、出典：Wikipedia

では、VGG や ResNet のような成熟した使いやすい CNN バックボーンネットワークは、3 次元モデルのディープラーニングには使用できないのでしょうか?

あまり。

最近、清華大学の Jittor チームは、三角形メッシュの面用の畳み込みニューラルネットワークSubdivNet を初めて提案しました。

SubdivNet に基づいて、成熟した画像ネットワークアーキテクチャを 3 次元ジオメトリ学習に移行できます。

さらに、関連する論文やコードもオープンソース化されています。

細分構造に基づくグリッド畳み込みネットワーク

では、SubdivNet はどのようにして 2D と 3D の間の障壁を打ち破るのでしょうか?

具体的には、これはサブディビジョン構造に基づいたグリッド畳み込みネットワークです。

入力メッシュデータに対して、まず再メッシュを実行してサブディビジョン構造を構築し、一般的なメッシュのマルチ解像度表現を取得します。次に、パッチ畳み込み法とアップおよびダウンサンプリング法が注目されます。

パッチ畳み込み法

従来のグリッドディープラーニング手法では、通常、特徴をポイントまたはエッジに保存していましたが、ポイントの次数が固定されておらず、エッジの畳み込みが柔軟ではないという問題が発生しました。

そのため、Ji Tu チームは、各パッチと 3 つの隣接するパッチの規則的な性質を最大限に活用するために、パッチ上のグリッド畳み込み法を提案しました。

さらに、この規則的な特性に基づいて、研究チームはパッチ間の距離に応じてさまざまな畳み込みモードをさらに設計しました。

△kは畳み込みカーネルのサイズ、dは穴の長さ

3次元データ形式におけるパッチの順序は固定されていないため、畳み込み結果を計算する際、SubdivNetは近傍平均、差分平均などを取ることで、計算結果がパッチの順序に依存せず、順列不変性を満たします。

アップダウンサンプリング法

アップサンプリングとダウンサンプリングの部分を見てみましょう。

SubdivNet は、従来のループサブディビジョンサーフェスモデリングにヒントを得て、サブディビジョン構造に基づいてアップサンプリングおよびダウンサンプリングメソッドを構築します。

つまり、プーリング（ダウンサンプリング）処理では、メッシュデータが再グリッド化され、そのファセットが細分化された接続構造を持つため、 4 個を 1 個に変換し、高解像度から低解像度まで、ファセットフィーチャのプーリング操作を実現できます。

アップサンプリング処理中に、顔は4 つの部分に分割されます。

このように、アップサンプリングとダウンサンプリングの方法は規則的かつ均一であり、双線形補間などの要件も達成できます。

パッチ畳み込み法とアップサンプリング法およびダウンサンプリング法を組み合わせることで、VGG、ResNet、DeepLabV3+ などの従来の 2D 畳み込みネットワークを 3D モデルのディープラーニングに簡単に移行できます。

SubdivNet メソッドは、清華大学のディープラーニングフレームワークである Jittor に基づいて実装されていることは注目に値します。その中でも、グラフカウントフレームワークは、追加の C++ コードなしで近傍インデックスを実装できる効率的な再インデックス演算子を提供します。

実験結果

SubdivNetの効果については、実験結果を見てみましょう。

まず、メッシュ分類データセットでは、SubdivNet は SHREC11 および Cube Engraving データセットで初めて100% の分類精度を達成しました。

メッシュセグメンテーションに関しては、定量的な指標では、SubdivNet のセグメンテーション精度は、比較に使用したポイントクラウドおよびメッシュ方式よりも高くなっています。

形状対応実験では、SubdivNet も SOTA レベルに到達しました。

著者について

この論文は、清華大学コンピュータサイエンス学部の胡世民教授のチームによるものです。

著者は胡世民氏と博士課程の学生である劉正寧氏、郭孟浩氏、黄家慧氏ら、およびカーディフ大学のラルフ・マーティン教授です。

同時に、彼らは清華大学の「Jitu」フレームワークチームのメンバーでもあります。

JiTuは中国の大学がオープンソース化した初のディープラーニングフレームワークです。開発チームは清華大学コンピュータサイエンス学部グラフィックス研究室で、責任者は胡世民教授です。

研究室の主な研究分野は、コンピュータグラフィックス、コンピュータビジョン、インテリジェント情報処理、インテリジェントロボット、システムソフトウェアなどです。ACM TOG、IEEE TVCG、IEEE PAMI、ACM SIGGRAPH、IEEE CVPR、IEEE ICRA、USENIX ATCなどの重要な国際ジャーナルに100件以上の論文が掲載されています。

現在、この計画策定の主力となっているのは、梁盾、楊国燁、楊国偉、周文洋、劉正寧、李祥麗、郭夢浩、辛航高を含む研究室の博士課程の学生グループである。

TensorFlow や PyTorch とは異なり、JiGraph はメタ演算子と統合計算グラフを使用して、完全に動的コンパイルに基づいたディープラーニングフレームワークです。

これまで、JiTu は微分可能レンダリングと動的グラフ推論の点で PyTorch を上回っていました。

論文の宛先:
https://arxiv.org/abs/2106.02285

プロジェクトアドレス:
https://github.com/lzhengning/SubdivNet

参考リンク:
https://mp.weixin.qq.com/s/tJjarzqU7MvS_pHWWO3JYQ

<<: 人工知能の今後の発展方向は何でしょうか?

>>: 初期の携帯電話で使用されていたGPRS暗号化アルゴリズムが意図的に弱められていたことが明らかになった。