初のヒューマンモーションキャプチャーモデルをリリース！ SMPLer-X: 7つのチャートを一掃

表現力豊かな人間の姿勢と形状の推定 (EHPS) の分野では大きな進歩が遂げられていますが、最も先進的な方法は依然として限られたトレーニングデータセットによって制限されています。

最近、南洋理工大学のS-Lab、SenseTime、上海人工知能研究所、東京大学、IDEA研究所の研究者らが、人間の全身の姿勢と体型を推定するタスク向けに、初めて大型モーションキャプチャモデルSMPLer-Xを提案した。この研究では、さまざまなデータソースから最大 450 万のインスタンスを使用してモデルをトレーニングし、7 つの主要リストで新たな最高パフォーマンスを達成しました。

SMPLer-X は、一般的なボディモーションキャプチャに加えて、顔や手の動きを出力したり、体の形状を推定したりすることもできます。

論文リンク: https://arxiv.org/abs/2309.17448

プロジェクトホームページ: https://caizhongang.github.io/projects/SMPLer-X/

SMPLer-X は、大量のデータと大規模なモデルを備え、さまざまなテストやランキングで優れたパフォーマンスを示し、未知の環境でも優れた一般化性を備えています。

1. データ拡張に関しては、研究者らはモデルトレーニングの参考として32個の3D人間データセットを体系的に評価・分析した。

2. モデルのスケーリングに関しては、このタスクでモデルパラメータの数を増やすことでもたらされるパフォーマンスの向上を研究するために、大規模な視覚モデルを使用します。

3. SMPLer-X の一般的な大規模モデルは、微調整戦略を通じて専用の大規模モデルに変換でき、さらなるパフォーマンスの向上を実現できます。

要約すると、SMPLer-X はデータのスケーリングとモデルのスケーリングを調査し (図 1)、32 の学術データセットをランク付けし、450 万のインスタンスのトレーニングを完了し、7 つの主要リスト (AGORA、UBody、EgoBody、EHF など) で新たな最先端のパフォーマンスを確立しました。

図1 データ量とモデルパラメータ数の増加は、主要リスト（AGORA、UBody、EgoBody、3DPW、EHF）の平均主誤差（MPE）の低減に効果的である。

既存の3D人間データセットの一般化に関する研究

研究者らは 32 の学術データセットをランク付けしました。各データセットのパフォーマンスを測定するために、そのデータセットを使用してモデルをトレーニングし、AGORA、UBody、EgoBody、3DPW、EHF の 5 つの評価データセットで評価しました。

異なるデータセット間の比較を簡単にするために、平均一次誤差 (MPE) も表に計算されています。

データセット一般化研究から学んだ教訓

多数のデータセット（図 3）の分析から、次の 4 つの結論を導き出すことができます。

1. 単一データセットのデータ量に関しては、100,000 インスタンスのデータセットをモデルトレーニングに使用することで、高い費用対効果を実現できます。

2. データ収集シナリオに関しては、野外データセットが最も効果的です。屋内でしか収集できない場合は、トレーニング効果を高めるために単一のシナリオを避ける必要があります。

3. データセットの収集に関しては、上位 3 つのデータセットのうち 2 つは生成されたデータセットであり、生成されたデータは近年優れたパフォーマンスを示しています。

4. データセットの注釈に関しては、疑似ラベル付きデータセットもトレーニングにおいて重要な役割を果たします。

大規模なモーションキャプチャモデルのトレーニングと微調整

現在の最先端の方法は、通常、少数のデータセット（MSCOCO、MPII、Human3.6M など）のみを使用してトレーニングされますが、この論文では、より多くのデータセットの使用を検討しています。

4 つのデータサイズが使用され、常にランクの高いデータセットが優先されます。トレーニングセットとして 5、10、20、および 32 のデータセットが使用され、合計サイズは 750,000、150 万、300 万、および 450 万のインスタンスになります。

さらに、研究者らは、一般的な大規模モデルを特定のシナリオに適応させるための低コストの微調整戦略も実証しました。

上記の表には、AGORA テストセット (表 3)、AGORA 検証セット (表 4)、EHF (表 5)、UBody (表 6)、EgoBody-EgoSet (表 7) など、主なテストの一部が示されています。

さらに、研究者らは、ARCTIC と DNA-Rendering という 2 つのテストセットでモーションキャプチャの大規模モデルの一般化も評価しました。

研究者たちは、SMPLer-X がアルゴリズム設計を超えたインスピレーションをもたらし、学術界に強力な全身人間モーションキャプチャモデルを提供することを期待しています。

コードと事前トレーニング済みモデルはオープンソースです。詳細については、プロジェクトのホームページをご覧ください: https://caizhongang.github.io/projects/SMPLer-X/

結果

<<: 北京大学チーム：大規模なモデルで「幻覚」を誘発するために必要なのは、文字化けしたコードの文字列だけです！大きなアルパカも小さなアルパカもすべて影響を受けた

>>:

ブログ

携帯電話開発者の年収は153万元、機械学習は最高ではない：IEEEの最新給与レポート

初のヒューマンモーションキャプチャーモデルをリリース！ SMPLer-X: 7つのチャートを一掃

大規模なモーションキャプチャモデルのトレーニングと微調整

結果

ニューラルネットワークの層とノードの数を設定する方法

暗号通貨ボットで利益を上げる方法: トレーディングボットの説明

ベンジオのチームはネイチャー誌に「科学のためのAIの4つの側面」という記事を発表し、国境を越えたAIの核心的な課題についても議論した。

人工知能によりスマートロックが「考える」ことが可能になり、ユーザーの悩みを解決

モデルはわずか7M：軽量で高精度な顔認識方式DBFace

携帯電話開発者の年収は153万元、機械学習は最高ではない：IEEEの最新給与レポート

ガートナーの予測: 2019 年の 7 つの主要な AI テクノロジーのトレンドが数百万の業界に混乱をもたらす!

NVIDIA が Tensor RT-LLM を発表、RTX 搭載 PC プラットフォームで大規模言語モデルを 4 倍高速化

推薦する

AIが労働力に及ぼす可能性のある3つの影響

人工知能は航空宇宙に貢献しており、我が国の有人宇宙計画の宇宙ステーションの軌道上建設ミッションは着実に前進している。

【ディープラーニング連載】畳み込みニューラルネットワークの徹底解説（第2回）～畳み込みニューラルネットワークを手書きで書いてみる～

複数の LLM が連携して機能します。清華大学などがオープンソースのマルチエージェントフレームワークAgentVerseを開発：Minecraftのアイテムを共同で作成し、ポケモンを訓練

Google 数学 AI が Nature に発表: IMO 金メダルの幾何学レベル、定理証明は呉文軍の 1978 年の法則を上回る

アンドロイドが電気羊に乗れるようになりました！世界初の四足ロボット羊：妹は座ると少し震える

人工知能とモノのインターネット：自然災害への新たな対応アプローチ

インテリジェント交通の時代に踏み出すには、これら 3 つのことをうまく行う必要があります。

Midjourney モデルとその他の拡散モデルは、ランダムノイズからどのように画像を生成するのでしょうか?

人工知能が誤って解釈する画像とはどのようなものでしょうか?

人工知能は人間の文化を継承するが、人間の偏見も受け継いでいる