表現力豊かな人間の姿勢と形状の推定 (EHPS) の分野では大きな進歩が遂げられていますが、最も先進的な方法は依然として限られたトレーニング データセットによって制限されています。 最近、南洋理工大学のS-Lab、SenseTime、上海人工知能研究所、東京大学、IDEA研究所の研究者らが、人間の全身の姿勢と体型を推定するタスク向けに、初めて大型モーションキャプチャモデルSMPLer-Xを提案した。この研究では、さまざまなデータソースから最大 450 万のインスタンスを使用してモデルをトレーニングし、7 つの主要リストで新たな最高パフォーマンスを達成しました。 SMPLer-X は、一般的なボディ モーション キャプチャに加えて、顔や手の動きを出力したり、体の形状を推定したりすることもできます。 論文リンク: https://arxiv.org/abs/2309.17448 プロジェクトホームページ: https://caizhongang.github.io/projects/SMPLer-X/ SMPLer-X は、大量のデータと大規模なモデルを備え、さまざまなテストやランキングで優れたパフォーマンスを示し、未知の環境でも優れた一般化性を備えています。 1. データ拡張に関しては、研究者らはモデルトレーニングの参考として32個の3D人間データセットを体系的に評価・分析した。 2. モデルのスケーリングに関しては、このタスクでモデルパラメータの数を増やすことでもたらされるパフォーマンスの向上を研究するために、大規模な視覚モデルを使用します。 3. SMPLer-X の一般的な大規模モデルは、微調整戦略を通じて専用の大規模モデルに変換でき、さらなるパフォーマンスの向上を実現できます。 要約すると、SMPLer-X はデータのスケーリングとモデルのスケーリングを調査し (図 1)、32 の学術データセットをランク付けし、450 万のインスタンスのトレーニングを完了し、7 つの主要リスト (AGORA、UBody、EgoBody、EHF など) で新たな最先端のパフォーマンスを確立しました。 図1 データ量とモデルパラメータ数の増加は、主要リスト(AGORA、UBody、EgoBody、3DPW、EHF)の平均主誤差(MPE)の低減に効果的である。 既存の3D人間データセットの一般化に関する研究 研究者らは 32 の学術データセットをランク付けしました。各データセットのパフォーマンスを測定するために、そのデータセットを使用してモデルをトレーニングし、AGORA、UBody、EgoBody、3DPW、EHF の 5 つの評価データセットで評価しました。 異なるデータセット間の比較を簡単にするために、平均一次誤差 (MPE) も表に計算されています。 データセット一般化研究から学んだ教訓 多数のデータセット(図 3)の分析から、次の 4 つの結論を導き出すことができます。 1. 単一データセットのデータ量に関しては、100,000 インスタンスのデータセットをモデルトレーニングに使用することで、高い費用対効果を実現できます。 2. データ収集シナリオに関しては、野外データセットが最も効果的です。屋内でしか収集できない場合は、トレーニング効果を高めるために単一のシナリオを避ける必要があります。 3. データセットの収集に関しては、上位 3 つのデータセットのうち 2 つは生成されたデータセットであり、生成されたデータは近年優れたパフォーマンスを示しています。 4. データセットの注釈に関しては、疑似ラベル付きデータセットもトレーニングにおいて重要な役割を果たします。 大規模なモーションキャプチャモデルのトレーニングと微調整現在の最先端の方法は、通常、少数のデータセット(MSCOCO、MPII、Human3.6M など)のみを使用してトレーニングされますが、この論文では、より多くのデータセットの使用を検討しています。 4 つのデータ サイズが使用され、常にランクの高いデータセットが優先されます。トレーニング セットとして 5、10、20、および 32 のデータセットが使用され、合計サイズは 750,000、150 万、300 万、および 450 万のインスタンスになります。 さらに、研究者らは、一般的な大規模モデルを特定のシナリオに適応させるための低コストの微調整戦略も実証しました。 上記の表には、AGORA テスト セット (表 3)、AGORA 検証セット (表 4)、EHF (表 5)、UBody (表 6)、EgoBody-EgoSet (表 7) など、主なテストの一部が示されています。 さらに、研究者らは、ARCTIC と DNA-Rendering という 2 つのテスト セットでモーション キャプチャの大規模モデルの一般化も評価しました。 研究者たちは、SMPLer-X がアルゴリズム設計を超えたインスピレーションをもたらし、学術界に強力な全身人間モーション キャプチャ モデルを提供することを期待しています。 コードと事前トレーニング済みモデルはオープンソースです。詳細については、プロジェクトのホームページをご覧ください: https://caizhongang.github.io/projects/SMPLer-X/ 結果 |
<<: 北京大学チーム:大規模なモデルで「幻覚」を誘発するために必要なのは、文字化けしたコードの文字列だけです!大きなアルパカも小さなアルパカもすべて影響を受けた
マスク氏はテスラがスマートウォッチやスマートフォンを開発しているという説を否定している。テスラがスマ...
私たちは人工知能の存在に慣れ始めており、生成型人工知能(GenAI)の普及により、人工知能が世界に与...
機械学習と AI タスクの実行方法や環境内でのデータの収集方法に応じて、組織はどの AI ストレージ...
AI音声スタートアップ企業のソナンティックは、オーディオディープフェイクで小さな進歩を遂げ、からかっ...
この分野の専門家は、AI技術が従業員に大きな変化をもたらし、企業のビジネスのやり方を変えていると述べ...
レポート概要BIビジネスインテリジェンスの核心は、意思決定の価値を反映することです。 • 企業のデジ...
荷物が届かず悲しい思いをしたことはありませんか? 荷物が届くまで長い間待たされるのではないかと不安に...
なぜビッグデータは十分にスマートではないのでしょうか?確率の言語よりも強力な思考ツールは何でしょうか...
現在、知能ロボットが急速に発展していますが、機械を知能化するための鍵は実はビッグデータです。ビッグデ...
5G の商用化が近づいており、通信事業者が 5G ベアラ ネットワークを構築するための時間はあまり残...
[[342976]]機械学習は、強力な理論的側面と実践的側面を備えた技術分野です。機械学習関連の仕事...
チャットボットは非常に一般的になったため、消費者はそれを当然のこととして受け止め、オンライン世界のあ...
Microsoft の Copilot は、世界で最も強力な生産性向上ツールの 1 つと言われていま...