複数人の3D姿勢を正確かつ効率的に推定、Meitu Beihang分散知覚シングルステージモデルがCVPRに採用

複数人の3D姿勢を正確かつ効率的に推定、Meitu Beihang分散知覚シングルステージモデルがCVPRに採用

最近、トップコンピュータビジョンカンファレンスCVPR 2022がカンファレンスの参加結果を発表し、Meitu Imaging Research Institute(MT Lab)と北京航空航天大学のCoLabが共同で発表した論文が採択されました。この論文では、複数人の 3D 人間の姿勢推定という非常に困難な問題を解決するための画期的な分布を考慮したシングルステージ モデルを提案します。この方法は、単一のネットワーク順方向推論を通じて、人体の位置情報と 3D 空間内の対応するキーポイント情報を同時に取得し、予測プロセスを簡素化して効率を向上させます。さらに、この方法は人間のキーポイントの真の分布を効果的に学習し、それによって回帰ベースのフレームワークの精度を向上させます。

複数人の 3D 人間姿勢推定は現在注目されている研究テーマであり、幅広い応用の可能性を秘めています。コンピュータビジョンでは、単一の RGB 画像に基づく複数人物の 3D 人物姿勢推定の問題は、通常、トップダウンまたはボトムアップの 2 段階アプローチによって解決されます。ただし、2 段階アプローチでは、多くの冗長な計算と複雑な後処理が必要となり、効率が低いことが批判されてきました。さらに、既存の方法では人間の姿勢データの分布に関する知識が不足しているため、2D 画像を 3D 位置に変換するという病的な問題を正確に解決できません。上記の 2 つの点により、実際のシナリオでの既存の方法の適用が制限されます。

CVPR 2022でMeitu Imaging Research Institute(MT Lab)と北京航空航天大学のCoLabが発表した論文では、分散認識型シングルステージモデルが提案され、それを使用して単一のRGB画像から3Dカメラ空間内の複数人の人間のポーズを推定しました

この手法は、3D 人物姿勢を 2.5D 人物中心点と 3D キーポイントオフセットとして表現し、画像空間の深度推定に適応します。同時に、この表現により人物位置情報と対応するキーポイント情報が統合され、単一段階での複数人物 3D 姿勢推定が可能になります。

論文アドレス: https://arxiv.org/abs/2203.07697

さらに、この方法では、モデル最適化プロセス中に人体のキーポイントの分布を学習し、キーポイント位置の回帰予測に重要なガイド情報を提供するため、回帰ベースのフレームワークの精度が向上します。この分布学習モジュールは、トレーニング中に最大尤度推定を通じて姿勢推定モジュールと一緒に学習できます。このモジュールはテスト中に削除され、モデル推論計算の量を増加させません。人間のキーポイントの分布を学習する難しさを軽減するために、この方法では、目標分布に徐々に近づくための反復更新戦略を革新的に提案します

モデルは完全な畳み込み方式で実装されており、エンドツーエンドでトレーニングおよびテストできます。このようにして、アルゴリズムは複数人の 3D 人間の姿勢推定の問題を効果的かつ正確に解決し、速度を大幅に向上させながら 2 段階方式に近い精度を達成できます

背景

複数人の 3D 人間の姿勢推定は、コンピューター ビジョンにおける古典的な問題です。AR/VR、ゲーム、動作分析、仮想フィッティングなどで広く使用されています。近年、メタバースの概念の台頭により、この技術は大きな注目を集めています。現在、この問題を解決するために、通常、2 段階のアプローチが使用されています。1つはトップダウン アプローチで、最初に画像内の複数の人体の位置を検出し、次に単一人物の 3D ポーズ推定モデルを使用して検出された各人物のポーズを予測します。もう 1 つはボトムアップ アプローチで、最初に画像内のすべての人物の 3D キー ポイントを検出し、次に相関関係を通じてこれらのキー ポイントを対応する人体に割り当てられます。

2 段階方式は精度は高いものの、人体の位置情報とキーポイントの位置情報を順に取得するために冗長な計算と複雑な後処理が必要であり、実際のシナリオの展開要件を満たすのが困難です。そのため、複数人の 3D 姿勢推定アルゴリズム プロセスを簡素化する必要があります。

一方、単一の RGB 画像から 3D キーポイントの位置、特に深度情報を推定することは、データ分布に関する事前知識がない場合には不適切な問題となります。このため、2Dシーンに適用された従来のシングルステージモデルを3Dシーンに直接拡張することは不可能であり、3Dキーポイントのデータ分布を学習して取得することが、高精度な複数人物の3D人物姿勢推定の鍵となります

上記の問題を克服するために、本論文では、単一の画像に基づく複数人物の 3D 人間姿勢推定の病的な問題を解決するための分布を考慮したシングルステージモデル (DAS)を提案します。 DAS モデルは、3D の人間の姿勢を 2.5D の人間の中心点と 3D の人間のキー ポイントのオフセットとして表現します。この表現は、RGB 画像ドメインに基づいて深度情報の予測を効果的に適応させます。同時に、人体の位置情報とキーポイントの位置情報も統合し、単眼画像に基づく一段階の多人物3D姿勢推定手法も可能になりました。

さらに、DAS モデルは最適化プロセス中に 3D キー ポイントの分布を学習し、3D キー ポイントの回帰に貴重なガイド情報を提供するため、予測精度が効果的に向上します。さらに、キーポイント分布推定の難しさを軽減するために、DAS モデルは反復更新戦略を採用し、徐々に真の分布ターゲットに近づきます。このようにして、DAS モデルは単眼 RGB 画像から一度に複数人の 3D 人間姿勢推定結果を効率的かつ正確に取得できます。

単一ステージの複数人物3D姿勢推定モデル

実装の面では、DAS モデルは回帰予測フレームワークに基づいて構築されています。DAS モデルは、特定の画像に対して、前方予測を通じて画像に含まれる人物の 3D 姿勢を出力します。 DAS モデルは、図 1 (a) と (b) に示すように、人体の中心点を中心点信頼マップと中心点座標マップの 2 つの部分で表します。

このうち、DAS モデルは、中心点信頼マップを使用して、2D 画像座標系における人体投影の中心点の位置を特定し、中心点座標マップを使用して、3D カメラ座標系における人体の中心点の絶対位置を予測します。 DAS モデルは、図 1 (c) に示すように、人体のキーポイントをキーポイント オフセット マップとしてモデル化します。

図 1: 複数人の 3D 人間の姿勢推定のための分散対応シングルステージ モデルのフローチャート。

DAS モデルは、中心点信頼マップをバイナリ マップとしてモデル化します。各ピクセルは、人体の中心点がその場所に現れるかどうかを示します。現れる場合は 1、そうでない場合は 0 です。 DAS モデルは、中心点の座標マップを密なグラフとしてモデル化します。グラフ内の各ピクセルは、その場所に現れる人物の中心の x、y、z 方向の座標をエンコードします。キー ポイント オフセット マップは、中心点座標マップと同様の方法でモデル化されます。マップ内の各ピクセルは、人体の中心点を基準とした、その位置に表示される人体のキー ポイントの x、y、z 方向のオフセットをエンコードします。 DAS モデルは、ネットワーク転送プロセス中に上記の 3 つの情報グラフを並列に出力できるため、冗長な計算を回避できます。

さらに、DAS モデルは、これら 3 つの情報グラフを使用して、複数の人の 3D 姿勢を簡単に再構築できるため、複雑な後処理を回避できます。2 段階の方法と比較して、このようなコンパクトでシンプルな 1 段階モデル​​は、より優れた効率を実現できます

分布を考慮した学習モデル

回帰予測フレームワークの最適化については、既存の研究ではほとんどが従来のL1またはL2損失関数を使用しています。しかし、研究によると、このタイプの教師ありトレーニングは、実際には人体の重要なポイントのデータ分布がラプラス分布またはガウス分布を満たすという仮定に基づくモデル最適化であることがわかっています[12]。しかし、実際の場面では、人体の重要なポイントの実際の分布は非常に複雑であり、上記の単純な仮定は実際の分布とはかけ離れています。

既存の方法とは異なり、 DAS モデルは最適化プロセス中に 3D 人間のキーポイントの実際の分布を学習し、キーポイント回帰予測プロセスをガイドします。真の分布を追跡できないという問題を考慮して、DAS モデルは正規化フローを使用して、モデル予測結果の確率を推定し、モデル出力に適した分布を生成するという目標を達成します (図 2 を参照)。

図 2: 正規化されたフロー。

分布認識モジュールは、トレーニングプロセス中に最大尤度推定法を通じてキーポイント予測モジュールと一緒に学習できます。学習が完了すると、分布認識モジュールは予測プロセス中に削除されます。このような分布認識アルゴリズムは、追加の計算量を増やすことなく、回帰予測モデルの精度を向上させることができます。

また、人物キーポイントの予測に用いられる特徴は、人体の中心点から抽出されますが、この特徴は中心点から離れた人物キーポイントの表現能力が弱く、対象との空間的な不整合により大きな予測誤差が生じます。この問題を緩和するために、アルゴリズムは反復更新戦略を提案します。これは、図 3 に示すように、過去の更新結果を開始点として使用し、中間結果に近い予測値を統合して、最終目標に徐々に近づくものです。

図 3: 反復最適化戦略。

アルゴリズム モデルは完全畳み込みネットワーク (FCN) を通じて実装され、図 4 に示すように、トレーニング プロセスとテスト プロセスの両方をエンドツーエンドで実行できます。

図 4: 分散対応型シングルステージ多人数 3D 人間姿勢推定ネットワーク構造。

実験結果によると、図 5 に示すように、シングル ステージ アルゴリズムは、既存の最先端の 2 ステージ メソッドに近いか、それ以上の精度を達成でき、速度も大幅に向上し、複数人の 3D 人間の姿勢推定の問題を解決する上での優位性が証明されています。

図 5: 既存の SOTA 2 段階アルゴリズムとの比較結果。

詳細な実験結果は表1と表2に示されています。

表 1: CMU Panoptic Studio データセットの結果の比較。

表 2: MuPoTS-3D データセットの結果の比較。

図 6 に示すように、単一ステージ アルゴリズムの視覚化結果によると、アルゴリズムは姿勢の変化、人体の切断、雑然とした背景などのさまざまなシナリオに適応して正確な予測結果を生成でき、アルゴリズムの堅牢性がさらに示されます。

図6: 視覚化結果。

要約する

この論文では、Meitu と北京航空航天大学の研究者が、複数人の 3D 人間の姿勢推定という極めて困難な問題を解決するために、分散対応のシングルステージ モデルを革新的に提案しました。このモデルは、既存のトップダウンとボトムアップの2段階モデル​​と比較して、単一のネットワーク順方向推論を通じて人体の位置情報と対応する人体のキーポイント位置情報を同時に取得できるため、予測プロセスを効果的に簡素化し、計算コストが高く、モデルの複雑さが高いという既存の方法の欠点を克服します。

さらに、この方法は、正規化フローを複数人の 3D 人間の姿勢推定タスクに導入して、トレーニング プロセス中に人間のキー ポイントの分布を学習することに成功し、分布学習の難しさを軽減して目標に徐々に近づくという目的を達成するための反復回帰戦略を提案しています。このようにして、アルゴリズムはデータの真の分布を取得し、モデルの回帰予測精度を効果的に向上させることができます。

研究チーム

この論文は、Meitu Imaging Research Institute (MT Lab) と北京航空航天大学の CoLab の研究者によって共同で提案されました。 Meitu Imaging Research Institute (MT Lab) は、Meitu Inc. のチームであり、コンピューター ビジョン、機械学習、拡張現実、クラウド コンピューティングの分野でアルゴリズムの研究、エンジニアリング開発、製品実装に取り​​組んでいます。Meitu の既存および将来の製品にコア アルゴリズムのサポートを提供し、最先端技術を通じて Meitu 製品の開発を促進しています。「Meitu Technology Center」として知られる MT Lab は、CVPR、ICCV、ECCV などのトップクラスの国際コンピューター ビジョン カンファレンスに参加し、10 回以上の優勝と準優勝を獲得しています。

参考文献:

[1] JP Agnelli、M Cadeiras、Esteban G Tabak、Cristina Vilma Turner、Eric Vanden-Eijnden。「特徴空間におけるフローの正規化によるクラスタリングと分類」。マルチスケールモデリング&シミュレーション、2010年。

[12] Jiefeng Li、Siyuan Bian、Ailing Zeng、Can Wang、Bo Pang、Wentao Liu、Cewu Lu。残差対数尤度推定による人間のポーズ回帰。ICCV、2021年。

[15] Jiahao LinとGim Hee Lee。Hdnet:複数人のカメラ空間位置推定のための人間の奥行き推定。ECCV、2020年。

[47] Jianan Zhen、Qi Fang、Jiaming Sun、Wentao Liu、Wei Jiang、Hujun Bao、Xiaowei Zhou。Smap:シングルショットマルチパーソン絶対3Dポーズ推定。ECCV、2020年。

[48] ​​Xingyi Zhou、Dequan Wang、およびPhilipp Kra ̈henbu ̈hl。点としてのオブジェクト。arXivプレプリントarXiv:1904.07850、2019年。

<<:  1 つの記事で機械学習を理解する: 基本概念、5 つの主要な流派、9 つの一般的なアルゴリズム

>>:  自動運転トラックはレベル4を達成する可能性が最も高いが、自動運転車は2022年まで待たなければならない

ブログ    

推薦する

転移学習により、ディープラーニングは難しくなくなりました...

それほど遠くない過去には、データ サイエンス チームがディープラーニングを効果的に活用するには、いく...

ロボットが石油・ガス生産をより安全にする方法

石油とガスの生産は世界で最も危険な仕事の一つです。石油掘削、掘削作業、保守テストなどの作業により、毎...

プラグアンドプレイ、完璧な互換性:SDコミュニティのビデオプラグインI2Vアダプタが登場

画像からビデオへの生成 (I2V) タスクは、静止画像を動的なビデオに変換することを目的としており、...

9つの主要テーマ!機械学習アルゴリズム理論に関する面接の質問の要約

[[342976]]機械学習は、強力な理論的側面と実践的側面を備えた技術分野です。機械学習関連の仕事...

Google が 11 の言語をカバーする TyDi QA コーパスをリリース

[[315942]]多言語の質問応答技術の研究を促進するために、Google は 11 種類の言語を...

アルゴリズム: Javascript をエレガントに使用して構造ツリーを再帰的に描画する方法

[[376839]]再帰と末尾再帰簡単に言えば、再帰とは関数が自分自身を呼び出すことです。プログラミ...

数独問題を解くには人工知能や量子コンピューティングを使うべきでしょうか?

楽しいボードゲームとして誕生してから 100 年経った今、数独はどのようにして計算研究の焦点となった...

自動化ロボットのHMI設計の詳細な説明

[[260977]] [51CTO.com クイック翻訳] ロボットの操作インターフェースをカスタマ...

テクノロジーフロンティア | 昆虫はIoT AIの未来となるか?

研究者たちは、特定の昆虫の神経系の機能が、決定論的、確率的、揮発性、不揮発性メモリの機能とどのように...

...

STLコンポーネントアルゴリズム

STL は、OOP と従来のプログラミングの両方で使用できる多数のテンプレート クラスと関数を提供し...

AI、IoT、ビッグデータでミツバチを救う方法

現代の農業はミツバチに依存しています。私たちが食べる食物や呼吸する空気を含む生態系のほぼ全体が、花粉...

...

Analysys OLAP アルゴリズム コンペティションの結果が発表され、オープン ソース グループのダーク ホースがその腕前を披露しました。

100日間以上にわたる激しい競争では、国内トップクラスのテクノロジー企業40社以上が競い合い、競争...