人間の姿勢評価技術の開発と実装

人間の姿勢評価技術の開発と実装

[51CTO.com クイック翻訳]関連調査レポートによると、デジタルフィットネス市場の規模は2022年までに274億米ドルに達すると予想されています。フィットネス トレーナーに代わるテクノロジーがあると誰かが言ったら、それは 3D Human Pose Estimation テクノロジーを指しているに違いありません。デジタルフィットネスにおける比較的新しいが急速に成長している技術として、ユーザーが入力した身体運動ビデオを使用して、さまざまなスポーツパラメータ指標を自動的に分析できます。以下では、私自身の実装経験に基づいて、AI フィットネス分野向けの 3D 人間ポーズ推定アプリケーションを開発および実装する方法について説明します。

人間の姿勢推定とは何ですか?

コンピュータビジョンをベースとした技術である人間の姿勢推定は、人体モデリングを通じてさまざまな人間の動きや姿勢を検出し、分析することができます。このタイプのテクノロジーには通常、次の 3 つの人間モデルが含まれます。

  • スケルトンベースのモデル - 足首、膝、肩、肘、手首、手足のポーズなどの関節 (キーポイント) のセットで構成されます。これらが人体の骨格構造を構成します。このようなモデルは柔軟性があるため、2D と 3D の両方の人間の姿勢推定技術で使用できます。
  • シルエットベースのモデル - 人間の胴体と手足の大まかな幅で構成され、体の部分はアウトラインの境界と長方形としてレンダリングされます。
  • ボリュームベースのモデル - 3D の人間の形状とポーズで構成されます。これらのポーズは、幾何学的なメッシュと形状を持つボリューム モデルを使用して 3D スキャンによってキャプチャされます。

出典 – https://arxiv.org/pdf/2006.01423.pdf

以下では、主に 2D または 3D の視点から検出されたスケルトンベースのモデルについて説明します。そのうち、2D 姿勢推定の検出と分析は、RGB 画像内の人体の関節の X、Y 座標に基づいて行われ、3D 姿勢推定では、X、Y、Z 座標を検出して分析します。通常、フィットネス アプリケーションでは、スポーツ中の人間の姿勢をより正確に分析するために 3D 推定を使用するのが最適です。したがって、AI フィットネス コーチ アプリの基本的なプロセスは次のようになります。

1. 練習中のユーザーの動きをキャプチャする

2. スポーツパフォーマンスの正確性を分析する

3. ユーザーインターフェースにエラーを表示する

次に、3D 人間姿勢推定技術が人体の重要なポイントをどのように検出するかについて説明します。

上図に示すように、このプロセスではまず人体の関節を抽出し、次にディープラーニングアルゴリズムを通じて人体の姿勢を分析します。人間の姿勢推定システムがビデオ録画をデータ ソースとして使用する場合、より高い精度を実現するために、単一の安定した姿勢画像ではなく、実際の動きの一連のフレームからキー ポイント (つまり、関節の位置) を検出する必要があります。

3D 人間の姿勢推定システムを開発する方法は多数ありますが、最も一般的な方法は、特定の画像/フレームから 3D または 2D のキーポイントを抽出するためにディープラーニング モデルをトレーニングすることです。次のビデオを、時空間畳み込みを備えた畳み込みニューラル ネットワーク (CNN) を使用して分析します。

ソース – https://github.com/facebookresearch/VideoPose3D/blob/master/images/convolutions_anim.gif

既存のモデルを分析した結果、VideoPose3D がフィットネス アプリケーションに適した選択肢であることがわかりました。入力から事前トレーニング済みの 2D 検出器として COCO 2017 データセットを使用して、2D キーポイントのセットを検出できます。同時に、特定の関節の位置を正確に予測するために、異なる期間に撮影された複数のフレームからの視覚データを処理します。

AIフィットネスコーチアプリで人間の姿勢評価を使用する方法

私たちの目標は、システムが特定の入力ビデオを検査して、一般的なモーションエラーがあるかどうかを検出できるようにすることだとします。つまり、アプリは入力ビデオを、同じ動きを披露するプロのアスリートの参照ビデオと比較する必要があります。次に、具体的な処理フローについて説明します。

1. アクションの開始と終了に合わせて入力ビデオをカットする

開始点と終了点の注釈については、任意のしきい値を使用して、ボディ制御点の位置を自動的に検出できます。たとえば、スクワットのときに、腕の角度と手の高さの位置を検出し、任意のしきい値を使用して、キャプチャされた運動の開始点と終了点を比較できます (下の図を参照)。

ビデオソース – https://www.youtube.com/watch?v=M-qAx0yGK9w

もちろん、別のアプローチを使用することもできます。つまり、ユーザーにアクションの開始と終了を意図的に示すように依頼することです。

2. ユーザーの体の2Dおよび3Dのキーポイントを検出する

上記で検出された開始点と終了点に基づいて、アルゴリズムはそれらを 2D および 3D キー ポイントに自動的に変換します。

3. 練習段階の分解

キーポイント(関節)の位置を抽出する際には、参照ビデオの位置と比較する必要があります。ユーザーの実際の移動速度は、参考動画のプロアスリートの移動速度とは異なるため、直接比較することはできません。

これらの違いに対処するには、演習を段階的に分割します。下の図に示すように、スクワット運動は、しゃがむ段階と立ち上がる段階の 2 つの主要な段階に分けられます。

出典 – stronglifts.c​​om

次に、入力ビデオから検出されたキーポイントをフレームごとに分析し、モーション基準を使用して参照ビデオのキーポイントと 1 つずつ比較して、分解を完了します。

4. よくあるエラーを検索する

3D キーポイントの検出と練習フェーズの分解が完了すると、入力ビデオ内の練習動作における一般的なミスを検出できます。下の図に示すように、ユーザーがしゃがむと、脚がまっすぐに伸びるのではなく、外側に曲がっていることが検出されます。また、膝は足よりも胴体に近くなる必要があります。

ビデオソース – https://www.youtube.com/watch?v=W73Mc0Gil9A&t=244s

5. 入力ビデオと参照ビデオをフレームごとに比較する

ユーザーの動きをより正確に修正するには、次の手順に従って、入力ビデオと参照ビデオをフレームごとに比較する必要があります。

1) 入力ビデオの進行に合わせて参照ビデオの速度を遅くしたり早送りしたりします。

2) ユーザーとプロアスリートの骨格モデルの回転角度が基準点と一致するように位置合わせします。

3) 参照ビデオと入力ビデオは異なる距離から撮影されている可能性があるため、2 セットのスケルトンを結合または正規化する必要があります。

4) フレームごとに重要なポイントを比較して、動きの不一致を検出します。

5) 上記のプロセスをさまざまな関節(足、膝、手、肘など)に対して繰り返します。

6. 結果を表示し、ユーザーへの提案を生成する

分析サイクル全体が完了すると、ユーザーはさまざまな形式で表示される結果を取得する必要があります。たとえば、出力結果には、エラー メッセージを含むさまざまなインタラクティブな 3D 再構築が含まれるため、ユーザーは特定のアクションの詳細を拡大、縮小、巻き戻し、早送り、一時停止することができます。もちろん、出力結果には、繰り返し回数、単一サイクルの平均速度、期間など、特定のアクションに関する統計情報を収集して表示することもできます。

次の図は、ビデオベースの 3D 人間姿勢推定システムの出力の例です。

出典: stronglifts.c​​om のメンズヘルスチャンネル

学んだ教訓

まとめると、AI フィットネス コーチ アプリ開発の観点から、3D 人間姿勢推定システムの基本的な動作原理と操作手順について説明しました。もちろん、実際のプロジェクトの具体的な特性に応じて、ビジネス ニーズの変化に応じてプロセスが追加、削除、削減、または変更される可能性があります。私の経験の要約をいくつか紹介します。

  • 3D 人間姿勢推定は、フィットネス運動における動作エラーの検出に使用できます。
  • 高品質の 3D キーポイントを取得するには、適切な 2D キーポイント検出器を選択することが重要です。
  • 関節の動きが速いと、2D モデル内のキーポイントを検出してエラーを見つけるのが難しくなります。
  • 事前にトレーニングされたモデルは、通常とは異なる動きや姿勢にはうまく対応できない場合があります。この時点で、特定のプロパティを持つデータを使用してモデルを最適化するために、微調整または再トレーニングが必要になる場合があります。

注: この記事は https://mobidev.biz から引用したものです。 MobiDev は、技術研究とソフトウェア開発サービスの体験を提供する Web サイトです。

原題: 人間の姿勢推定技術 2021 ガイド、著者: Maksym Tatariants

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  音声認識市場は2025年までに267億9000万ドルに達する見込み

>>:  顔認証でお金を引き出すのは安全ですか?

ブログ    
ブログ    
ブログ    

推薦する

...

AIコンテンツゼロ!純粋なランダム数学は現実的な3D世界を無限に生成する、プリンストン大学の中国人による研究

画像や動画の生成には AI に頼らなければならないと誰が言ったのでしょうか?プリンストン大学の新しい...

...

知能ロボット連携システムとその主要技術

ロボットの知能化に向けた開発において、マルチロボット協働システムは包括的な技術統合プラットフォームで...

精密人工知能:原子核物理学と素粒子物理学における新たな力

素粒子物理学の標準モデルは、既知のすべての素粒子と、宇宙を支配する 4 つの基本的な力のうち 3 つ...

Deeplearning4j: JVM 向けのディープラーニングと ETL

[[410828]]この記事はWeChatの公開アカウント「Java Architecture M...

...

...

Adobe、フォトショップで加工された人間の顔を自動検出できるAIツールを開発

偽の動画や画像の拡散に対する懸念は世界中で高まっており、Adobe もその懸念を共有していると述べて...

自然言語処理におけるAIの未来を探る

自然言語処理 (NLP) 機能の向上により、認知機能と人間同士のやり取りが向上し、それが AI の将...

...

ブックマークにおける不正行為の特定におけるグラフィカル モデルの応用

概要グラフィカル モデルは通常、問題自体に複数の相互に関連する変数があるシナリオで使用され、これらの...

1 つの記事で TensorFlow ディープラーニングをマスターする

[[200803]] EnsorFlow ディープラーニングフレームワークGoogle はビッグデー...

チューリング賞受賞者ジョン・ヘネシー氏:データと機械学習は世界をより良い場所にする

5月26日、チューリング賞受賞者で米国工学アカデミー会員のジョン・ヘネシー氏が、2021年中国国際ビ...

実証済みのROIを備えた機械学習アプリケーション

モノのインターネット (IoT) は、接続デバイスの数の急増により、10 年以上にわたって着実に成長...