ウォータールー大学はヒートマップ回帰を放棄し、複数人の姿勢推定のための新しい方法を提案した。

ウォータールー大学はヒートマップ回帰を放棄し、複数人の姿勢推定のための新しい方法を提案した。

[[436983]]

キーポイント推定は、画像内の関心ポイントを特定するコンピューター ビジョン タスクです。コンピューター ビジョン作業で最も研究されているトピックの 1 つとして、キーポイント推定は、人間の姿勢推定、手の姿勢推定、動作認識、物体検出、複数人物追跡、動作分析などの関連アプリケーションで重要な役割を果たします。

キーポイントの位置を推定する最も一般的な方法は、対象フィールドのヒートマップを生成することです。ただし、重要なポイントを検出して特定するための標準的な方法としてのヒートマップ回帰には、次のような欠点もあります。

まず、このアプローチは量子化誤差の影響を受けます。キーポイント予測の精度は、ヒートマップの空間解像度によって本質的に制限されます。したがって、ヒートマップが大きいほど良いのですが、追加のアップサンプリング操作と高価な高解像度処理が必要になります。また、ヒートマップが大きい場合でも、キーポイント予測を最適化するために特別な後処理手順が必要になり、推論が遅くなります。

第二に、同じタイプ(カテゴリ)の 2 つのキーポイントが互いに近い場合、重なり合うヒートマップ信号が 1 つのキーポイントと誤認される可能性があります。

これに基づいて、ヒートマップを使用しない代替のキーポイント検出方法を研究する研究がいくつか開始されています。

最近、カナダのウォータールー大学の研究者らは、新しい単一段階の複数人物のキーポイントおよび姿勢検出方法 KAPAO を提案しました。リアルタイム コンピューティングに TITAN Xp GPU を使用すると、720p ビデオの推論速度は 1 秒あたり 35 フレームに達し、1080p ビデオは 1 秒あたり 20 フレームに達します。テスト時間拡張 (TTA) を使用しないため、KAPAO は DEKR や HigherHRNet などの従来の単一ステージ方式よりも高速かつ正確です。

[[436984]]

ウォータールー大学のこの研究では、研究者らがヒートマップを使用しない新しいキーポイント検出方法である KAPAO (Keypoints And Poses As Objects) を提案し、それを単一段階の複数人物の人間の姿勢推定に適用しました。単一のキーポイントと空間的に関連するキーポイントのセット (つまり、ポーズ) の両方が、アンカーベースの高密度検出フレームワーク内のオブジェクトとしてモデル化されます。キーポイントと姿勢をターゲットとする KAPAO メソッドは、キーポイント ターゲットと姿勢ターゲットを同時に検出し、単純なマッチング アルゴリズムを使用して結果を融合できます。本研究では、姿勢ターゲットを検出することにより、人物検出とキーポイント推定を統合し、効率的な単一段階の複数人物人物姿勢推定法を実現します。

  • 論文アドレス: https://arxiv.org/abs/2111.08557
  • GitHub アドレス: https://github.com/wmcnally/kapao
  • トライアルアドレス: https://huggingface.co/spaces/akhaliq/Kapao

KAPAOメソッド

KAPAO アプローチは、YOLO (You Only Look Once) 高密度検出フレームワークの最近の実装に基づいており、効率的なネットワーク設計が含まれています。さらに、KAPAO は大規模で高価なヒートマップを生成しないため、特に TTA を使用しない場合、精度と推論速度の点で以前のシングルステージ方式よりも優れています。

KAPAO メソッドの基本原理を下図に示します。

KAPAOは、マルチタスク損失関数Lでトレーニングされた高密度検出ネットワークNを使用して、RGB画像Iを出力グリッドにマッピングします。

予測されたポーズターゲットのコレクション

およびキーポイントターゲット

サンプルターゲット: 人間のポーズターゲット (青)、キーポイントターゲット (赤)、ターゲットなし (緑)、「?」値は損失計算には使用されません。

次の図は、TITAN Xp GPU 上でビデオ推論用に KAPAO-S をリアルタイムで実行した場合の効果を示しています。

KAPAO-S は、TITAN Xp GPU 上でリアルタイムに実行でき、ネイティブ フレーム レートの 25 フレーム/秒よりも高速ですが、顔のキー ポイントは図に表示されません。

実験結果

この研究では、KAPAO が従来の方法よりも大幅に高速かつ正確であり、ヒートマップの後処理が従来の方法に大きな影響を与えることが実験的に実証されました。さらに、テスト時間拡張 (TTA) のない実際の設定では、KAPAO は精度と速度の点で大幅に優れたパフォーマンスを発揮します。大規模モデル KAPAO-L は、TTA なしで Microsoft COCO Keypoints 検証セットで 70.6 AP を達成し、精度が 4.0 AP 低い単一ステージ モデルよりも 2.5 倍高速です。

図 1: TTA なしのシングルステージの複数人物の人間の姿勢推定 SOTA 手法 DEKR および HigherHRNet と KAPAO の精度と速度の比較。

この研究では、COCO テスト開発における KAPAO の精度を 1 段階および 2 段階の方法と比較し、結果を次の表に示します。

混雑したシーンでの KAPAO のパフォーマンスを調べるために、この研究では CrowdPose テスト セットでいくつかのモデルを比較しました。結果によると、KAPAO はオクルージョンがある場合でも優れたパフォーマンスを発揮し、すべての指標でこれまでのすべてのシングル ステージ メソッドを上回っていました。 APE、APM、APH を分析すると、混雑したシーンでの KAPAO の利点は明らかです。

具体的には、KAPAO のキーポイントターゲットと姿勢ターゲットの融合によってもたらされる精度の向上は、以下の表 4 に示されています。

TTA なしの KAPAO の利点を示すために、図 6 は COCO val2017 の各キーポイント タイプに対する KAPAO-S の融合率をプロットしています。

興味のある読者は、詳細については原文論文を読んでください。

<<:  何開明のMAEが人気になってから、ビジュアルトランスフォーマーを整理したいですか?この記事は100以上の

>>:  待望のWeb顔認識ログインのフルバージョンが登場しました。気に入っています

ブログ    
ブログ    
ブログ    

推薦する

...

...

Apple Watchも新型コロナウイルスを検知可能:症状が出る7日前に検知可能

現在、新型コロナウイルスの核酸検査のほとんどは、咽頭ぬぐい液を使って行われている。スマートウォッチを...

「柯潔は2つの石を与えられた」が、それでもAIに負けた。プログラマーが知っておくべきトップ10のAIライブラリとフレームワークはこちら

[51CTO.comより引用] 遅かれ早かれ、この日はやって来る。イ・セドルがアルファ碁に1対4で負...

ビジョンレーダーは、センサーコンピューティングによる次世代の自動運転システムの重要なコンポーネントです。

[[438879]] 2021年10月25日、テスラの時価総額は1兆ドルを超え、米国株式市場で時価...

...

Microsoft OfficeがCopilot: Princessに接続されている場合は、

AIの助けがあれば、将来のオフィスではそれほど多くのコーヒーは必要なくなるかもしれません。サイエン...

中小企業はデジタル変革の悪循環からどのように抜け出すことができるでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

今のところ人工知能があなたの仕事を奪うことはないが、すでにあなたの履歴書に載っている

[[387879]] AI、つまり人工知能は、最近誰もが口にする言葉になっているようです。私はこのテ...

...

放送・ホスティング業界における人工知能の限界についての簡単な分析

[[430680]]科学技術の継続的な発展により、人工知能は人間の生活のあらゆる側面に関わるだけでな...

テンセント AI ラボが初の自動モデル圧縮フレームワークのソースを公開: ディープラーニングをポケットに

テンセントAIラボ機械学習センターは本日、世界初の自動ディープラーニングモデル圧縮フレームワーク「P...

実践的 | この記事は畳み込みニューラルネットワークを始めるのに十分です

まず、ディープラーニングとはすべてのディープラーニングアルゴリズムの総称であり、CNNは画像処理分野...

...