携帯電話に搭載された3D姿勢推定は、モデルサイズが類似モデルの1/7しかないが、誤差はわずか5cmである。

携帯電話に搭載された3D姿勢推定は、モデルサイズが類似モデルの1/7しかないが、誤差はわずか5cmである。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

長い間、3D 姿勢推定は精度向上に向けて競争してきました。

ただし、精度の向上は計算コストの増加ももたらします。

しかし、CPVR 2021 で採択されたばかりの論文MobileHumanPoseで提案されたモデルは、小型でありながら優れたものになる可能性があります。

携帯電話でも持てるタイプです。この感覚を感じてみましょう:

次のような動きのエアロビクスでも大丈夫です。

このモデルのサイズはResNet-50をベースにしたモデルのわずか1/7であり、その計算能力は3.92GFLOPSに達することがわかります。

さらに、関節あたりの平均位置誤差(MPJPE)はわずか約5 cmです。

では、このモデルはどのようにして限られた計算能力でこのような優れたパフォーマンスを実現するのでしょうか?

エンコーダー・デコーダー構造に基づく改善

これは基本的なエンコーダー-デコーダー構造を改良したモデルです。

研究チームは、エンコーダーをグローバル特徴抽出に使用し、デコーダーを姿勢推定に使用する基本アーキテクチャに基づいて、バックボーン ネットワーク、アクティベーション関数、および Skip 連結関数を変更しました。

まず、研究チームが選択したバックボーン ネットワーク、MobileNetV2 を見てみましょう。

彼らは、MobileNetV2 の最初の 4 つの反転残差ブロックでチャネル サイズを変更し、パフォーマンスの向上を実現しました。

次に、 PReLU関数を使用して活性化関数を実装します。ここで、ai は学習パラメータ、yi は入力信号です。

この関数の学習可能なパラメータにより、ネットワークの各層で追加情報を取得できるようになり、人間の姿勢推定タスクでパラメータ化された PReLU を使用する際のパフォーマンスが向上します。

△活性化関数を変更した後のベースライン

現在、モデルの効率は低くありませんが、推論速度を考慮して、チームは Skip 連結構造を使用しています。この構造により、パフォーマンスを低下させることなく、エンコーダからデコーダへの低レベルの特徴信号を導出できます。

パラメータ数は5分の1に削減され、計算コストは​​1/3に削減されます。

研究チームは、3D 人間のポーズ データセットとして Human3.6M と MuCo-3DHP を使用し、MobileNetV2 の大規模モデルと小規模モデルという 2 つのモデルを提案しました。

Human3.6M では、MobileNetV2 大規模モデルは、関節あたりの平均位置誤差 51.44 mm を達成します。

パラメータサイズは4.07Mで、類似モデルの20.4M(chen)の5分の1であり、計算コストは​​5.49GFLOPSで、類似モデル(14.1G)の1/3以下です。

複数人物の 3D ポーズ推定タスクでは、研究者は RootNet を使用して各人物の絶対座標を推定し、MuPoTS の 20 シーンで実験を実施しました。

実験結果によると、ECCV 2020 で優勝した Zerui Chen などの研究者が提案した 3D 人間姿勢推定法と比較して、MobileNetV2 は一般的なシナリオで優れたパフォーマンスを発揮し、いくつかのシナリオで最高のパフォーマンスを発揮します。

モデル効率の面では、MobileNetV2 の大規模モデル効率は 2.24M/3.92GFLOPS であり、同様のモデルの 13.0M/10.7GFLOPS を大幅に上回っています (Zerui Chen)。

小型モデルでは、関節あたりの平均位置誤差が 56.94 mm で、パラメータ数は 224 万、計算コストは​​ 3.92 GFLOPS です。

著者について

論文の著者3人は全員韓国技術院の卒業生であり、筆頭著者のチェ・サンボム氏は同校の電気電子工学修士である。

[[427448]]

紙:
https://openaccess.thecvf.com/content/CVPR2021W/MAI/html/Choi_MobileHumanPose_Toward_Real-Time_3D_Human_Pose_Estimation_in_Mobile_Devices_CVPRW_2021_paper.html

オープンソースアドレス:
[1] https://github.com/SangbumChoi/MobileHumanPose
[2] https://github.com/ibaiGorordo/ONNX-Mobile-Human-Pose-3D

<<:  合成データのみでリアルな顔解析が可能!マイクロソフトの新しい研究は、手動ラベル付けに別れを告げる

>>:  バブルアルゴリズムよりも単純なソートアルゴリズム:バグだらけに見えるプログラムが実は正しい

推薦する

新しい問題と古い問題の組み合わせは、個人情報保護に新たな課題をもたらします。

宅配ラベルのプライバシー漏洩、APPからの過度な権利要求、個人情報の違法収集・利用などの問題が依然と...

あなたのプライベートな写真が「合法的に」閲覧される可能性があります。顔認識を使用するときは必ず服を着用してください。

本日7月3日、デジタルブロガーの@长安数码君がソーシャルプラットフォームでニュースを発表しました。顔...

AIが高速道路に参入: テクノロジーを活用してファーストフード業界を完全に変える

迅速なサービスと便利な体験で知られるファーストフード業界は、顧客体験を向上させ、業務効率を改善するた...

犯罪を予測する人工知能(AI)の倫理的・法的危機

あなたが通りを歩いていると、突然パトカーが止まり、数人の警官が飛び降りてきて、あなたの腕をつかみ、逮...

ElevenLabs、元の話し手の声と感情を維持するAI翻訳吹き替え機能を発表

AIテキスト読み上げ会社ElevenLabsは10月11日、火曜日にAI Dubbingを発表した。...

産業用 AI が将来、精製業界にどのような力を与えるか

[[347965]]研究によると、人工知能技術は石油精製業界に大きな利益をもたらす可能性があるそうで...

米国政府が警告: ​​ChatGPT は重大なセキュリティリスクをもたらす

最近、米国連邦政府は、ユーザーはChatGPTのサイバーセキュリティリスク、特にフィッシングやマルウ...

顔認識技術の法的ギャップを埋める必要がある

顔認識などの新興技術が普及し、何百万人もの人々の生活に入り込むにつれて、技術の使用をめぐる論争がます...

プリンストン・インフィニゲン・マトリックスが始動! AI Creatorが爆発するほどリアルな100%自然を創造

ネオは、自分が住んでいる世界が現実ではなく、綿密に設計されたシミュレーションであることを発見します。...

ビッグニュース! Googleが突然発表!百度と滴滴出行は混同されている

21 金融ニュースは、日刊金融ニュース (ncjs111)、網易科技、創業報 (ichuangye...

張北院士:生成型人工知能の3つの大きな機能と1つの大きな欠点

網易科技は1月16日、知普AI技術公開デーで中国科学院院士で清華大学教授の張北氏が「大規模言語モデル...

AIは半導体やデータセンター分野にどのような影響を与えるのでしょうか?

IHS Markit は、ハードウェアとソフトウェアを含む AI システムの世界的な収益が 202...

TensorFlow でトレーニングしたモデルを保存および復元する方法

ディープ ニューラル ネットワーク モデルの複雑さが非常に高い場合、保有するデータの量、モデルを実行...