オープンソース: ディープラーニングモデルと姿勢推定コードのオープンソースコードの推奨、人工知能チュートリアル

オープンソース: ディープラーニングモデルと姿勢推定コードのオープンソースコードの推奨、人工知能チュートリアル

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。ポーズ推定のタスクは、RGB 画像またはビデオ内の人間のピクセルを人体の 3D 表面にマッピングすることを目的としています。ポーズ推定はマルチタスクタスクであり、オブジェクトの検出、ポーズ推定、セグメンテーションなど、いくつかの他の問題が関係します。姿勢推定のアプリケーションには、グラフィックス、拡張現実 (AR)、ヒューマン コンピュータ インタラクション (HCI) など、単純なランドマークの位置特定以上のものを必要とする問題が含まれます。姿勢推定には、3D ベースのオブジェクト認識の多くの側面も含まれます。この投稿では、姿勢推定のためのオープンソースのディープラーニング モデルとコードをいくつか紹介しました。共有する価値があると思われる実装を見逃していた場合は、下のコメント欄に残してください。

デンスポーズ

オープンソース: ディープラーニングモデルと姿勢推定コードのオープンソースコードの推奨、人工知能チュートリアル

GitHub | データセット

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。この投稿は、先週初めに DensePose のコード、モデル、データセットをリリースした Facebook Research からインスピレーションを得たものです。 Facebook は、人間の姿勢を推定するための大規模なグラウンドトゥルースデータセットである DensePose-COCO を共有しました。このデータセットは、50,000 枚の COCO (Common Objects in Context) 画像に手動で注釈が付けられた画像と表面の対応関係で構成されています。これはディープラーニング研究者にとって非常に包括的なリソースです。ポーズ推定やパーツのセグメンテーションなどのタスクに適したデータソースを提供します。

DensePose の論文では、Mask-RCNN のバリエーションである DensePose-RCNN を提案し、人間の各領域内の部位固有の UV 座標を 1 秒あたり複数のフレームで密に回帰します。 DenseReg をベースにしています。モデルの目的は、各ピクセルの表面の位置と、それが属するパーツの対応する 2D パラメータを決定することです。

DensePose は、Feature Pyramid Network (FPN) 機能と ROI アライメント プーリングを備えた Mask-RCNN のアーキテクチャを採用しています。さらに、彼らは ROI プーリングに完全畳み込みネットワークを導入しました。より詳細な技術的詳細については、DensePose の論文を参照してください。

オープンポーズ

GitHub | データセット

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。 OpenPose は、CMU 知覚コンピューティング ラボの身体、顔、手の評価のためのリアルタイムの複数人物キーポイント検出ライブラリです。 OpenPose は、2D および 3D の複数人物のキーポイント検出と、ドメイン固有のパラメータを推定するキャリブレーション ツールボックスを提供します。 OpenPose では、画像、ビデオ、Web カメラ、IP カメラなど、さまざまな入力が可能です。また、画像やキーポイント (PNG、JPG、AVI) などさまざまな形式で出力を生成し、キーポイントを読み取り可能な形式 (JSON、XML、YML) で保存したり、配列クラスとして保存したりすることもできます。入力および出力パラメータもさまざまなニーズに合わせて調整できます。

OpenPose は、CPU と GPU の両方で動作する C++ API を提供します (AMD グラフィック カードと互換性のあるバージョンも含む)。

リアルタイム複数人物姿勢推定

GitHub

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。この実装は OpenPose と関連性が高く、さまざまなフレームワークで実装に関連したモデルが提供されています。この論文の著者らは、人物検出器を使用せずに複数人物の姿勢をリアルタイムで推定するボトムアップアプローチを提案しています。この方法では、部分類似性フィールド (PAF) と呼ばれる非パラメトリック表現を使用して、画像内の身体部位と個人を関連付けることを学習します。実装と理論に関する技術的な詳細については論文を参照してください。このアプローチの最も優れた点の 1 つは、すでにさまざまなフレームワークに実装されており、選択したフレームワークでコードとモデルをすぐに使用できることです。

  • OpenPose C++ ライブラリ
  • TensorFlow 実装
  • Keras 実装 1 と 2
  • PyTorchは1、2、3を実装している
  • MXNet 実装

アルファポーズ

[[234401]]

GitHub

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。 Alpha Pose は、複数人の正確なポーズ推定ツールであり、初のオープンソース システムであると主張しています。 AlphaPose は、画像、ビデオ、または画像リストに対してポーズ推定とポーズ追跡を実行します。 PNG、JPEG、AVI 形式のキーポイント付き画像や、JSON 形式のキーポイント出力など、さまざまな出力を生成するため、アプリケーションに重点を置いたアプリケーションに最適なツールとなります。

現在、TensorFlow 実装と PyTorch 実装があります。 AlphaPose は、不正確な人間の境界ボックスが存在する場合でもポーズ推定を容易にするために、地域的な複数人物ポーズ推定 (RMPE) フレームワークを使用します。コンポーネントは 3 つあります: 対称空間トランスフォーマー ネットワーク (SSTN)、パラメトリック ポーズ非最大抑制 (NMS)、ポーズ ガイド付き提案ジェネレーター (PGPG)。より技術的な詳細については、論文を参照してください。

人間の姿勢推定

ウェブサイト | GitHub | データセット | ArtTrack 論文 | Darker 論文

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。このリポジトリは、ArtTrack および DeeperCut の論文で紹介された人間の姿勢推定アルゴリズムの TensorFlow 実装を提供します。トレーニングされたモデルは、明示的な人間の姿勢の推定を評価するための豊富な画像コレクションである MPII 人間の姿勢データベースを活用します。このプロジェクトでは、現実世界の画像における複数の人物の姿勢推定を相関させるタスクを検討します。彼らのアプローチは、人物を検出してからその体の姿勢を推定する従来のアプローチとは異なり、検出と姿勢推定の両方のタスクに対処します。実装には CNN ベースのパーツ検出器と整数線形計画法が使用されます。より技術的な詳細については、ArtTrack および DeeperCut の論文を参照してください。

ディープポーズ

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。 DeepPose は、2014 年に発表された比較的古い論文で、深層ニューラル ネットワーク (DNN) ベースの人間の姿勢推定法を提案しており、体の関節に対する DNN ベースの回帰問題として定式化されています。姿勢について総合的に考察し、シンプルでありながら強力な定式化を実現しています。 DeepPose の公式実装はオンラインでは入手できないようです。しかし、その結果を再現するための努力がなされてきました。

  • チェイナー実装
  • TensorFlow 実装

DeepPose は、人間の姿勢を推定する最初のディープラーニング アプリケーションであり、当初から最先端の結果を達成し、他の多くの新しい実装のベンチマークを提供している点で興味深いものです。

姿勢推定は、コンピューター ビジョン コミュニティでますます人気の高い問題です。 Facebook Research による DensePose-COCO などの新しいポーズ推定データセットのリリースにより、この分野での作業がさらに進むようになりました。私の意見では、姿勢推定を追求できる方向性は数多くあり、これらのリソースのリリースは間違いなくこの分野への新たな関心を喚起するでしょう。近いうちに多くの新しい革新的なアイデアや実装が見られることを期待しています。

<<:  AIスタートアップのRokidがKamino 18 AI音声チップをリリース、低電力ウェイクアップをサポート

>>:  速報 | SmartOneがAIショッピングガイドロボットを発表、マイクロソフトと戦略的提携を強化

推薦する

快手が1兆ドル規模のパラメータ推奨ランキングモデルを発表

正確な推奨システム モデルは、多くのインターネット製品の中核的な競争力です。パーソナライズされた推奨...

HTTPS の暗号化アルゴリズムに関連する概念

[[176353]]暗号化はコンピュータサイエンスで広く使用されており、HTTPS は暗号化に基づい...

Meta、Xiaoice、NVIDIA が協力して何かを行っています!アジア初のメタバースエコロジー連盟が誕生

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

LSTM は惨めに失敗しました!ある少年が時系列モデルを使って恋人の感情を予測した4ページの論文を発表した。

[[430915]]ガールフレンドの感情は株式市場と同じくらい予測不可能です。違いは、多くの専門家...

暗号化アルゴリズムの鍵交換は少し安全ではない

今日は対称暗号化アルゴリズムの重要な問題についてお話ししましょう。暗号化の基本的な概念に精通していな...

メタヘッドセットが舌トラッキング機能を追加、ネットユーザー衝撃「理由は聞かないし、知りたくもない」

突然でしたね… Meta の MR ヘッドセットは舌を追跡できるようになりました。効果は次のようにな...

...

画像をデジタル化して特徴を抽出するための、事前トレーニング済みのディープラーニングモデル6つ

[51CTO.com クイック翻訳] ユビキタスセンサーは毎日大量の画像を収集しており、人工知能技術...

機械学習がゲーム・オブ・スローンズの結末を「ネタバレ」:3人の愚か者が最初に死に、ドラゴン・マザーとティリオンが最後に笑う

制作:ビッグデータダイジェスト編集部長い間待ち望まれていた『ゲーム・オブ・スローンズ』の最終シーズン...

職場環境は依然として変化しているが、AIは「古いオフィス」を再現する以上の可能性を秘めている。

私たちは職場における技術革命の真っ只中にいます。 1か月ちょっと前に世界の人口の3分の1が隔離された...

日本はAIと無人機械を使って月面基地を建設する計画で、2030年代までに完成することを目指している。

共同通信によると、国土交通省は月面に滞在できる基地を建設するため、無人重機の開発を進めている。日本は...

見逃せない AIOps 実装の重要なポイントを解説するガイド

[[280530]] [51CTO.com クイック翻訳] システムの効率性と複雑さが増すにつれて、...