オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。ポーズ推定のタスクは、RGB 画像またはビデオ内の人間のピクセルを人体の 3D 表面にマッピングすることを目的としています。ポーズ推定はマルチタスクタスクであり、オブジェクトの検出、ポーズ推定、セグメンテーションなど、いくつかの他の問題が関係します。姿勢推定のアプリケーションには、グラフィックス、拡張現実 (AR)、ヒューマン コンピュータ インタラクション (HCI) など、単純なランドマークの位置特定以上のものを必要とする問題が含まれます。姿勢推定には、3D ベースのオブジェクト認識の多くの側面も含まれます。この投稿では、姿勢推定のためのオープンソースのディープラーニング モデルとコードをいくつか紹介しました。共有する価値があると思われる実装を見逃していた場合は、下のコメント欄に残してください。 デンスポーズ オープンソース: ディープラーニングモデルと姿勢推定コードのオープンソースコードの推奨、人工知能チュートリアル GitHub | データセット オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。この投稿は、先週初めに DensePose のコード、モデル、データセットをリリースした Facebook Research からインスピレーションを得たものです。 Facebook は、人間の姿勢を推定するための大規模なグラウンドトゥルースデータセットである DensePose-COCO を共有しました。このデータセットは、50,000 枚の COCO (Common Objects in Context) 画像に手動で注釈が付けられた画像と表面の対応関係で構成されています。これはディープラーニング研究者にとって非常に包括的なリソースです。ポーズ推定やパーツのセグメンテーションなどのタスクに適したデータソースを提供します。 DensePose の論文では、Mask-RCNN のバリエーションである DensePose-RCNN を提案し、人間の各領域内の部位固有の UV 座標を 1 秒あたり複数のフレームで密に回帰します。 DenseReg をベースにしています。モデルの目的は、各ピクセルの表面の位置と、それが属するパーツの対応する 2D パラメータを決定することです。 DensePose は、Feature Pyramid Network (FPN) 機能と ROI アライメント プーリングを備えた Mask-RCNN のアーキテクチャを採用しています。さらに、彼らは ROI プーリングに完全畳み込みネットワークを導入しました。より詳細な技術的詳細については、DensePose の論文を参照してください。 オープンポーズ GitHub | データセット オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。 OpenPose は、CMU 知覚コンピューティング ラボの身体、顔、手の評価のためのリアルタイムの複数人物キーポイント検出ライブラリです。 OpenPose は、2D および 3D の複数人物のキーポイント検出と、ドメイン固有のパラメータを推定するキャリブレーション ツールボックスを提供します。 OpenPose では、画像、ビデオ、Web カメラ、IP カメラなど、さまざまな入力が可能です。また、画像やキーポイント (PNG、JPG、AVI) などさまざまな形式で出力を生成し、キーポイントを読み取り可能な形式 (JSON、XML、YML) で保存したり、配列クラスとして保存したりすることもできます。入力および出力パラメータもさまざまなニーズに合わせて調整できます。 OpenPose は、CPU と GPU の両方で動作する C++ API を提供します (AMD グラフィック カードと互換性のあるバージョンも含む)。 リアルタイム複数人物姿勢推定 GitHub オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。この実装は OpenPose と関連性が高く、さまざまなフレームワークで実装に関連したモデルが提供されています。この論文の著者らは、人物検出器を使用せずに複数人物の姿勢をリアルタイムで推定するボトムアップアプローチを提案しています。この方法では、部分類似性フィールド (PAF) と呼ばれる非パラメトリック表現を使用して、画像内の身体部位と個人を関連付けることを学習します。実装と理論に関する技術的な詳細については論文を参照してください。このアプローチの最も優れた点の 1 つは、すでにさまざまなフレームワークに実装されており、選択したフレームワークでコードとモデルをすぐに使用できることです。
アルファポーズ GitHub オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。 Alpha Pose は、複数人の正確なポーズ推定ツールであり、初のオープンソース システムであると主張しています。 AlphaPose は、画像、ビデオ、または画像リストに対してポーズ推定とポーズ追跡を実行します。 PNG、JPEG、AVI 形式のキーポイント付き画像や、JSON 形式のキーポイント出力など、さまざまな出力を生成するため、アプリケーションに重点を置いたアプリケーションに最適なツールとなります。 現在、TensorFlow 実装と PyTorch 実装があります。 AlphaPose は、不正確な人間の境界ボックスが存在する場合でもポーズ推定を容易にするために、地域的な複数人物ポーズ推定 (RMPE) フレームワークを使用します。コンポーネントは 3 つあります: 対称空間トランスフォーマー ネットワーク (SSTN)、パラメトリック ポーズ非最大抑制 (NMS)、ポーズ ガイド付き提案ジェネレーター (PGPG)。より技術的な詳細については、論文を参照してください。 人間の姿勢推定 ウェブサイト | GitHub | データセット | ArtTrack 論文 | Darker 論文 オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。このリポジトリは、ArtTrack および DeeperCut の論文で紹介された人間の姿勢推定アルゴリズムの TensorFlow 実装を提供します。トレーニングされたモデルは、明示的な人間の姿勢の推定を評価するための豊富な画像コレクションである MPII 人間の姿勢データベースを活用します。このプロジェクトでは、現実世界の画像における複数の人物の姿勢推定を相関させるタスクを検討します。彼らのアプローチは、人物を検出してからその体の姿勢を推定する従来のアプローチとは異なり、検出と姿勢推定の両方のタスクに対処します。実装には CNN ベースのパーツ検出器と整数線形計画法が使用されます。より技術的な詳細については、ArtTrack および DeeperCut の論文を参照してください。 ディープポーズ オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知能チュートリアル (Fun AI によってコンパイル、ソースは modelzoo)。 DeepPose は、2014 年に発表された比較的古い論文で、深層ニューラル ネットワーク (DNN) ベースの人間の姿勢推定法を提案しており、体の関節に対する DNN ベースの回帰問題として定式化されています。姿勢について総合的に考察し、シンプルでありながら強力な定式化を実現しています。 DeepPose の公式実装はオンラインでは入手できないようです。しかし、その結果を再現するための努力がなされてきました。
DeepPose は、人間の姿勢を推定する最初のディープラーニング アプリケーションであり、当初から最先端の結果を達成し、他の多くの新しい実装のベンチマークを提供している点で興味深いものです。 姿勢推定は、コンピューター ビジョン コミュニティでますます人気の高い問題です。 Facebook Research による DensePose-COCO などの新しいポーズ推定データセットのリリースにより、この分野での作業がさらに進むようになりました。私の意見では、姿勢推定を追求できる方向性は数多くあり、これらのリソースのリリースは間違いなくこの分野への新たな関心を喚起するでしょう。近いうちに多くの新しい革新的なアイデアや実装が見られることを期待しています。 |
<<: AIスタートアップのRokidがKamino 18 AI音声チップをリリース、低電力ウェイクアップをサポート
>>: 速報 | SmartOneがAIショッピングガイドロボットを発表、マイクロソフトと戦略的提携を強化
ここ2年間、RPA+AI(インテリジェント自動化プロセス)が頻繁に言及されています。企業/機関のデジ...
企業は、AI をエッジに押し上げるための最適な武器として、さまざまなチップ アーキテクチャを採用しよ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
「アイ、ロボット」は蔡蔡が子供の頃に特に好きだった映画であり、今でも古びていない。子どもの頃は、映...
現在、ビジネス テクノロジーの世界では、2 つの流行語が頻繁に登場しています。 1つはWeb3、もう...
教育省は最近、「高等教育機関向け人工知能イノベーション計画」を発表し、「人工知能分野における人材育成...
かつて私たちは、コンピューターがどれだけ強力であっても、未来を予測するには不十分であると考えていまし...
1. 概要この記事では、多数のクライアントが同時にデータを書き込む場合に、分散ファイルシステム HD...
危機に対処する最善の方法は常に変化を求めることです。 国連は5月18日、最新の世界経済情勢予測を発表...
著者: cooperyjli、Tencent CDG のデータ アナリスト機械学習は、データの収集、...
規制は消費者と市場を保護するために設けられていますが、多くの場合、規制は複雑であり、遵守にはコストが...