この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 少し前に、Google Artificial Intelligence Lab は「リアルタイムハンドトラッキング」で新たな進歩を遂げ、この新技術を MediaPipe に適用したことを発表しました。これは AI コンピュータービジョンタスクにおける大きな進歩でもあります。この技術により、携帯電話でのリアルタイムキャプチャが可能になるだけでなく、複数の手の動きを同時に追跡することもできます。現在、Googleはこのプロジェクトをオープンソース化し、技術を紹介するブログを公開しています。Leifeng.com AI開発者は、その内容を次のようにまとめています。
概要手の形や動きを認識できることは、さまざまなテクノロジー分野やプラットフォームにわたってユーザー エクスペリエンスを向上させる上で重要な要素です。たとえば、手話の理解やジェスチャー制御が可能になるほか、拡張現実 (AR、https://ai.googleblog.com/search/label/Augmented%20Reality) でデジタル コンテンツや情報を物理世界に重ね合わせることも可能になります。この能力は私たちにとって自然なものですが、手はしばしばそれ自体または互いを遮蔽し(たとえば、指と手のひらの間や握手)、手の間に高いコントラストがないため、堅牢なリアルタイムの手の認識は、非常に困難なコンピューター ビジョン タスクです。 私たちは、6 月に開催された CVPR 2019 カンファレンスでプレビューした、手の知覚に対する新しいアプローチを公開しました。この方法のデモンストレーションでは、オープンソースのクロスプラットフォーム フレームワークである MediaPipe を使用して、ビデオやオーディオなどのさまざまな種類の知覚データを処理するためのフレームワークを構築します。 このアプローチでは、機械学習 (ML) を通じて単一のフレームから手の 21 個の 3D キー ポイントを推測することで、忠実度の高い手と指の追跡を実現します。現在の最先端の方法は、推論に主に強力なデスクトップ環境に依存していますが、私たちのアプローチでは、モバイル フォンでこのリアルタイムのパフォーマンスを実現でき、複数の手の同時追跡にまで拡張できます。 この手の認識機能を幅広い研究開発コミュニティに提供することで、まったく新しいユースケースの創出に貢献し、新しいアプリケーションや新しい研究分野の出現を促進できることを願っています。 図 1. MediaPipe を介した携帯電話でのリアルタイム 3D ハンド認識。私たちの解決策は、機械学習を使用して、単一のビデオ フレームから手の 21 個の 3D キー ポイントを計算することです。深さは図のグレースケール色で表されます。 ハンドトラッキングとジェスチャー認識のための機械学習アーキテクチャ当社のハンド トラッキング ソリューションは、複数のモデルで構成される機械学習アーキテクチャを使用します。
このアーキテクチャは、最近リリースされた顔メッシュ ML モデル (https://sites.google.com/view/perception-cv4arvr/facemesh) に似ており、他のユーザーによってポーズ推定にも使用されています。正確に切り取られた手のひらの画像を手のランドマーク モデルに取り込むと、追加のデータ (回転、平行移動、スケーリングなど) の必要性が大幅に減り、ネットワークはパフォーマンスの大部分を調整予測の精度に充てることができます。 図2 手知覚モデルの全体構成 BlazePalm: リアルタイムの手/手のひら検出手の初期位置を検出するために、BlazePalm (https://arxiv.org/abs/1512.02325) と呼ばれるシングルショット検出器モデルを使用しました。このモデルは、BlazeFace (https://arxiv.org/abs/1907.05047) と同様にモバイルのリアルタイム検出に使用でき、MediaPipe でも使用できます。 手の検出は非常に複雑なタスクです。私たちのモデルはさまざまな手のサイズに適応する必要があるため、画像フレームに対してより広い範囲(約 20 倍)を持ち、遮蔽された手の状態と自己遮蔽された手の状態を検出できます。 人間の顔は通常コントラストが高く、たとえば目と口の領域は明確に区別されています。しかし、手にはそのような特徴がないため、視覚的な特徴のみから確実に検出することは困難です。ただし、腕、体、または人間の特徴などの追加情報を提供すると、正確な手の位置特定に役立ちます。したがって、当社のソリューションでは、さまざまな戦略を使用して上記の課題に対処します。 まず、手のひらや拳などの剛体の境界ボックスを推測する方が指の関節を検出するよりもはるかに簡単なので、手検出器ではなく手のひら検出器をトレーニングします。さらに、手のひらは小さな物体であるため、手の自己閉塞(握手など)の場合でも良好な結果を達成できる非最大抑制アルゴリズム(https://www.coursera.org/lecture/convolutional-neural-networks/non-max-suppression-dvrjH)を使用します。 一方、手のひらは、他のアスペクト比を無視して正方形の境界ボックス (ML 用語ではアンカー) を使用してモデル化することもできます。これにより、アンカーの数が 3 ~ 5 倍削減されます。次に、より大きなシーンのコンテキスト認識で使用されるエンコーダー/デコーダー特徴抽出器を、手などの小さなオブジェクトに適応させます (RetinaNet アプローチと同様、https://arxiv.org/abs/1612.03144)。最後に、高さの変化による多数のアンカーを優先するために、トレーニング中の焦点損失を最小限に抑えます。 上記の技術を使用することで、平均 95.7% の手のひら検出精度を達成しました。従来のクロスエントロピー損失を使用し、デコーダーを使用しない場合、検出精度のベースラインはわずか 86.22% です。 手のランドマークモデル画像全体で手のひらを検出した後、後続の手のランドマーク モデルは、回帰によって、つまり座標を直接予測することによって、検出された手の領域内の 21 個の 3D 手の関節座標のキーポイントを正確に特定します。このモデルは、部分的に見える手や自己遮蔽に対しても堅牢な、一貫した内部ジェスチャ表現を学習します。 リアルタイムデータを取得するために、下の図に示すように、30,000 枚の実際のハンドジェスチャ画像に 21 個の 3D 座標を手動で注釈付けしました (対応する座標が存在する場合、Z 値は画像の深度マップから取得されます)。考えられるジェスチャをより適切にカバーし、ジェスチャのジオメトリをさらに監視するために、さまざまな背景に高品質の合成ハンドモデルをレンダリングし、対応する 3D 座標にマッピングします。 図 3 最初の行の画像は、リアルタイム注釈を通じて追跡ネットワークに渡された位置合わせされた手を示しています。2 行目の画像は、リアルタイム注釈を使用してレンダリングされた合成手の画像を示しています。 ただし、純粋に合成されたデータをより広範囲のドメインに一般化することは困難です。この問題を克服するために、ハイブリッド トレーニング モデルを使用します。次の図は、高レベルのモデル トレーニング図を示しています。 図4. ハンドトラッキングネットワークのハイブリッドトレーニングモデル。切り取られた実際の写真とレンダリングされた合成画像が入力として使用され、21 個の 3D キーポイントを予測します。 次の図は、トレーニング データの性質に基づいた回帰の精度をまとめたものです。合成データと実際のデータの両方を使用すると、モデルのパフォーマンスが大幅に向上します。 図5. 合成データと実データの使用がモデルのパフォーマンスに与える影響 ジェスチャー認識予測された手の骨格の上に、ジェスチャーを推測するための簡単なアルゴリズムを適用します。まず、各指が曲がっているか、直立しているかなどの状態は、関節の角度の累積によって決まります。したがって、一連の指の状態を一連の定義済みジェスチャにマッピングします。このシンプルでありながら効果的な技術により、検出品質を犠牲にすることなく、基本的な静的な手のジェスチャーを推定できます。既存のアーキテクチャは、アメリカ、ヨーロッパ、中国などの複数の文化のジェスチャーカウントをサポートするほか、「親指を立てる」、「握りこぶし」、「OK」、「ロックンロール」、「スパイダーマン」などのさまざまなジェスチャーサインをサポートします。 図6 異なるジェスチャー認識結果 MediaPipe経由で実装MediaPipe を使用すると、この認識アーキテクチャを、Calculators と呼ばれるモジュール コンポーネントの有向グラフ (https://en.wikipedia.org/wiki/Directed_graph) としてモデル化できます。 Mediapipe には、さまざまなデバイスやプラットフォーム上でのモデル推論、メディア処理アルゴリズム、データ変換などのタスクを解決するために使用できるスケーラブルな計算機のセットが付属しています。切り抜き、レンダリング、ニューラル ネットワーク計算などの個々の計算は、GPU 上で独立して実行できます。たとえば、ほとんどの最新の携帯電話では TFLite GPU 推論を使用しています。 ハンドトラッキング用の MediaPipe アーキテクチャの図を以下に示します。グラフは 2 つのサブグラフで構成されます。1 つは手の検出用、もう 1 つは手のキーポイント (ランドマーク) の計算用です。 MediaPipe が提供する重要な最適化は、必要な場合にのみ手のひら検出器を実行する (したがって、実行頻度は非常に低い) ため、計算時間が大幅に節約されることです。 現在のフレームで計算された手のキーポイントから後続のビデオ フレームの手の位置を推測することで手の追跡を実装し、すべてのフレームで手のひら検出器を実行する必要性を排除します。堅牢性のために、ハンド トラッカー モデルは、入力クロップ内に手が存在し、適切に配置されているという信頼性をキャプチャする追加のスカラーを出力します。信頼度が特定のしきい値を下回った場合にのみ、手検出モデルがフレーム全体に再適用されます。 図 7 手のランドマーク モデルの出力 (REJECT_HAND_FLAG) は、手の検出モデルがいつトリガーされるかを制御します。この動作は、MediaPipe の強力な同期ビルディング ブロックによって実現され、機械学習アーキテクチャに高いパフォーマンスと最適なスループットをもたらします。 この非常に効率的な機械学習ソリューションは、さまざまなプラットフォームやフォーム ファクターでリアルタイムに実行されます。上記の簡略化された説明よりもはるかに複雑な内容になります。この目的のために、私たちは上記のハンドトラッキングとジェスチャ認識方法を、関連するエンドツーエンドの使用シナリオとソースコード(https://github.com/google/mediapipe/blob/master/mediapipe/docs/hand_tracking_mobile_gpu.md)とともにMediaPipeフレームワークでオープンソース化し、研究者や開発者に私たちのモデルに基づいた新しいアイデアを実験しプロトタイプ化するための完全なスタックを提供します。 今後の方向性私たちは、この技術をさらに堅牢で安定したトラッキングに拡張し、確実に検出できるジェスチャの数を増やし、動的なジェスチャをリアルタイムでサポートする予定です。この技術を公開することで、幅広い研究者や開発者の間で新しいアイデアやアプリケーションが生まれると信じています。皆様の革新的なアイデアを楽しみにしています! *メディアパイプ MediaPipe は、機械学習パイプライン用のマルチモーダル (ビデオ、オーディオ、任意の時系列データなど) フレームワークを構築するためのクロスプラットフォーム フレームワークです。 MediaPipe を使用すると、推論モデル (TensorFlow、TFLite など) やメディア処理関数などのモジュール コンポーネントのグラフとして認識パイプラインを構築できます。 MediaPipe オープンソース アドレス: https://github.com/google/mediapipe/
|
<<: 女性は人工知能によって職を失う可能性が高いのでしょうか?人工知能は本当に失業の波を引き起こすのでしょうか?
>>: 3つのシナリオは、人工知能が新しい小売業に力を与える方法を示しています
最近、海外メディアの報道によると、サンフランシスコ市は7月1日に導入予定の「偏見削減ツール」を発表し...
競争が激化するテクノロジー市場において、ハイテク新興企業から世界的な多国籍企業まで、誰もが人工知能を...
RAG は、2023 年に最も人気のある LLM ベースのアプリケーション システム アーキテクチャ...
科学技術分野において、国境を越えた融合による新しいものによってもたらされる破壊的な競争は、あくまでも...
信じますか?近い将来に配達員が失業するなどとは信じられない人もいるかもしれないが、これは紛れもない事...
スポーツにロボットを導入することは、器用な移動、リアルタイムのモーション制御、経路計画などの最新ロボ...
機械学習と人工知能は、データセンターの問題に対する万能薬として宣伝されてきました。その多くは誇大宣伝...
【51CTO.comオリジナル記事】近年、「人工知能」(AI)という言葉が頻繁に登場し、今日ではこ...
何千年もの間、人々はインテリジェントな機械を構築する方法について考え続けてきました。それ以来、人工知...
21 世紀の最初の 10 年が過ぎましたが、この 10 年間で私たちは多くの新しいテクノロジーによっ...
機械学習アルゴリズムをゼロから作成することで、多くの経験が得られます。ようやく読み終えたとき、嬉しい...