Google が AI ジェスチャー認識アルゴリズムをオープンソース化: 1 フレームの画像で 21 個の 3D ポイントを認識

Google が AI ジェスチャー認識アルゴリズムをオープンソース化: 1 フレームの画像で 21 個の 3D ポイントを認識

リアルタイムの手の形状と動作の追跡ソリューションは、常に手話認識とジェスチャー制御システムの最も重要なコンポーネントであり、一部の拡張現実体験でも重要な役割を果たします。しかし、既存の技術では、遮蔽やコントラストパターンの欠如などの問題により、理想的な信頼性を提供できないことがよくあります。

この現実的な課題に直面して、Google の科学者たちは、手の認識のための新しいコンピューター ビジョン手法を開発しました。舞台裏の原動力として、機械学習テクノロジーが強力なサポートを提供します。紹介によれば、このソリューションは、実機実験で 1 フレームの画像のみを使用して、手 (または複数の手) 上の 21 個の 3D ポイントを識別できるとのことです。現在市販されているジェスチャー認識技術と比較すると、Google の新技術は計算にデスクトップ コンピューターに頼る必要がなく、携帯電話でリアルタイムの追跡を実行できるほか、複数の手を同時に追跡して遮蔽物を識別することもできます。

[[274440]]

Google は今年 6 月、2019 年のコンピューター ビジョンおよびパターン認識カンファレンスでこのテクノロジーのプレビュー バージョンを発表しました。 2か月後の8月20日(米国時間)、Googleは同技術をMediaPipeに統合することを正式に発表した。 MediaPipe は、さまざまなモダリティ (ビデオやオーディオなど) の知覚データを処理できるマルチモーダル応用機械学習パイプラインを構築するためのオープンソースのクロスプラットフォーム フレームワークです。プロジェクトのソースコードとエンドツーエンドの使用シナリオは、GitHub で完全に公開されています。

「手の形や動きを感知する能力は、さまざまなテクノロジーのパフォーマンスやプラットフォームをまたいだユーザー エクスペリエンスを向上させる重要な要因となる可能性があります」と、研究エンジニアの Valentin Bazarevsky 氏と Fan Zhang 氏はブログ記事に書いています。「この手の感知能力をより広範な研究開発コミュニティに提供し、その力を活用して革新的なユース ケースの出現を共同で促進し、新しいアプリケーションを刺激し、前例のない研究の道を切り開くことを望んでいます。」

Google のテクノロジーには、連続して動作する 3 セットの AI モデルが含まれていることがわかっています。手のひら検出モデル (BlazePalm) は、フレームを分析して手の動きの境界ボックスを返すために使用されます。手のランドマーク モデル (Landmark) は、手のひら検出器によって定義された切り取られた画像領域を表示して 3D 位置を返すために使用されます。ジェスチャ認識モデルは、以前に計算された位置をジェスチャのセットに分類するために使用されます。

BlazePalm: 手の認識は思ったほど簡単ではありません。 GlazePalm は、手の閉塞という実際的な問題を解決できなければなりません。この目的のために、Google チームは BlazePalm と呼ばれる手のひら検出器をトレーニングしました。注意すべきは、これは手ではなく手のひらです。彼らは、拳のような物体の境界ボックスを描くことは、指を追跡するよりもはるかに簡単だと考えています。具体的には、BlazePalm はさまざまな手のひらのサイズを認識でき、ズーム範囲が広く、手の遮蔽を認識し、腕、胴体、個人の特徴などの情報を識別して手の位置を正確に特定できます。さらに、この方法には、握手などの特殊なシナリオとの互換性が高いという大きな利点もあります。他のアスペクト比の条件を無視した正方形のフレームを使用して手のひらをシミュレートするため、必要な 3D ポイントの数が従来の 3 分の 1 から 5 分の 1 に削減されます。統計によると、トレーニング後、BlazePalm の手のひら認識精度は 95.7% に達します。

ランドマーク: 手のひらの検出後、手のランドマーク モデルが引き継ぎ、検出された手の領域内で手から肘までの 21 個の 3D 位置決め座標を確立します。モデルのトレーニング中、研究者は実際のシーンの画像最大 30,000 枚に手動で注釈を付け、さまざまな背景に基づいて対応する座標をレンダリングしてマッピングし、最終的に高品質の合成手モデルを作成する必要があります。統計によると、トレーニング後、アルゴリズムの平均回帰誤差は 13.4% まで削減できます。

ジェスチャ認識モデル: パイプラインの最後のステップはジェスチャ認識です。これは、関節の回転角度を使用して各指の状態 (曲がっているかまっすぐかなど) を判別し、一連の指の状態を定義済みのジェスチャにマッピングして、基本的な静的ジェスチャを予測します。バザレフスキー氏とチャン氏は、このモデルは握りこぶしや「OK」「ロックンロール」「スパイダーマン」といった一般的なジェスチャーだけでなく、米国、欧州、中国など複数の文化圏の算数のジェスチャーも認識できると述べた。

さらに、これらのモデルは、画像の切り取りやレンダリングにグラフィック カードを使用するなど、対応する個別のタスクも実行できるため、コンピューティング リソースを節約できます。また、手のひら検出モデルは必要な場合にのみ実行されます。これは、ほとんどの期間において、後続のビデオ フレーム内の手の位置は計算された手のキー ポイントによってのみ推測できるため、手のひら検出器は必要なくなるためです。つまり、手検出モデルは、推論の信頼度が特定のしきい値を下回った場合にのみ再度作動します。

今後、バザレフスキー氏、チャン氏、および彼らのチームは、確実に検出できるジェスチャの数を増やし、リアルタイムの動的ジェスチャ認識のサポートを検討しながら、より強力で安定した追跡拡張機能を構築する予定です。 「この技術のリリースは、研究者や開発者のコ​​ミュニティが新しいアイデアやアプリケーションを発見するのに役立つと信じている」と彼らは結論付けた。

<<:  2020年のIT開発トレンドは刺激的

>>:  機械学習で避けるべき3つの落とし穴

ブログ    
ブログ    

推薦する

国内生産のテスラは、自動運転アルゴリズムとチップを除いてすべて中国製です

みんなで思い出すと「サプライチェーン」が浮かび上がる最近、テスラは中国で国産テスラ車の一部をリコール...

自然言語処理のためのオープンソースツールトップ12

私たちの生活に浸透しているすべてのチャットボット、音声アシスタント、予測テキスト、その他の音声/テキ...

人工知能が注目を集め、ロボットキャスターが生放送の「新参者」に

北京ビジネスデイリー(陳偉記者) 知能ロボットは記者、シェフ、囲碁の達人になった後、最近は生放送業界...

ディープラーニングでよく使われる8つの活性化関数

活性化関数(変換関数とも呼ばれる)は、ニューラル ネットワークを設計するための鍵となります。活性化関...

Googleの新しい研究により、ロボット犬が速歩することが可能になった

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

天才か愚か者か: 史上最も物議を醸したニューラル ネットワーク

エクストリームラーニングマシンExtreme Learning Machine は、これまでで最も賢...

Llama2がオープンソース化された後、国内の大型モデルはどのような展開を見せるのでしょうか?

7 月 19 日、オープン ソース コミュニティの最も強力な大規模モデルが Llama から Ll...

この記事では人工知能とは何かを徹底的に解説します!

人工知能 (AI) は、自然科学のさまざまな分野を網羅しており、主に特定の種類の知的な人間の活動をモ...

AIとプライバシーの未来: コンピュータービジョンソリューションとプライバシー

データ保護とセキュリティは、何十年もの間、企業にとって最大の懸念事項でした。現在、75% 以上の企業...

NeO 360: 屋外シーンのスパースビュー合成のためのニューラルフィールド

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

兵馬俑は「Subject Three」を演奏したが、これは予想外のことだった

ご家族の皆さん、世界中で人気の魔法のダンス「Subject Three」、まさか兵馬俑も踊り始めると...

...

...

李蘭娟氏との対話:人工知能は流行病を「すべて捕捉」し、医療をより正確にする

[[353851]] 「新型コロナウイルス感染症の突然の発生は、厳しい課題、不確実性、状況の進展の複...