アイアンマンは指と手のひらを回すだけで、あっという間に鎧の製作を完了した。この魔法のような技に、スクリーンの外のファンは一瞬でひざまずいた。アイアンマンの「純粋なジェスチャーセンシング」も、テクノロジー業界で頻繁に議論されるトピックとなっています。 では、普通の人でもこのようなクレイジーでクールで素晴らしい操作スキルを習得できるのでしょうか? できる。快手が答えた。 快手が「見せびらかすツール」を発売:数秒で稲妻の手に変身技術の発展に伴い、研究者は人間とコンピューターの相互作用のさまざまな方法をますます模索しており、その中でもリアルタイムの手の姿勢推定は科学者が注目している研究方向の 1 つです。簡単に言えば、手の姿勢の推定は、コンピューターが人間のボディランゲージを理解するための手段です。このテクノロジーにより、人間とコンピュータの相互作用は、マウスとキーボードで制御されるテキスト インターフェイスやユーザー グラフィック インターフェイスに限定されなくなりました。 最近、Kuaishouは業界で初めて手の姿勢推定機能をリリースしました。この機能は、一般の人々に「見せびらかすためのツール」を提供します。ほんの数回の操作で、クールな特殊効果を実現できます。 ユーザーが指示に従って対応するジェスチャーを行う限り、さまざまな興味深い特殊効果を追加できます。例えば、ユーザーは動画の中で本物の「ウルトラマン」のように行動し、ダイナミックな光波球を発射することができます。数秒で狼の爪や稲妻の手に変形することもできます。子供の頃に憧れたマーベルのキャラクターを、どんな大きな動きでも披露しても問題ありません。 ユーザーがこの製品を使用して写真を撮ると、アルゴリズムが自動的に手の形状カテゴリを識別し、手の重要なポイントの位置を推定します。キーポイントの位置や手の形の種類に応じて、さまざまな特殊効果を生み出したり、画像の内容と人間とコンピュータのインタラクションを実行したりできます。ユーザーは手の形によって対応する特殊効果をトリガーすることができ、また指の関節レベルでの正確な制御も実現できます。 この機能が導入された後、多くのユーザーがこの斬新な遊び方を試しました。 ジェスチャー認識の秘密を解き明かすと、Kuaishou はどのような問題を解決したのでしょうか?ジェスチャー認識技術は、Kuaishouが2016年に設立したY-Labチームのジェスチャー研究開発チームによって開発されました。今年、ユーザーに斬新な体験をもたらす新たな技術をさらに開発するため、Kuaishou は高度な教育を受けた研究開発チームを結成しました。彼らの研究分野には、人工知能、機械学習、コンピューター ビジョン、コンピューター グラフィックス、拡張現実などが含まれます。 2018年、Kuaishouはテクノロジーと製品のより良い統合を図るため、Y-Labの名称をY-techに変更しました。 Y-techのジェスチャー研究開発チームの担当者によると、ジェスチャー認識技術とは、写真や動画に映った人間の手を検出し、検出された手の手の形やキーポイントの位置を予測する技術を指す。 一般的なジェスチャ認識技術には、手の形状認識、2 次元の手の姿勢推定、3 次元の手の姿勢推定などがあります。手の形状認識から3Dの手姿勢推定まで、認識する必要のある情報はますます増え、研究開発の難易度は飛躍的に高まります。上記で紹介した機能には、手の検出、手の形状認識、2 次元の手の姿勢推定などがあります。 現在、手の形状認識は業界では比較的成熟していますが、2次元の手の姿勢推定はまだあまり成熟していません。Kuaishouは業界で初めてこの技術をモバイル端末に適用する企業になると報じられています。 3次元の手の姿勢推定技術は比較的難しく、双眼鏡カメラや深度カメラなどの特殊なハードウェアを通じてのみ実現できます。 ジェスチャー認識の開発中、Y-tech チームはアルゴリズム戦略、ネットワーク構造設計、モデル最適化、基礎となる加速など、多くの技術とソリューションを蓄積しており、これらの経験は他のシナリオでも完全に再利用できます。 人工知能分野で広く使われている顔認識と比較すると、ジェスチャー認識技術にはいくつかの技術的な難しさがある。Y-techのジェスチャー研究開発責任者は「手は自由度が高く、自己遮蔽が深刻で、特徴が不明瞭であるため、顔よりも難しい」と語った。 Kuaishou を例にとると、この機能は現在、複数の手を同時に検出でき、最大 17 種類の手の形状認識をサポートし、手の 21 個の 2 次元キーポイントを識別できます。これらの機能を実現するために、R&D チームは多くの困難を克服しました。 • カメラに人間の手が占める割合は小さく、効率的な小さなターゲットの検出は現在業界では難しい問題となっています。 • 人間の手の重度の自己閉塞と関節運動の自由度が高い。 • ユーザーの携帯電話には単眼画像しかないため、純粋な視覚アルゴリズムの実装が必要です。 • ユーザーの携帯電話のカメラで撮影された写真の品質はさまざまであり、ユーザーは同じ手をさまざまな方法でポーズする場合があります。 担当者によると、チームはまず検出アルゴリズムの枠組みを改善し、小さなターゲットの検出能力を高め、人間の手の特性に基づく事前知識を統合することで、問題の複雑さを軽減し、予測結果の改善を実現したという。 携帯電話の計算能力はユーザーによって異なるため、同じソフトウェアをより多くのユーザーで使用する場合は、さまざまなモデルの条件を考慮する必要があります。Kuaishou AI Lab は、この問題を 2 つの方法で解決しました。 1. アルゴリズムレベルでは、研究開発担当者が効率的なニューラルネットワーク構造を設計し、異なるモデルに異なるアルゴリズム戦略を採用しました。 2. エンジニアリング実装の面では、Kuaishouが自社開発したYCNNは、さまざまな携帯電話のハードウェアアーキテクチャに高度に適応し、パフォーマンスを最適化しています。CPU、GPU、NPU、DSPなどの複数の動作モードを使用できるため、AIテクノロジーの動作がユーザーデバイスの計算能力によって制限されるという問題を解決します。 次のステップ:将来的には3Dの手の再構築を試みる予定快手にとって、モバイルアプリケーションにジェスチャー認識機能を追加することは試みです。機能面では確かに改善すべき点が多くあります。R&Dチームによると、製品のアルゴリズムによるモーションブラーと手の重なりの処理はまだ不完全であり、これが次に解決しなければならない重要な問題です。今後、チームは端末上で3次元の手の再構築を実行し、より正確なモーション認識とインタラクションのための技術を準備する予定です。ショートビデオ分野での応用に加え、ゲーム、拡張現実、ライブストリーミング、教育などの分野でのジェスチャー認識技術の応用もトレンドとなり、これはKuaishouが模索している方向でもあります。 ジェスチャー認識技術が開発されて以来、多くの企業がさまざまな分野でそれを試してきました。将来、ジェスチャー認識の応用シナリオは非常に広範囲になるでしょう。小さな手の認識やモーションブラーなどの従来の問題に加えて、端末上の双眼カメラと深度カメラの情報をどのように組み合わせてジェスチャー認識効果を向上させるかも、業界の重要な課題になるでしょう。 |
>>: AIoT = AI + IoT、舞台裏で誰が誰をもっと必要としているのでしょうか?
大規模なマルチモーダルモデルを自動運転の意思決定者として使用すると、驚くほど効果的ですか? Sens...
[[223516]]この記事に付属するコードは、ここからダウンロードできます。 https://g...
数日前、OpenAIのCEOサム・アルトマン氏は世界ツアーのスピーチで、OpenAIの最近の開発ルー...
[[440047]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
[[207297]] LTR のエントリーレベルのモデルは線形モデルです。この記事では線形モデルを例...
Midjourney 5.2 はちょうど 1 週間前にリリースされ、さらに大きなアップデートが行われ...
現代社会は科学技術が主導する社会です。様々な科学技術分野で新たな発見や研究開発成果が絶えず生み出され...
[[430969]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
[[433578]]最近、ある有名なメディア関係者が銀行からカスタマーサービスに電話を受け、しばらく...
今年初めに発表されたデロイトのレポートによると、AIベースのソフトウェア開発ツールを提供するスタート...
人工知能は現代のビジネス界に多くの変化をもたらしています。多くの企業が AI を活用して顧客をより深...
著者 | リチャード・マクマナス企画 | ヤン・ジェンWeb3 は Web2 を打倒することはできま...