Meta はヘッドマウントディスプレイを使用して全身のモーショントラッキングを実現します。脚の情報なしで正確な姿勢推定

Meta はヘッドマウントディスプレイを使用して全身のモーショントラッキングを実現します。脚の情報なしで正確な姿勢推定

ヘッドセットにより、Meta は新たな命を吹き込まれます!

SIGGRAPH 2023 カンファレンスで発表された最新の研究で、研究者らは次のことを示しました。

Quest センサーと周囲の物体や環境との相互作用だけで、人の全身の動きを捉えることができます。

複雑な環境とのやり取りも問題ありません。

入力は依然として同じで、座標フレームは 3 つだけです (カメラはありません)。

仮想キャラクターを追加すると、腕と脚の動きがすべて利用できるようになります (緑の点は環境の高さです)。

足の動きの効果を見て、ネットユーザーたちはすぐに衝撃を受けた。

この脚の見積もりには衝撃を受けました!

まだ終わってないよ!下半身に関する情報がなくても、箱の上を歩いたり、障害物を越えたり、人間の動きを正確に追跡したりすることもできます。

物理シミュレーションにより、後処理なしで、優れた効果を持つインタラクティブなシーンを生成することができます。

センサーでいいですよ!ハンドルを取り外した後、手の動きはランダムですが、歩く姿勢はまだ適切です。

これを読んでネットユーザーは衝撃を受けた。

ユーザーが自宅で簡単な機器を使用して、体と顔の表情を備えた完全なデジタルヒューマンアニメーションを作成できるように、Metahuman システムと組み合わせることを検討しましたか?

現在、既存のモーション トラッキング方法のほとんどは、足と地面の接触を除いて、環境との相互作用を回避しようとします。

では、この研究では、動作追跡に環境の相互作用をどのように利用するのでしょうか?

環境との相互作用を含むデータを使用してトレーニングする

私たちの日常生活において、環境との関わりは避けられません。

ソウル国立大学(SNU)とMeta Reality Labs Researchの研究者によるこの研究では、強化学習を使用して、センサーを物理シミュレーションと環境観察と組み合わせることで、制約の厳しい環境でもリアルな全身動作を再現できることを示しています。

これを実現するには、次の 3 つのアプローチを検討する必要があります。

インタラクションによるアクション、スパース センサー入力からの運動学的追跡、物理ベースのモーション追跡を合成します。

この論文で研究者が使用した戦略では、入力としてヘッドセットとコントローラーの姿勢のみが必要であり、下半身に関する情報はなく、仮想キャラクターを安定させるために人間の力に頼りません。

本研究の物理シミュレーションは、アクション姿勢を追跡するために必要なさまざまな制約を自動的に適用できるため、貫通や接触滑りなどの一般的な問題を起こさずに、高品質のインタラクティブなアクションが可能になります。

そして、深層強化学習 (Deep RL) を使用して、シミュレートされた仮想キャラクターとユーザー入力の差を減らすことでエラーを最小限に抑える制御ポリシーを学習します。

上の図に示すように、仮想シミュレーション キャラクターには 32 の自由度と 18 の関節があり、関節トルクによって駆動されます。環境オブジェクトも、いくつかの基本的な幾何学的形状を使用してシミュレーションおよび複製されます。

実際の人間が環境オブジェクトに接触すると、特定の時間と場所がマークされ、監視情報として使用されます。

これにより、シーンの観察がポリシーに組み込まれ、環境をモーション トラッキングに使用できるようになります。

例えば、椅子に座ると、椅子の反力が発生するので、足を上げることがわかります。地面にある箱を踏むと、箱からも反力が発生します。接触後の反力を通じて物体を操作することもできます。

環境との接触力を意図的に作り出すことで追跡が容易になります。しかし一方で、接触が追跡の妨げになる場合には、制御戦略によって環境との接触を避けることもできます。

たとえば、仮想ボックスは仮想シミュレーション環境に配置されます。制御ポリシーは、高さマップ (緑の点) を通じて周囲のシーンを観察し、人のセンサー データを追跡しながら足を上げて障害物を回避することを学習できます。

もちろん、この効果を達成するには、適切な環境観察表現、トレーニング中の接触報酬(足だけでなく他の体の部分も含む)、トレーニング中の物体位置のランダムな変化という 3 つの重要なポイントに注意する必要があります。

研究者たちは、報酬に触れなければ成功率が大幅に低下することに気づきました。シーンのランダム化を行わないと、パフォーマンスも大幅に低下します。

写真

座ったまま立ち上がれない

この研究で示されたモーショントラッキングはほとんどの場合うまく機能しましたが、トラッキングが失敗するケースもありました。

床から立ち上がるなどのタスクでは、人間の力が使用されないために、慎重に調整された接触を必要とするこの動作を制御戦略が学習することが難しいようです。

また、アバターがバランスを崩し、一度倒れてしまうと起き上がって追跡を続けることができない場合があります。

また、現在のシステムでは、インタラクションの種類ごとに個別のポリシーをトレーニングする必要があることにも留意する必要があります。

研究者らは次のように述べた。

より幅広いアクションのレパートリーをカバーする単一のトラッカーを学習できれば理想的です。これには、エキスパート混合モデルなどのより複雑なニューラル ネットワーク モデル、またはより長いトレーニング時間とより大きなデータセットが必要になる場合があります。

もう 1 つの有望な方向性は、動的に移動するオブジェクトを含む未知のシーンを含めるようにシステムを拡張することです。オンライン システム識別をシステムの一部として組み込むことができます。

<<:  AIとIoTが交通管理に及ぼす6つの影響

>>:  科学:ChatGPTは労働者と非労働者の間の格差を縮小する

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

メタバース: 新たな人間コミュニティか、それとも徹底的な監視による「金儲けの道具」か?

バーチャルリアリティヘッドセットは何年も前から市場に出回っており、多くのティーンエイジャーもこれらの...

30 行の JavaScript コードで、わずか数分でニューラル ネットワークを作成する方法を学びます。

[[203712]]ニューラルネットワークを自分で構築するのは複雑すぎますか? [[203713]...

NetEase はデータ指標の異常をどのように検出し、診断するのでしょうか?

1. 背景指標はビジネスと密接に関係しており、その価値は、問題点やハイライトを発見し、タイムリーに...

IoTとAIの相乗効果:予知保全の可能性を解き放つ

モノのインターネット (IoT) と人工知能 (AI) の融合により、産業の風景に革命をもたらす変革...

マイクロソフトはIBMとアマゾンに続き、警察への顔認識技術の販売を拒否

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ユーザーエクスペリエンスは過去のものになりました。AIは国民、さらには社会の視点から問題を考える必要があります。

今日、テクノロジーの巨人とその AI ベースのデジタル プラットフォームおよびソリューションは、世界...

...

...

Python の基本 + モンテカルロ アルゴリズム (ソース コード付き) を使用して、順列と組み合わせに関する質問を共有します。

[[433465]]みなさんこんにちは。私は Python の専門家です。この記事のタイトルを考え...

「ビッグモデルは基本的に2つのファイルです!」テスラの元AIディレクターが一般向けに1時間にわたるLLMポピュラーサイエンスを披露

テスラの元AIディレクター、アンドレイ・カルパシー氏の新しいチュートリアルが話題になっている。今回、...

...

...

Keras によるステートフル LSTM リカレント ニューラル ネットワークの理解

[[327815]]この記事を読むと、次のことがわかります。 1. シーケンス予測問題のための単純な...

Transformerの本質的欠陥を解決する:復旦大学らが提案した線形複雑性SOFT

[[437909]] Visual Transformer (ViT) は、パッチ単位の画像トーク...