Meta はヘッドマウントディスプレイを使用して全身のモーショントラッキングを実現します。脚の情報なしで正確な姿勢推定

ヘッドセットにより、Meta は新たな命を吹き込まれます!

SIGGRAPH 2023 カンファレンスで発表された最新の研究で、研究者らは次のことを示しました。

Quest センサーと周囲の物体や環境との相互作用だけで、人の全身の動きを捉えることができます。

複雑な環境とのやり取りも問題ありません。

入力は依然として同じで、座標フレームは 3 つだけです (カメラはありません)。

仮想キャラクターを追加すると、腕と脚の動きがすべて利用できるようになります (緑の点は環境の高さです)。

足の動きの効果を見て、ネットユーザーたちはすぐに衝撃を受けた。

この脚の見積もりには衝撃を受けました！

まだ終わってないよ！下半身に関する情報がなくても、箱の上を歩いたり、障害物を越えたり、人間の動きを正確に追跡したりすることもできます。

物理シミュレーションにより、後処理なしで、優れた効果を持つインタラクティブなシーンを生成することができます。

センサーでいいですよ！ハンドルを取り外した後、手の動きはランダムですが、歩く姿勢はまだ適切です。

これを読んでネットユーザーは衝撃を受けた。

ユーザーが自宅で簡単な機器を使用して、体と顔の表情を備えた完全なデジタルヒューマンアニメーションを作成できるように、Metahuman システムと組み合わせることを検討しましたか?

現在、既存のモーショントラッキング方法のほとんどは、足と地面の接触を除いて、環境との相互作用を回避しようとします。

では、この研究では、動作追跡に環境の相互作用をどのように利用するのでしょうか?

環境との相互作用を含むデータを使用してトレーニングする

私たちの日常生活において、環境との関わりは避けられません。

ソウル国立大学（SNU）とMeta Reality Labs Researchの研究者によるこの研究では、強化学習を使用して、センサーを物理シミュレーションと環境観察と組み合わせることで、制約の厳しい環境でもリアルな全身動作を再現できることを示しています。

これを実現するには、次の 3 つのアプローチを検討する必要があります。

インタラクションによるアクション、スパースセンサー入力からの運動学的追跡、物理ベースのモーション追跡を合成します。

この論文で研究者が使用した戦略では、入力としてヘッドセットとコントローラーの姿勢のみが必要であり、下半身に関する情報はなく、仮想キャラクターを安定させるために人間の力に頼りません。

本研究の物理シミュレーションは、アクション姿勢を追跡するために必要なさまざまな制約を自動的に適用できるため、貫通や接触滑りなどの一般的な問題を起こさずに、高品質のインタラクティブなアクションが可能になります。

そして、深層強化学習 (Deep RL) を使用して、シミュレートされた仮想キャラクターとユーザー入力の差を減らすことでエラーを最小限に抑える制御ポリシーを学習します。

上の図に示すように、仮想シミュレーションキャラクターには 32 の自由度と 18 の関節があり、関節トルクによって駆動されます。環境オブジェクトも、いくつかの基本的な幾何学的形状を使用してシミュレーションおよび複製されます。

実際の人間が環境オブジェクトに接触すると、特定の時間と場所がマークされ、監視情報として使用されます。

これにより、シーンの観察がポリシーに組み込まれ、環境をモーショントラッキングに使用できるようになります。

例えば、椅子に座ると、椅子の反力が発生するので、足を上げることがわかります。地面にある箱を踏むと、箱からも反力が発生します。接触後の反力を通じて物体を操作することもできます。

環境との接触力を意図的に作り出すことで追跡が容易になります。しかし一方で、接触が追跡の妨げになる場合には、制御戦略によって環境との接触を避けることもできます。

たとえば、仮想ボックスは仮想シミュレーション環境に配置されます。制御ポリシーは、高さマップ (緑の点) を通じて周囲のシーンを観察し、人のセンサーデータを追跡しながら足を上げて障害物を回避することを学習できます。

もちろん、この効果を達成するには、適切な環境観察表現、トレーニング中の接触報酬（足だけでなく他の体の部分も含む）、トレーニング中の物体位置のランダムな変化という 3 つの重要なポイントに注意する必要があります。

研究者たちは、報酬に触れなければ成功率が大幅に低下することに気づきました。シーンのランダム化を行わないと、パフォーマンスも大幅に低下します。

写真

座ったまま立ち上がれない

この研究で示されたモーショントラッキングはほとんどの場合うまく機能しましたが、トラッキングが失敗するケースもありました。

床から立ち上がるなどのタスクでは、人間の力が使用されないために、慎重に調整された接触を必要とするこの動作を制御戦略が学習することが難しいようです。

また、アバターがバランスを崩し、一度倒れてしまうと起き上がって追跡を続けることができない場合があります。

また、現在のシステムでは、インタラクションの種類ごとに個別のポリシーをトレーニングする必要があることにも留意する必要があります。

研究者らは次のように述べた。

より幅広いアクションのレパートリーをカバーする単一のトラッカーを学習できれば理想的です。これには、エキスパート混合モデルなどのより複雑なニューラルネットワークモデル、またはより長いトレーニング時間とより大きなデータセットが必要になる場合があります。
もう 1 つの有望な方向性は、動的に移動するオブジェクトを含む未知のシーンを含めるようにシステムを拡張することです。オンラインシステム識別をシステムの一部として組み込むことができます。

<<: AIとIoTが交通管理に及ぼす6つの影響

>>: 科学：ChatGPTは労働者と非労働者の間の格差を縮小する