感情知能の高いNPCがやって来て、手を伸ばすとすぐに次の行動に協力する準備が整いました。

感情知能の高いNPCがやって来て、手を伸ばすとすぐに次の行動に協力する準備が整いました。

仮想現実、拡張現実、ゲーム、人間とコンピュータの相互作用などの分野では、仮想キャラクターが画面外のプレイヤーと対話できるようにする必要があることがよくあります。このインタラクションは即時に行われるため、仮想キャラクターはオペレーターのアクションに応じて動的に調整する必要があります。仮想キャラクターで椅子を動かすなど、オブジェクトが関係するインタラクションもあり、オペレーターの手の正確な動きに特別な注意を払う必要があります。インテリジェントでインタラクティブな仮想キャラクターの出現により、人間のプレイヤーと仮想キャラクター間のソーシャル体験が大幅に向上し、新しいエンターテイメントの形がもたらされます。

この研究では、著者らは人間と仮想人間の相互作用タスク、特に物体が関与するタスクに焦点を当て、「オンライン全身動作応答合成」と呼ばれる新しいタスクを提案しました。新しいタスクは、人間の行動に基づいて仮想的な人間の反応を生成します。これまでの研究は主に人間同士のやり取りに焦点を当てており、タスク内のオブジェクトを考慮せず、手の動きなしで身体反応を生成していました。さらに、これまでの研究では、仮想人間が実装に基づいて次のステップを予測するオンライン推論というタスクは考慮されていませんでした。

新しいタスクをサポートするために、著者らはまず HHI と CoChair という 2 つのデータセットを構築し、統一されたアプローチを提案しました。具体的には、著者らはまず社会的アフォーダンス表現を構築しました。これを行うために、研究者らは社会的アフォーダンスベクトルを選択し、SE(3)等変ニューラルネットワークを使用してベクトルのローカル座標系を学習し、最後にその社会的アフォーダンスを正規化した。さらに、著者らはソーシャルアフォーダンス予測のスキームを提案し、仮想人間が予測に基づいて意思決定を行えるようにした。

実験では、本研究の手法は HHI および CoChair データセットに対して高品質の反応アクションを効果的に生成でき、A100 で 25 FPS のリアルタイム推論速度を達成できることが示されました。さらに、著者らは、既存の人間相互作用データセットである Interhuman と Chi3D でこの方法の有効性も検証しました。


論文アドレス: https://arxiv.org/pdf/2312.08983.pdf

プロジェクトのホームページ: https://yunzeliu.github.io/iHuman/

データセットの構築

本論文では、オンライン全身動作応答合成タスクをサポートするために 2 つのデータセットを構築しました。1 つは 2 者間インタラクション用の HHI データセット、もう 1 つは 2 者とオブジェクトのインタラクション用の CoChair データセットです。

HHI データセットは、30 の相互作用カテゴリ、10 組の人間の骨格タイプ、合計 5000 の相互作用シーケンスを含む大規模な全身アクション反応データセットです。

HHI データセットには 3 つの特性があります。 1 つ目の特徴は、身体や手の相互作用を含む、複数人による全身の相互作用が含まれることです。著者は、複数人によるやりとりでは、手によるやりとりを無視することはできないと考えています。握手、ハグ、引き渡しの際には、豊富な情報が手を通じて伝達されます。 2 番目の特徴は、HHI データセットが行動の明確な開始者と応答者を区別できることです。たとえば、握手、方向指示、挨拶、引き継ぎなどの場合には、HHI データセットによってアクションの開始者を特定できるため、研究者はこの問題をより適切に定義して評価できます。 3 つ目の特徴は、HHI データセットには、2 人の間の 30 種類のインタラクションだけでなく、同じアクターに対する複数の合理的な応答など、より多様な種類のインタラクションと応答が含まれていることです。たとえば、誰かがあなたに挨拶をしたとき、うなずいたり、片手または両手で応答することができます。これも自然な特徴ですが、これまでのデータセットではほとんど議論されていません。

CoChair は、8 種類の椅子、5 種類のインタラクション モード、10 種類のスケルトン ペア、合計 3000 シーケンスを含む大規模な複数人およびオブジェクトのインタラクション データセットです。 CoChair には 2 つの重要な特徴があります。まず、CoChair のコラボレーション プロセスには情報の非対称性があります。各アクションには、実行者/開始者 (搬送されるオブジェクトの宛先を知っている) と応答者 (宛先を知らない) が存在します。 2つ目は、さまざまな持ち運びモードがあることです。データ セットには、片手固定持ち運び、片手移動持ち運び、両手固定持ち運び、両手移動持ち運び、両手柔軟持ち運びの 5 つの持ち運びモードが含まれています。

方法

ソーシャル アフォーダンスのキャリアとは、ソーシャル アフォーダンス情報をエンコードするオブジェクトまたは人物を指します。人間が仮想の存在と対話する場合、通常、人間は仮想の存在と直接的または間接的に接触することになります。そして、物体に関して言えば、人間は通常その物体に触れます。

対話における直接的なまたは潜在的な連絡先情報をシミュレートするには、人間、ベクトル自体、およびそれらの関係を同時に表すベクトルを選択する必要があります。この研究では、キャリアとは、人間が接触する可能性のある物体または仮想の人間のテンプレートを指します。

これに基づいて、著者らはキャリア中心のソーシャル アフォーダンスの表現を定義します。具体的には、ベクトルが与えられると、人間の行動をエンコードして、密な人間とベクトルの結合表現を取得します。この表現に基づいて、著者らは、人間の行動、車両の動的な幾何学的特徴、および各時間ステップにおける人間と車両の関係を組み込んだソーシャルアフォーダンス表現を提案しています。

ソーシャル アフォーダンス表現は、単一フレームの表現ではなく、開始瞬間から特定の時間ステップまでのデータ ストリームを参照することに注意することが重要です。この方法の利点は、キャリアのローカルエリアを人間の行動や動きと密接に関連付け、ネットワークが学習しやすい表現を形成することです。

著者らは、ソーシャル アフォーダンス表現を通じて、ソーシャル アフォーダンス正規化をさらに採用し、表現空間を簡素化しています。最初のステップは、ベクトルのローカル フレームを学習することです。キャリアの局所座標系はSE(3)等変ネットワークを通じて学習される。具体的には、まず人間の動きを各ローカル座標系における動きに変換します。次に、各視点から人間のキャラクターの行動を密にエンコードして、密なキャリア中心の行動表現を取得します。これは、ベクトル上の各ローカル ポイントに「観察者」をバインドし、各「観察者」が一人称視点から人間の行動をエンコードするものと考えることができます。このアプローチの利点は、人間、仮想人間、およびオブジェクト間の接触によって生成される情報をモデル化しながら、ソーシャル アフォーダンスの正規化によってソーシャル アフォーダンスの配布が簡素化され、ネットワーク学習が容易になることです。

仮想人間と対話する人間の行動を予測するために、著者らは社会的アフォーダンス予測モジュールを提案した。現実の状況では、仮想人間は人間の行動の歴史的なダイナミクスを観察することしかできません。著者は、仮想人間が自らの行動をより適切に計画するために、人間の行動を予測する能力を持つべきだと考えています。たとえば、誰かが手を上げてあなたの方へ歩いてきたとき、あなたはその人があなたと握手したいと思っていると想定し、握手のために準備するかもしれません。

トレーニング段階では、仮想人間は人間のすべての行動を観察できます。現実世界の予測段階では、仮想人間は人間の行動の過去のダイナミクスを観察することしかできません。提案された予測モジュールは、仮想人間の知覚能力を向上させるために人間が取る行動を予測することができます。著者らは、動き予測モジュールを使用して、人間の俳優の動きと物体の動きを予測します。 2 者間の対話では、著者らは HumanMAC を予測モジュールとして使用しました。 2 人の人物と物体の相互作用において、著者らは InterDiff に基づく動作予測モジュールを構築し、人物と物体の接触が安定しているという事前条件を追加して、物体の動作を予測する難しさを軽減しました。

実験

定量的なテストでは、この研究の方法がすべての指標において既存の方法よりも優れていることが示されています。この方法における各設計の有効性を検証するために、著者らは HHI データセットでアブレーション実験を実施しました。ソーシャル アフォーダンスの正規化を行わないと、この方法のパフォーマンスが大幅に低下することがわかります。これは、特徴空間の複雑さを簡素化するためにソーシャル アフォーダンス正規化を使用する必要があることを示唆しています。ソーシャル アフォーダンス予測がなければ、私たちのアプローチは人間の行動を予測する能力を失い、パフォーマンスが低下します。ローカル座標系を使用する必要性を検証するために、グローバル座標系を使用した場合の効果も比較したところ、ローカル座標系の方が大幅に優れていることがわかりました。これは、ローカル座標系を使用してローカルジオメトリと潜在的な接触を記述することが有益であることも示しています。

視覚化結果から、本稿の手法を用いてトレーニングされた仮想キャラクターは、従来と比べて反応が速くなり、局所的なジェスチャーをより適切に捉えられるようになり、共同作業においてよりリアルで自然な掴み動作を生成できることがわかります。

研究の詳細については原著論文を参照してください。

<<:  2024年にワイヤレス技術が接続性、効率性、消費者体験をどのように向上させるか

>>: 

ブログ    

推薦する

機械学習の成功事例 5 つ

人工知能と機械学習は企業の世界で注目を集めており、組織はますますこれらのテクノロジーを活用して顧客の...

ACオートマトンとベイズ法に基づくスパム識別

背景オープンな知識ソーシャルプラットフォームとして、Zhihu は「友好的」、「合理的」、「専門的」...

ByteDance アルゴリズムの面接の質問、解けますか?

数日前、私の友人がByteDanceの面接を受けました。面接官は彼にリンクリストアルゴリズムの質問を...

大きなモデルが必ずしも良いモデルとは限らない。小さな機械学習こそが未来だ

NASA の推進により、電子機器の小型化は消費者向け製品産業全体に広がりました。ベートーヴェンの全作...

すべてがジョジョになる:このGANはマスクを人間ではないものにする

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

剪定法を使用してより良い決定木を設計する方法

決定木 (DT) は、分類および回帰の問題を解決するために使用される教師あり機械学習アルゴリズムです...

開発者にとって朗報:中国初の AI 自動脆弱性マイニング システムが公開テストを開始

最近、国家発展改革委員会は初めて「新インフラ」情報インフラの範囲を明確にした。5G、人工知能、クラウ...

これが顔認識と画像認識がますます重要になっている理由です

捜査チームがスケッチアーティストを雇って、目撃者が語った犯人像を描いてもらう犯罪番組を見たことを覚え...

より賢いAIの代償:Google、音声アシスタントがユーザーの会話の録音を漏洩したことを認める

AI時代の生活にプライバシーは存在しません。スマート音声アシスタントはプライバシー漏洩の次の大きな災...

インタビュー必読: 4 つの典型的な電流制限アルゴリズムの説明

[[402482]]最近、当社の業務システムは、トークン バケット アルゴリズムに基づいて実装された...

機械学習モデルの再トレーニングの究極ガイド

機械学習モデルのトレーニングは通常、一連の入力機能と出力ターゲット間のマッピングを学習することによっ...

...

よく使われるソートアルゴリズムの比較と分析

1. よく使われるソートアルゴリズムの簡単な説明以下では、主にソートアルゴリズムの基本的な概念と原則...