人間の動作生成タスクは、エンターテインメント、仮想現実、ロボット工学などの分野のニーズを満たす、リアルな人間の動作シーケンスを生成することを目的としています。従来の生成方法には、3D キャラクターの作成、キーフレーム アニメーション、モーション キャプチャなどの手順が含まれますが、時間がかかり、専門的な技術知識が必要であり、高価なシステムとソフトウェアが必要であり、異なるソフトウェアとハードウェア システム間の互換性の問題が発生する可能性があるなど、多くの制限があります。ディープラーニングの発展に伴い、生成モデルを使用して人間の行動シーケンスを自動的に生成する試みが始まりました。たとえば、テキストの説明を入力すると、モデルはテキストの要件に一致する行動シーケンスを生成する必要があります。この分野に拡散モデルが導入されるにつれて、生成されたアクションと指定されたテキストとの一貫性は向上し続けます。 しかし、生成されたアクションの自然さは、実際の使用要件からは程遠いものです。本論文では、人間の動作生成アルゴリズムの能力をさらに向上させるために、MotionDiffuse [1] に基づいたReMoDiffuseアルゴリズム (図1) を提案する。検索戦略を利用することで、関連性の高い参照サンプルを見つけ、きめ細かい参照特徴を提供することで、より高品質な動作シーケンスを生成する。
ReMoDiffuse は、拡散モデルと革新的な検索戦略を巧みに統合することで、テキスト誘導による人間の動作生成に新たな活力を注入します。慎重に設計されたモデル構造により、ReMoDiffuse は、高いリアリティを備えた豊かで多様なアクション シーケンスを作成できるだけでなく、さまざまな長さや多粒度のアクションのニーズにも効果的に対応できます。実験では、ReMoDiffuse がモーション生成の分野における複数の主要指標で優れたパフォーマンスを発揮し、既存のアルゴリズムを大幅に上回っていることが示されています。 図1. ReMoDiffuseの概要 方法の紹介ReMoDiffuse は主に、取得と拡散の 2 つの段階で構成されます。検索段階では、ReMoDiffuse はハイブリッド検索テクノロジーを使用して、ユーザーの入力テキストと予想されるアクションシーケンスの長さに基づいて外部のマルチモーダル データベースから情報豊富なサンプルを取得し、アクション生成のための強力なガイダンスを提供します。拡散フェーズでは、ReMoDiffuse は取得フェーズで取得された情報を活用して、効率的なモデル構造を通じてユーザー入力と意味的に一致するモーション シーケンスを生成します。 効率的な検索を確実にするために、ReMoDiffuse は検索フェーズで次のデータ フローを慎重に設計します (図 2)。 検索プロセスに関係するデータには、ユーザー入力テキスト、予想されるアクション シーケンスの長さ、複数の <テキスト、アクション> ペアを含む外部マルチモーダル データベースの 3 種類があります。最も関連性の高いサンプルを取得する際、ReMoDiffuse は数式を使用して、データベース内の各サンプルとユーザー入力との類似性を計算します。ここで最初の項は、事前学習済みのCLIP [2]モデルのテキストエンコーダーを使用して、ユーザー入力テキストとデータベースエンティティのテキスト間のコサイン類似度を計算し、2番目の項は、予想されるアクションシーケンス長とデータベースエンティティのアクションシーケンス長の相対的な差を運動学的類似度として計算します。類似度スコアを計算した後、ReMoDiffuse は類似度の高い上位 k 個のサンプルを取得サンプルとして選択し、テキスト機能とアクション機能を抽出します。これら 2 つは、ユーザー入力テキストから抽出された特徴とともに、アクション生成を導くための拡散段階への入力信号として使用されます。 図2: ReMoDiffuseの回収フェーズ 拡散プロセス (図 3.c) は、順方向プロセスと逆方向プロセスの 2 つの部分で構成されます。フォワードプロセスでは、ReMoDiffuse は生のモーション データに徐々にガウス ノイズを追加し、最終的にランダム ノイズに変換します。逆のプロセスでは、ノイズを除去し、リアルなモーション サンプルを生成することに重点を置いています。 ReMoDiffuse は、ランダムなガウスノイズから始めて、セマンティック変調モジュール (SMT) (図 3.a) を使用して、逆プロセスの各ステップで真の分布を推定し、条件付き信号に基づいてノイズを徐々に除去します。ここで、SMT の SMA モジュールは、生成されたシーケンス機能にすべての条件情報を統合し、この論文で提案されているコア モジュールとなります。 図3: ReMoDiffuseの拡散段階 SMA層(図3.b)では、Efficient Attentionメカニズム[3]を使用して、注意モジュールの計算を高速化し、グローバル情報を強調したグローバル特徴マップを作成します。この機能マップは、アクション シーケンスのより包括的な意味的手がかりを提供し、それによってモデルのパフォーマンスを向上させます。 SMA レイヤーの主な目標は、条件情報を集約してアクション シーケンスの生成を最適化することです。このフレームワークでは: 1. Qベクトルは、条件情報に基づいて生成したい予想されるアクションシーケンスを具体的に表します。 2. インデックス作成メカニズムとしてのKベクトルは、現在のアクションシーケンスの特徴、ユーザー入力の意味的特徴、検索サンプルから取得された特徴など、複数の要素を総合的に考慮します。このうち、 は検索サンプルから得られたアクションシーケンスの特徴を表し、 は検索サンプルから得られたテキスト記述の特徴を表します。この包括的な構築方法により、インデックス作成プロセスにおける K ベクトルの有効性が保証されます。 3. V ベクトルは、アクション生成に必要な実際の機能を提供します。 K ベクトルと同様に、ここでの V ベクトルも、検索サンプル、ユーザー入力、および現在のアクション シーケンスを総合的に考慮します。取得されたサンプルのテキスト記述機能と生成されたアクションの間には直接的な相関関係がないことを考慮して、不要な情報干渉を避けるために、V ベクトルを計算するときにこの機能を使用しないことを選択します。 SMA レイヤーは、Efficient Attention のグローバル アテンション テンプレート メカニズムと組み合わせて、検索サンプルからの補助情報、ユーザー テキストの意味情報、およびノイズ除去するシーケンスの特徴情報を使用して、一連の包括的なグローバル テンプレートを確立し、生成されるシーケンスによってすべての条件情報が完全に吸収されるようにします。 実験と結果ReMoDiffuseをHumanML3D [4]とKIT-ML [5]の2つのデータセットで評価しました。テキストとモーション品質の一貫性の観点から、実験結果 (表 1 および 2) は、提案された ReMoDiffuse フレームワークの強力なパフォーマンスと利点を示しています。 表1. HumanML3Dテストセットにおけるさまざまな手法のパフォーマンス 表2. KIT-MLテストセットにおけるさまざまな手法のパフォーマンス 以下は、ReMoDiffuse の強力なパフォーマンスを定性的に示すいくつかの例です (図 4)。従来の方法と比較すると、たとえば「円を描いてジャンプする人」というテキストが与えられた場合、ReMoDiffuse だけが「ジャンプ」アクションと「円」のパスを正確にキャプチャできます。これは、ReMoDiffuse がテキストの詳細を効果的にキャプチャし、コンテンツを指定されたモーション期間に合わせることができることを示しています。 図4. ReMoDiffuseと他の方法で生成されたモーションシーケンスの比較 Guoらの方法[4]、MotionDiffuse[1]、MDM[6]、ReMoDiffuseによって生成された対応する動作シーケンスを視覚化し、アンケートの形でテスト参加者の意見を収集した。結果の分布を図5に示します。結果から明らかなように、ほとんどの場合、テスト参加者は、当社の方法、つまり ReMoDiffuse によって生成されたアクション シーケンスが、与えられたテキストの説明と最も一致しており、4 つのアルゴリズムの中で最も自然で流暢であると信じていました。 図5: ユーザー調査結果の分布 |
>>: 聞いてください、トランスフォーマーはサポートベクターマシンです
[[330619]]テクノロジーとエコロジーの継続的な進化、およびアプリケーション シナリオの継続的...
「データが王様」と言われる今日の世界では、データサイエンスに興味を持つ人が増えています。データ サ...
6 月 27 日のニュース: わずか半年で、ChatGPT は世界で最も有名なインターネット ブラン...
新しい建物では、利用可能なリソースの最適化を最大限にしながら、セキュリティと有用かつ重要なデータを豊...
悲しい話です。2017年、14歳のイギリスの少女モリー・ラッセルが予期せず自殺を選択しました。このよ...
ルールを研究し、ランキングの計算方法を大まかに推定した人もいます。今日のランキング = 今日のダウン...
[[390934]] AI と機械学習の最近の研究では、一般的な学習と、ますます大規模なトレーニング...
1956 年、若い数学助教授ジョン・マッカーシーが率いる科学者グループがニューハンプシャー州のダー...
量子コンピューティングは、おそらく現在最もエキサイティングな(そして話題になっている)研究分野の 1...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...