どのAIダンスが一番いいですか? Google の 3D ダンサーが音楽に合わせて踊り、DanceNet に挑戦

どのAIダンスが一番いいですか? Google の 3D ダンサーが音楽に合わせて踊り、DanceNet に挑戦

今回、トランスフォーマーはダンス生成タスクに参加しました。

芸術分野では、AIが生成した音楽やAIが描いた絵画など、AIはさまざまな用途に使われています。

ダンスも AI が習得しようとしている能力です。

以前は、音楽のスタイル、リズム、メロディーを制御信号として使用して3Dダンスの動きを生成するDaceNetが非常に人気がありました。

今日、DanceNet には新たな挑戦者がいます。Google の最新の研究である AI Choreographer です。2 秒間のガイド付きの動きが与えられると、AI モデルは音楽のリズムに合わせて自然なダンスの動きの長いセクションを生成できます。

結果として得られるダンス効果は次のようになります (残念ながらアニメーションには音がありません)。

[[377980]]

[[377981]]

DanceNetなどの同様の研究と比較すると、Googleの新しい方法はより効果的です。左側の 2 つの方法で生成されたダンスの動きは「発作」のようですが、新しい方法はよりスムーズで自然です。

これは依然として Transformer ベースのモデルであることに注意してください。

論文アドレス: https://arxiv.org/pdf/2101.08779v1.pdf

プロジェクトアドレス: https://google.github.io/aichoreographer/

論文の詳細を見てみましょう:

音楽のビートに合わせて動きのパターンを振り付けて踊ることは、人間の基本的な能力です。ダンスはあらゆる文化に共通する言語であり、今日では多くの人々がマルチメディア プラットフォーム上でダンスを通じて自分自身を表現しています。 YouTube で最も人気のある動画は、「ベイビーシャークダンス」や「江南スタイル」などのダンスベースのミュージックビデオです。ダンスは、インターネット上で情報を発信する上で強力なコミュニケーションツールとなっています。

しかし、ダンスは人間にとっても、ダンサーが豊富なダンスの動きのレパートリーを習得し、表現力豊かな振り付けを作成できるようにするには専門的なトレーニングを必要とする芸術形式です。このタスクでは、付随する音楽との非線形関係を捉える、非常に複雑な運動の連続的な動きを生成する能力が求められるため、計算上はより困難です。

この研究では、南カリフォルニア大学、Google Research、カリフォルニア大学バークレー校の研究者らが、トランスフォーマーベースのクロスモーダル学習アーキテクチャと、3Dダンスモーションを生成するモデルをトレーニングするために使用される新しい3DダンスモーションデータセットAIST++を提案しました。

具体的には、音楽と短い(2 秒)シード モーションを与えると、私たちのモデルはリアルな 3D ダンス ムーブの長いシーケンスを生成できます。このモデルは音楽とアクションの相関関係を効果的に学習し、さまざまな入力音楽に合わせてダンスシーケンスを生成できます。研究者はダンスを、関節の回転と全体的な移動からなる 3D モーション シーケンスとして表現し、出力をモーション リダイレクトなどのアプリケーションに簡単に移行できるようにしています。具体的なプロセスを以下の図 1 に示します。

学習フレームワークの観点から、この研究では、音楽ベースの 3D アクションを生成するための新しいトランスフォーマーベースのクロスモーダル アーキテクチャを提案しました。このアーキテクチャは、長いシーケンスの生成に特に効果的であることが示されている注意ベースのネットワーク[15、62、3、71]に基づいており、視覚と言語に関するクロスモーダルの文献[71]からインスピレーションを得て、オーディオシーケンス表現用、アクション表現用、クロスモーダルオーディオアクション表現用の3つのトランスフォーマーを使用するフレームワークを設計しています。アクション トランスフォーマーとオーディオ トランスフォーマーは入力シーケンスをエンコードし、クロスモーダル トランスフォーマーは 2 つのモダリティ間の相関関係を学習して将来のアクション シーケンスを生成します。

本研究で設計された新しいクロスモーダル変換器は自己回帰特性を持っていますが、完全な注意と未来Nの監視を必要とします。これは、3Dモーション生成で以前に説明したように、複数回の反復後に3Dモーションがフリーズしたりドリフトしたりするのを防ぐために重要です[4, 3]。結果として得られる生成モデルは、推論中にドリフトフリーズが発生することなく、長期間にわたってリアルな動きを生成しながら、さまざまな音楽に対してさまざまなダンスシーケンスを生成します。

AIST++データセット

モデルをトレーニングするために、この研究では新しいデータセットである AIST++ も作成しました。このデータセットはAIST(マルチビューダンスビデオライブラリ)[78]に基づいて構築されています。研究者らは、マルチビュー情報を活用して、データから信頼性の高い 3D モーションを復元しました。このデータセットにはマルチビュー写真が含まれていますが、カメラが調整されていないため、3D 再構築が非常に困難になることに注意してください。

AIST++ データセットには、音楽を伴う 3D ダンス動作の最大 110 万フレームが含まれており、この種のデータセットとしては最大規模であることが知られています。 AIST++ は、10 種類の音楽ジャンル、30 のテーマ、9 つのビデオ シーケンスを網羅し、復元されたカメラ内部情報を備えているため、他の人間や動作の研究にも大きな可能性を秘めています。

データセットアドレス: https://google.github.io/aistplusplus_dataset/

本研究で作成されたAIST++は、音楽を伴う多数の3Dダンスモーションを収録した大規模な3Dダンスモーションデータセットです。各フレームには次の追加の注釈があります。

  • カメラの内部および外部パラメータを含む 9 つの視野角。
  • 2D と 3D の両方の COCO 形式での 17 個の人間の関節位置。
  • 24 個の SMPL ポーズ パラメータに加え、グローバル拡張と変換。

以下の表 1 は、AIST++ と他の 3D アクションおよびダンス データセットを比較したものです。AIST++ は、既存の 3D アクション データセットを補足するものです。

さらに、AIST++ データセットには、オールド スクール (ブレイク、ポップ、ロック、ワック) とニュースクール (ミドル ヒップホップ、LA スタイル ヒップホップ、ハウス、クランプ、ストリート ジャズ、バレエ ジャズ) の 10 種類のダンス タイプが含まれています (下の図 3 を参照)。

音楽ベースの3Dダンス生成

問題の説明: 2 秒間のアクション シード例 X = (x_1、...、x_T) と音楽シーケンス Y = (y_1、...、y_T') が与えられた場合、時間ステップ T + 1 から T' (T' >> T) までの将来のアクション シーケンス X' = (x_T+1、...、x_T') を生成します。

クロスモーダルアクション生成Transformer

この研究では、音楽とアクションの関連性を学習し、停滞することなくリアルなアクションシーケンスを生成できるTransformerベースのネットワークアーキテクチャを提案します。アーキテクチャ図については、下の図 2 を参照してください。

このモデルには 3 つのトランスフォーマーがあります。

  • アクション変換器 f_mot(X): アクション特徴Xをアクション埋め込みh^x_1:Tに変換します。
  • オーディオ変換器 f_audio(Y): オーディオ特徴 Y をオーディオ埋め込み h^y_1:T' に変換します。
  • クロスモーダル変換器 f_cross(h^xy_1:T +T'): アクションとオーディオの2つのモダリティ間の対応を学習し、将来のアクションX'を生成します。

2 つのモダリティ間の関連性をより深く理解するために、この研究では 12 層の深さを持つクロスモダリティ トランスフォーマーを使用しました。研究者たちは、クロスモーダルトランスフォーマーの深さが深くなるほど、モデルが 2 つのモダリティに注意を払うようになることを発見しました (下の図 6 を参照)。

実験

定量評価

研究者らは、AIST++ テスト セットにおけるこの方法と 2 つのベースライン方法の定量的な評価結果を報告しました (以下の表 2 を参照)。

アクション品質: 上記の表からわかるように、この方法で生成されたアクション シーケンスのジョイントと速度分布は、実際のアクションに近いです。

動きの多様性: 表 2 は、提案された方法がベースライン方法と比較してより多様なダンスの動きを生成できることを示しています。制御変数調査の結果は、ネットワーク設計、特にクロスモーダルトランスフォーマーがこの違いの主な理由であることを示しています。研究者たちは、この方法によって生成された多様なダンスの動きを視覚化しました。下の図 7 を参照してください。

アクションと音楽の相関: 表 2 から、この方法で生成されたアクションは入力された音楽とより密接に関連していることもわかります。下の図 5 の例では、生成されたアクションのモーション ビートが音楽のビートと非常によく一致していることがわかります。

ただし、実際のデータと比較すると、3 つの方法はすべて改善の余地が大きくあります。これは、音楽と行動の関連付けが依然として非常に難しい問題であることを示唆しています。

制御変数研究

クロスモーダル トランスフォーマー: この論文では、3 つの異なる設定 (1) 14 層アクション トランスフォーマー、2) 13 層アクション/オーディオ トランスフォーマーと 1 層クロスモーダル トランスフォーマー、3) 2 層アクション/オーディオ トランスフォーマーと 12 層クロスモーダル トランスフォーマー) を使用して、クロスモーダル トランスフォーマーの機能を研究します。

下の表 3 は、クロスモーダル Transformer が入力音楽に強く関連するアクションを生成するために重要であることを示しています。

図 6 に示すように、より深いクロスモーダル Transformer は入力された音楽にさらに注意を払うことができ、音楽とアクションの相関関係が向上します。

因果的注意または完全注意トランスフォーマー: 研究者らは、完全注意メカニズムと未来 N 監督メカニズムの効果も調査しました。下の表4からわかるように、因果的注意メカニズムを使用して20秒間の長距離生成を実行すると、生成されたアクションと真の値アクションの分布が大きく異なります。未来 1 の監督設定での完全な注意メカニズムの場合、長距離生成中の結果は急速にドリフトしますが、未来 10 または未来 20 の監督設定では、モデルは高品質の長距離アクションを生成できます。

<<:  2021 年を迎えるにあたり、人気の GNN はどのアプリケーション分野で存在感を発揮するのでしょうか?

>>:  人工知能の新時代が近づいています。従来の産業の従事者はどこへ向かうのでしょうか?

推薦する

OpenAI が ChatGPT と Bing 検索の統合を発表、ChatGPT Plus ユーザーのみが利用可能に

6月28日、モバイルチャットロボットChatGPTがインターネットにアクセスできるようになったが、検...

...

...

よりスマートに:人工知能とエネルギー産業の革命

人工知能は私たちの生活、仕事、遊び方に革命をもたらそうとしているが、Amazon の Alexa や...

機械学習を利用してデータベースの運用と保守の問題を解決します

著者についてPing An Technology のデータベース チームの運用保守開発エンジニアであ...

エンタープライズレベルの AI を実装するにはどうすればよいでしょうか? Watson なら問題ありません!

[51CTO.com からのオリジナル記事] 人工知能は間違いなく、今日最も注目されている技術の ...

CVとNLPにおける対照学習の研究の進展

[[423166]]対照学習(CV)比較学習は何をするのでしょうか?教師ありトレーニングの典型的な問...

...

...

自然言語処理技術により、機械はより人間的な視点から問題を解決できるようになる。

編集者注: テクノロジーは、数学や物理学に関連する問題を解決する上で重要な役割を果たすことができます...

テキストマイニング前処理におけるベクトル化とハッシュトリック

[[201071]]序文「テキスト マイニングにおける単語分割の原理」では、テキスト マイニングの前...

人間同士のやりとりを人工知能に置き換える時期が来ているのでしょうか?

人工知能 (AI) は、面倒で時間のかかるすべての手動プロセスを置き換え、人間が価値の高いタスクに集...

AIの終末: 人間は本当の自己認識を持っていない

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

大規模モデルの推論速度が 3.6 倍に向上しました。「Medusa」の論文はこちらです。Jia Yangqing: 最もエレガントな加速推論ソリューションの 1 つ

ご存知のとおり、大規模言語モデル (LLM) の動作ロジックでは、サイズが大きくなるにつれて言語生成...