Google の AI 振付師は、音楽に合わせて 10 種類のフリースタイルを披露できます。ジャズやバレエを観たいですか?

Google の AI 振付師は、音楽に合わせて 10 種類のフリースタイルを披露できます。ジャズやバレエを観たいですか?

[[424946]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

トランスフォーマーはまた新たな仕事に就いた――

今回、Googleはこれを活用して、音楽に合わせて踊れるAIを作成した。

さっそく、フリースタイルを披露してもらいましょう (元のビデオは記事の最後にあります)。

そうですね、動きがかなり美しく、様々なスタイルをうまくこなしています。

これを見ると私もフォローしたくなります。

どれを選びますか?

このAIは、同様のモデル3つを破ってSOTAを達成し、音楽とダンスの関係を深く理解していることでICCV 2021にリストされました。

研究チームはオープンソースコードに加えて、10種類の3Dダンスの動きを収録したデータセットも公開した。

興味があればぜひやってみましょう!

このフリースタイルはどうやって生まれたのですか?

この AI は Transformer を使用すると言っていませんでしたか?

しかし、ここでのトランスフォーマーは通常のトランスフォーマーではなく、フルアテンションメカニズム(略してFACT )に基づくクロスモーダルトランスフォーマーです。

なぜそんなに複雑にするのですか?

研究者たちは、単純なトランスフォーマーだけを使用するだけでは、AIが音楽とダンスの相関関係を理解することはできないことを発見したからです。

[[424951]]

それで、この FACT はどのように機能するのでしょうか?

一般に、FACT モデルでは、モーション トランスフォーマーとオーディオ トランスフォーマーが別々に使用されます。

まず、2 秒間のシードアクションシーケンスとオーディオクリップを入力してエンコードします。

次に、埋め込み(意味空間からベクトル空間へのマッピング)が接続され、クロスモーダル トランスフォーマーに送信され、2 つの形式間の対応関係を学習して、後続の n 個のアクション シーケンスを生成します。

これらのシーケンスは、モデルの自己教師トレーニングに使用されます。

3 つのトランスフォーマーは、前処理や特徴抽出を必要とせず、生データを直接投入して最終結果を得るエンドツーエンドの学習方法を使用して一緒に学習します。

もう 1 つのアプローチは、予想される動作を次の生成段階への入力として使用して、自己回帰フレームワークでモデルをテストすることです。

最終的に、モデルはフレームごとに長距離のダンス ルーチンを生成できるようになります。

下の図は、モデルが同じシードの動き(ヒップホップ スタイル)と異なる音楽を通じて 4 種類のダンス作品(ブレイクダンス、ジャズ バレエ、クランプ、ミドル ヒップホップ)を生成することを示しています。

知識のある方でコメントしていただける方はいらっしゃいますか?

AI が生成したダンスを生き生きとさせ、音楽スタイルと一貫性を持たせるために、このモデル設計には3 つの重要なポイントがあります。

1. モデルの内部トークンはすべての入力にアクセスできるため、3 つのトランスフォーマーはすべて完全なアテンション マスクを使用します。これにより、従来の因果モデルよりも表現力が高まります。

2. モデルは次のアクションを予測するだけでなく、後続の N 個のアクションも予測します。これにより、モデルはコンテキストに集中できるようになり、いくつかの生成ステップの後に、断片化されたアクションや逸脱を回避できます。

3. さらに、トレーニング プロセスの初期段階で 12 層のディープ クロスモーダル トランスフォーマー モジュールを使用して、2 つの埋め込み (オーディオとアクション) を融合します。研究者らは、これがモデルに入力された音楽を聴いて区別する訓練を行うための鍵となると述べている。

データを使って実際のパフォーマンスを見てみましょう。

3つのSOTAモデルを破る

研究者たちは、次の 3 つの指標に基づいて結果を評価しました。

1.アクション品質:FIDを使用して、サンプル(つまり、後で紹介する彼らが自ら公開したデータセット)と特徴空間で生成された結果との間の距離を計算します。合計 40 個のモデル生成ダンス シーケンスが使用され、各シーケンスの長さは 1200 フレーム (20 秒) でした。

FID の幾何学的特性と動的特性は、それぞれ FIDg と FIDk で表されます。

2.アクションの多様性:特徴空間で生成されたアクション40セットの平均ユークリッド距離を測定することによって得られます。

幾何学的特徴空間 Distg と動的特徴空間 k を使用して、さまざまなダンスの動きを生成するモデルの能力をテストします。

3.アクションと音楽の相関関係: 適切な既存の指標がないため、入力音楽 (音楽ビート) と出力 3D アクション (モーションビート) の相関関係を評価するための「ビートアライメントスコア」を考案しました。

以下は、FACT と 3 つの SOTA モデル (Li et al.、Dancenet、Dance Revolution) の比較です。

FACT は 3 つの指標すべてにおいて上記 3 つを上回っていることがわかります。

*Liらのモデルによって生成される動きは不連続であるため、平均動的特徴距離は異常に高くなり、無視できます。

データを確認した後、より直感的なデータを見てみましょう。

うーん、機敏な FACT と比べると、他の 2 つはちょっと「それほどスマートではない」ようです...

ダンス動作データセット AIST++

最後に、彼らが作成した3DダンスムーブメントデータセットAIST++について簡単に紹介します。

名前からわかるように、これは既存のダンスデータセットAISTの「拡張版」であり、主に元のものに3D情報を追加したものです。

最終的な AIST++ には、合計 5.2 時間と 1,408 シーケンスの 3D ダンス ムーブが含まれ、オールドスクールとニュースクールのブレイクダンス、ポップ、ロック、ワック、ミドル ヒップホップ、LA スタイル ヒップホップ、ハウス、クランプ、ストリート ジャズ、ジャズ バレエなど、10 種類のダンス タイプにわたります。各ダンス タイプには、85% の基本ムーブと 15% の高度なムーブが含まれています。

(なぜ全部ヒップホップみたいに感じるのでしょうか?)

各アクションには 9 つのカメラ ビューが用意されており、そのうち 3 つを以下に示します。

これは、マルチビューの人間のキーポイント推定、人間の動き予測/生成、人間の動きと音楽間のクロスモーダル分析という 3 つのタスクをサポートするために使用できます。

チームについて

第一著者は、カリフォルニア大学バークレー校の博士課程1年生、カリフォルニア大学バークレー校人工知能研究所のメンバー、Facebook Reality Labsの学生研究員であるRuilong Li氏です

彼の研究分野は、コンピューター ビジョンとコンピューター グラフィックスの交差点であり、主に 2D 画像情報を通じて 3D 世界の生成と再構築に焦点を当てています。

博士号取得を目指す前、私は南カリフォルニア大学のビジョン&グラフィックス研究所で研究助手として 2 年間働いていました。

彼は清華大学を卒業し、物理学と数学の学士号とコンピュータサイエンスの修士号を取得しました。Google Research と Byte AI Lab でインターンをしました。

共著者のYang ShanはGoogle Researchに勤務しています。

彼の研究対象には、応用機械学習、マルチモーダル知覚、3D コンピューター ビジョン、物理シミュレーションなどがあります。

彼はノースカロライナ大学チャペルヒル校(UNC、米国のアイビーリーグ公立大学8校のうちの1つ)で博士号を取得しました。

David A. Ross は、 Google Research の Visual Dynamics 研究グループを率いています。

彼はカナダのトロント大学で機械学習とコンピュータービジョンの博士号を取得しています。

アンジュ・カナザワはメリーランド大学で博士号を取得し、現在はメリーランド大学バーミンガム校の電気工学およびコンピューターサイエンス学部の助教授を務めています。彼は BAIR の KAIR ラボを率いており、Google Research の研究員でもあります。

最後に、AI振付師の魅力を改めて感じてみましょう。

紙:
https://arxiv.org/abs/2101.08779
GitHub:
https://github.com/google-research/mint
データセット:
https://google.github.io/aistplusplus_dataset/
プロジェクトのホームページ:
https://google.github.io/aichoreographer/

<<:  機械は人間に似ているほど良いのでしょうか?科学サブ出版物:ヒューマノイドマシンに常に監視されていると愚かになる

>>:  清華大学の卒業生とMITの中国人博士課程の学生がソルバーと組み合わせ、自動運転の安全性を向上させる初の認識アルゴリズムセットを開発した。

推薦する

【WOTI】English FluencyのLin Hui氏:教育分野でのAIはまだ初期段階にある

[51CTO.comからのオリジナル記事] 51CTOが主催するWOTI2017グローバルイノベーシ...

...

10年後には自動運転車が普及するでしょうか?

私は知乎でこの質問を見ました: 自動運転車は10年後には当たり前になるでしょうか?そして、今でも運転...

AIが生成した小説が静かに人気を集めている。人間ならではの創造性がAIにコピーされてしまったのだろうか?

[[408920]]編集部注:人工知能(AI)の発達により、人々は徐々に未来についてより多様な想像...

自動運転における機械学習の核となるのはモデルではなくパイプラインである

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Nature: MITの研究者が量子処理と量子通信を組み合わせた巨大原子を作製

量子コンピュータは常に神秘的で「ハイエンド」な存在でした。中国科学院の院士である潘建偉氏はかつて、次...

顔認識にもマスターキーはあるのでしょうか?

顔認識は、携帯電話のロック解除、住宅コミュニティへの出入り、消費者の支払い、ビジネス取引の処理など、...

大規模ディープラーニングツールの最新動向を詳しく見る

Panos Labropoulos 博士は、Bright Computing のシニア サポート エ...

ニューラルネットワークの不気味な評判

[[185985]]ニューラル ネットワークが無限のトリックを実行するのを見ると、最近ではディープラ...

...

...

我が国は人工知能などの主要な技術標準に関する研究を強化します

標準は経済活動や社会の発展を技術的に支えるものであり、人々の生活に深く関わっています。最近、中国共産...

美団のドローンの暴露:インターネットはインターネットに別れを告げる

美団ドローンは、ドローンそのもの以上のものを見せてくれるだけでなく、インターネットがインターネットに...

訓練されたディープラーニングモデルは、もともとこのように展開されていました

データの収集、データのクリーンアップ、環境の構築、モデルのトレーニング、モデルの評価とテストに一生懸...