Google の AI 振付師は、音楽に合わせて 10 種類のフリースタイルを披露できます。ジャズやバレエを観たいですか?

Google の AI 振付師は、音楽に合わせて 10 種類のフリースタイルを披露できます。ジャズやバレエを観たいですか?

[[424946]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

トランスフォーマーはまた新たな仕事に就いた――

今回、Googleはこれを活用して、音楽に合わせて踊れるAIを作成した。

さっそく、フリースタイルを披露してもらいましょう (元のビデオは記事の最後にあります)。

そうですね、動きがかなり美しく、様々なスタイルをうまくこなしています。

これを見ると私もフォローしたくなります。

どれを選びますか?

このAIは、同様のモデル3つを破ってSOTAを達成し、音楽とダンスの関係を深く理解していることでICCV 2021にリストされました。

研究チームはオープンソースコードに加えて、10種類の3Dダンスの動きを収録したデータセットも公開した。

興味があればぜひやってみましょう!

このフリースタイルはどうやって生まれたのですか?

この AI は Transformer を使用すると言っていませんでしたか?

しかし、ここでのトランスフォーマーは通常のトランスフォーマーではなく、フルアテンションメカニズム(略してFACT )に基づくクロスモーダルトランスフォーマーです。

なぜそんなに複雑にするのですか?

研究者たちは、単純なトランスフォーマーだけを使用するだけでは、AIが音楽とダンスの相関関係を理解することはできないことを発見したからです。

[[424951]]

それで、この FACT はどのように機能するのでしょうか?

一般に、FACT モデルでは、モーション トランスフォーマーとオーディオ トランスフォーマーが別々に使用されます。

まず、2 秒間のシードアクションシーケンスとオーディオクリップを入力してエンコードします。

次に、埋め込み(意味空間からベクトル空間へのマッピング)が接続され、クロスモーダル トランスフォーマーに送信され、2 つの形式間の対応関係を学習して、後続の n 個のアクション シーケンスを生成します。

これらのシーケンスは、モデルの自己教師トレーニングに使用されます。

3 つのトランスフォーマーは、前処理や特徴抽出を必要とせず、生データを直接投入して最終結果を得るエンドツーエンドの学習方法を使用して一緒に学習します。

もう 1 つのアプローチは、予想される動作を次の生成段階への入力として使用して、自己回帰フレームワークでモデルをテストすることです。

最終的に、モデルはフレームごとに長距離のダンス ルーチンを生成できるようになります。

下の図は、モデルが同じシードの動き(ヒップホップ スタイル)と異なる音楽を通じて 4 種類のダンス作品(ブレイクダンス、ジャズ バレエ、クランプ、ミドル ヒップホップ)を生成することを示しています。

知識のある方でコメントしていただける方はいらっしゃいますか?

AI が生成したダンスを生き生きとさせ、音楽スタイルと一貫性を持たせるために、このモデル設計には3 つの重要なポイントがあります。

1. モデルの内部トークンはすべての入力にアクセスできるため、3 つのトランスフォーマーはすべて完全なアテンション マスクを使用します。これにより、従来の因果モデルよりも表現力が高まります。

2. モデルは次のアクションを予測するだけでなく、後続の N 個のアクションも予測します。これにより、モデルはコンテキストに集中できるようになり、いくつかの生成ステップの後に、断片化されたアクションや逸脱を回避できます。

3. さらに、トレーニング プロセスの初期段階で 12 層のディープ クロスモーダル トランスフォーマー モジュールを使用して、2 つの埋め込み (オーディオとアクション) を融合します。研究者らは、これがモデルに入力された音楽を聴いて区別する訓練を行うための鍵となると述べている。

データを使って実際のパフォーマンスを見てみましょう。

3つのSOTAモデルを破る

研究者たちは、次の 3 つの指標に基づいて結果を評価しました。

1.アクション品質:FIDを使用して、サンプル(つまり、後で紹介する彼らが自ら公開したデータセット)と特徴空間で生成された結果との間の距離を計算します。合計 40 個のモデル生成ダンス シーケンスが使用され、各シーケンスの長さは 1200 フレーム (20 秒) でした。

FID の幾何学的特性と動的特性は、それぞれ FIDg と FIDk で表されます。

2.アクションの多様性:特徴空間で生成されたアクション40セットの平均ユークリッド距離を測定することによって得られます。

幾何学的特徴空間 Distg と動的特徴空間 k を使用して、さまざまなダンスの動きを生成するモデルの能力をテストします。

3.アクションと音楽の相関関係: 適切な既存の指標がないため、入力音楽 (音楽ビート) と出力 3D アクション (モーションビート) の相関関係を評価するための「ビートアライメントスコア」を考案しました。

以下は、FACT と 3 つの SOTA モデル (Li et al.、Dancenet、Dance Revolution) の比較です。

FACT は 3 つの指標すべてにおいて上記 3 つを上回っていることがわかります。

*Liらのモデルによって生成される動きは不連続であるため、平均動的特徴距離は異常に高くなり、無視できます。

データを確認した後、より直感的なデータを見てみましょう。

うーん、機敏な FACT と比べると、他の 2 つはちょっと「それほどスマートではない」ようです...

ダンス動作データセット AIST++

最後に、彼らが作成した3DダンスムーブメントデータセットAIST++について簡単に紹介します。

名前からわかるように、これは既存のダンスデータセットAISTの「拡張版」であり、主に元のものに3D情報を追加したものです。

最終的な AIST++ には、合計 5.2 時間と 1,408 シーケンスの 3D ダンス ムーブが含まれ、オールドスクールとニュースクールのブレイクダンス、ポップ、ロック、ワック、ミドル ヒップホップ、LA スタイル ヒップホップ、ハウス、クランプ、ストリート ジャズ、ジャズ バレエなど、10 種類のダンス タイプにわたります。各ダンス タイプには、85% の基本ムーブと 15% の高度なムーブが含まれています。

(なぜ全部ヒップホップみたいに感じるのでしょうか?)

各アクションには 9 つのカメラ ビューが用意されており、そのうち 3 つを以下に示します。

これは、マルチビューの人間のキーポイント推定、人間の動き予測/生成、人間の動きと音楽間のクロスモーダル分析という 3 つのタスクをサポートするために使用できます。

チームについて

第一著者は、カリフォルニア大学バークレー校の博士課程1年生、カリフォルニア大学バークレー校人工知能研究所のメンバー、Facebook Reality Labsの学生研究員であるRuilong Li氏です

彼の研究分野は、コンピューター ビジョンとコンピューター グラフィックスの交差点であり、主に 2D 画像情報を通じて 3D 世界の生成と再構築に焦点を当てています。

博士号取得を目指す前、私は南カリフォルニア大学のビジョン&グラフィックス研究所で研究助手として 2 年間働いていました。

彼は清華大学を卒業し、物理学と数学の学士号とコンピュータサイエンスの修士号を取得しました。Google Research と Byte AI Lab でインターンをしました。

共著者のYang ShanはGoogle Researchに勤務しています。

彼の研究対象には、応用機械学習、マルチモーダル知覚、3D コンピューター ビジョン、物理シミュレーションなどがあります。

彼はノースカロライナ大学チャペルヒル校(UNC、米国のアイビーリーグ公立大学8校のうちの1つ)で博士号を取得しました。

David A. Ross は、 Google Research の Visual Dynamics 研究グループを率いています。

彼はカナダのトロント大学で機械学習とコンピュータービジョンの博士号を取得しています。

アンジュ・カナザワはメリーランド大学で博士号を取得し、現在はメリーランド大学バーミンガム校の電気工学およびコンピューターサイエンス学部の助教授を務めています。彼は BAIR の KAIR ラボを率いており、Google Research の研究員でもあります。

最後に、AI振付師の魅力を改めて感じてみましょう。

紙:
https://arxiv.org/abs/2101.08779
GitHub:
https://github.com/google-research/mint
データセット:
https://google.github.io/aistplusplus_dataset/
プロジェクトのホームページ:
https://google.github.io/aichoreographer/

<<:  機械は人間に似ているほど良いのでしょうか?科学サブ出版物:ヒューマノイドマシンに常に監視されていると愚かになる

>>:  清華大学の卒業生とMITの中国人博士課程の学生がソルバーと組み合わせ、自動運転の安全性を向上させる初の認識アルゴリズムセットを開発した。

ブログ    
ブログ    
ブログ    

推薦する

自然言語処理のためのオープンソースツールトップ12

私たちの生活に浸透しているすべてのチャットボット、音声アシスタント、予測テキスト、その他の音声/テキ...

...

...

シャッフルアルゴリズムの2つの実装の比較

方法1: ランダム生成まず、非常に一般的な方法であるランダム生成法(私が名付けました)を紹介します。...

金融AIの実装は難しいですか?ガートナー: AI のユースケースを 3 倍にするには 4 つのステップが必要

金融分野で AI を適切に導入するには、単に時間や資金を最も多く投資すればよいという問題ではありませ...

クラウドで必要な 5 つの機械学習スキル

機械学習と AI は IT サービスにさらに深く浸透し、ソフトウェア エンジニアが開発したアプリケー...

...

AIの将来にとって人間の関与が重要な理由

人工知能技術の進歩は、自動化と革新の新しい時代の到来を告げるものとなるでしょう。しかし、機械知能の進...

ChatGPTが危険にさらされています! 「Attention Formula」の8年前の謎のバグが初めて暴露、Transformerモデルに大きな影響が出る可能性

「注目の式」に8年間存在していたバグが外国人によって発見された?一瞬にして、この話題はインターネット...

AI スタートアップはどうすれば成功できるのでしょうか?ガートナー:「以下の点が不可欠」

[[430175]]デジタル変革の波を受けて、さまざまな新興技術が急速に応用され、普及してきました...

...

GPT-4の完全クラック版:最新の公式APIで微調整され、何でもできる、ネットユーザーは恐れている

最新の微調整 API を使用する限り、GPT-4 はあらゆることを行うのに役立ち、有害な情報を出力し...

1万語に及ぶ長い記事です!ディープマインドの科学者が2021年の高エネルギー研究15件をまとめる

2021 年には、より強力なコンピューティング能力、データ、モデルの助けを借りて、機械学習と自然言語...

機械学習と人工知能の未来について語る

[[258702]] [51CTO.com クイック翻訳] 機械学習 (ML) と人工知能 (AI)...