Google の AI 振付師は、音楽に合わせて 10 種類のフリースタイルを披露できます。ジャズやバレエを観たいですか?

Google の AI 振付師は、音楽に合わせて 10 種類のフリースタイルを披露できます。ジャズやバレエを観たいですか?

[[424946]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

トランスフォーマーはまた新たな仕事に就いた――

今回、Googleはこれを活用して、音楽に合わせて踊れるAIを作成した。

さっそく、フリースタイルを披露してもらいましょう (元のビデオは記事の最後にあります)。

そうですね、動きがかなり美しく、様々なスタイルをうまくこなしています。

これを見ると私もフォローしたくなります。

どれを選びますか?

このAIは、同様のモデル3つを破ってSOTAを達成し、音楽とダンスの関係を深く理解していることでICCV 2021にリストされました。

研究チームはオープンソースコードに加えて、10種類の3Dダンスの動きを収録したデータセットも公開した。

興味があればぜひやってみましょう!

このフリースタイルはどうやって生まれたのですか?

この AI は Transformer を使用すると言っていませんでしたか?

しかし、ここでのトランスフォーマーは通常のトランスフォーマーではなく、フルアテンションメカニズム(略してFACT )に基づくクロスモーダルトランスフォーマーです。

なぜそんなに複雑にするのですか?

研究者たちは、単純なトランスフォーマーだけを使用するだけでは、AIが音楽とダンスの相関関係を理解することはできないことを発見したからです。

[[424951]]

それで、この FACT はどのように機能するのでしょうか?

一般に、FACT モデルでは、モーション トランスフォーマーとオーディオ トランスフォーマーが別々に使用されます。

まず、2 秒間のシードアクションシーケンスとオーディオクリップを入力してエンコードします。

次に、埋め込み(意味空間からベクトル空間へのマッピング)が接続され、クロスモーダル トランスフォーマーに送信され、2 つの形式間の対応関係を学習して、後続の n 個のアクション シーケンスを生成します。

これらのシーケンスは、モデルの自己教師トレーニングに使用されます。

3 つのトランスフォーマーは、前処理や特徴抽出を必要とせず、生データを直接投入して最終結果を得るエンドツーエンドの学習方法を使用して一緒に学習します。

もう 1 つのアプローチは、予想される動作を次の生成段階への入力として使用して、自己回帰フレームワークでモデルをテストすることです。

最終的に、モデルはフレームごとに長距離のダンス ルーチンを生成できるようになります。

下の図は、モデルが同じシードの動き(ヒップホップ スタイル)と異なる音楽を通じて 4 種類のダンス作品(ブレイクダンス、ジャズ バレエ、クランプ、ミドル ヒップホップ)を生成することを示しています。

知識のある方でコメントしていただける方はいらっしゃいますか?

AI が生成したダンスを生き生きとさせ、音楽スタイルと一貫性を持たせるために、このモデル設計には3 つの重要なポイントがあります。

1. モデルの内部トークンはすべての入力にアクセスできるため、3 つのトランスフォーマーはすべて完全なアテンション マスクを使用します。これにより、従来の因果モデルよりも表現力が高まります。

2. モデルは次のアクションを予測するだけでなく、後続の N 個のアクションも予測します。これにより、モデルはコンテキストに集中できるようになり、いくつかの生成ステップの後に、断片化されたアクションや逸脱を回避できます。

3. さらに、トレーニング プロセスの初期段階で 12 層のディープ クロスモーダル トランスフォーマー モジュールを使用して、2 つの埋め込み (オーディオとアクション) を融合します。研究者らは、これがモデルに入力された音楽を聴いて区別する訓練を行うための鍵となると述べている。

データを使って実際のパフォーマンスを見てみましょう。

3つのSOTAモデルを破る

研究者たちは、次の 3 つの指標に基づいて結果を評価しました。

1.アクション品質:FIDを使用して、サンプル(つまり、後で紹介する彼らが自ら公開したデータセット)と特徴空間で生成された結果との間の距離を計算します。合計 40 個のモデル生成ダンス シーケンスが使用され、各シーケンスの長さは 1200 フレーム (20 秒) でした。

FID の幾何学的特性と動的特性は、それぞれ FIDg と FIDk で表されます。

2.アクションの多様性:特徴空間で生成されたアクション40セットの平均ユークリッド距離を測定することによって得られます。

幾何学的特徴空間 Distg と動的特徴空間 k を使用して、さまざまなダンスの動きを生成するモデルの能力をテストします。

3.アクションと音楽の相関関係: 適切な既存の指標がないため、入力音楽 (音楽ビート) と出力 3D アクション (モーションビート) の相関関係を評価するための「ビートアライメントスコア」を考案しました。

以下は、FACT と 3 つの SOTA モデル (Li et al.、Dancenet、Dance Revolution) の比較です。

FACT は 3 つの指標すべてにおいて上記 3 つを上回っていることがわかります。

*Liらのモデルによって生成される動きは不連続であるため、平均動的特徴距離は異常に高くなり、無視できます。

データを確認した後、より直感的なデータを見てみましょう。

うーん、機敏な FACT と比べると、他の 2 つはちょっと「それほどスマートではない」ようです...

ダンス動作データセット AIST++

最後に、彼らが作成した3DダンスムーブメントデータセットAIST++について簡単に紹介します。

名前からわかるように、これは既存のダンスデータセットAISTの「拡張版」であり、主に元のものに3D情報を追加したものです。

最終的な AIST++ には、合計 5.2 時間と 1,408 シーケンスの 3D ダンス ムーブが含まれ、オールドスクールとニュースクールのブレイクダンス、ポップ、ロック、ワック、ミドル ヒップホップ、LA スタイル ヒップホップ、ハウス、クランプ、ストリート ジャズ、ジャズ バレエなど、10 種類のダンス タイプにわたります。各ダンス タイプには、85% の基本ムーブと 15% の高度なムーブが含まれています。

(なぜ全部ヒップホップみたいに感じるのでしょうか?)

各アクションには 9 つのカメラ ビューが用意されており、そのうち 3 つを以下に示します。

これは、マルチビューの人間のキーポイント推定、人間の動き予測/生成、人間の動きと音楽間のクロスモーダル分析という 3 つのタスクをサポートするために使用できます。

チームについて

第一著者は、カリフォルニア大学バークレー校の博士課程1年生、カリフォルニア大学バークレー校人工知能研究所のメンバー、Facebook Reality Labsの学生研究員であるRuilong Li氏です

彼の研究分野は、コンピューター ビジョンとコンピューター グラフィックスの交差点であり、主に 2D 画像情報を通じて 3D 世界の生成と再構築に焦点を当てています。

博士号取得を目指す前、私は南カリフォルニア大学のビジョン&グラフィックス研究所で研究助手として 2 年間働いていました。

彼は清華大学を卒業し、物理学と数学の学士号とコンピュータサイエンスの修士号を取得しました。Google Research と Byte AI Lab でインターンをしました。

共著者のYang ShanはGoogle Researchに勤務しています。

彼の研究対象には、応用機械学習、マルチモーダル知覚、3D コンピューター ビジョン、物理シミュレーションなどがあります。

彼はノースカロライナ大学チャペルヒル校(UNC、米国のアイビーリーグ公立大学8校のうちの1つ)で博士号を取得しました。

David A. Ross は、 Google Research の Visual Dynamics 研究グループを率いています。

彼はカナダのトロント大学で機械学習とコンピュータービジョンの博士号を取得しています。

アンジュ・カナザワはメリーランド大学で博士号を取得し、現在はメリーランド大学バーミンガム校の電気工学およびコンピューターサイエンス学部の助教授を務めています。彼は BAIR の KAIR ラボを率いており、Google Research の研究員でもあります。

最後に、AI振付師の魅力を改めて感じてみましょう。

紙:
https://arxiv.org/abs/2101.08779
GitHub:
https://github.com/google-research/mint
データセット:
https://google.github.io/aistplusplus_dataset/
プロジェクトのホームページ:
https://google.github.io/aichoreographer/

<<:  機械は人間に似ているほど良いのでしょうか?科学サブ出版物:ヒューマノイドマシンに常に監視されていると愚かになる

>>:  清華大学の卒業生とMITの中国人博士課程の学生がソルバーと組み合わせ、自動運転の安全性を向上させる初の認識アルゴリズムセットを開発した。

ブログ    
ブログ    

推薦する

...

CPUのみを使用して自律航行船を開発、実際に実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ヘルスケアにおける GenAI の利点

ビッグデータと AI の活用により、患者が生成する膨大な量の情報の処理と分析が大幅に容易になりました...

...

2023 年の最高の無料 AI アート ジェネレーター

翻訳者 |ブガッティレビュー | Chonglouここ数か月で、生成AIにおいて大きな進歩がありまし...

中国チームが世界初のAI全自動設計CPU「Enlightenment 1」を発表:人間の介入なし、性能は486に匹敵

6月30日、「半導体産業展望」の報道によると、中国科学院計算技術研究所などの機関がAI技術を活用し、...

GNMT - Google のニューラル ネットワーク翻訳システム

1. はじめに2016年9月、Googleはニューラルネットワークベースの翻訳システム(GNMT)を...

AIビッグモデルがインテリジェント交通の未来を切り開く?

2023年の初め、OpenAIが開発したChatGPTの出現により、インターネット業界の微妙なバラ...

ディープラーニング + OpenCV、Python でリアルタイムのビデオ オブジェクト検出を実現

OpenCV と Python を使用してライブ ビデオ ストリームでディープラーニング オブジェク...

アルゴリズム図: 2 つのスタックを持つキューを実装するにはどうすればよいでしょうか?

[[348375]]この記事はWeChatの公開アカウント「Java Chinese Commun...

GPT-4よりも優れた20億パラメータモデルは、ほぼ100%の精度で算術問題を解く

現在、大規模言語モデル (LLM) は、NLP の分野におけるさまざまな下流タスクの処理において優れ...

2022年のディープラーニングの5つのトレンド

ディープラーニングは、データから段階的に優れた高度な洞察を抽出するために複数の処理層を活用する人工ニ...

...