デジタルヒューマンがアジア競技大会の聖火を灯す：ICCV 論文から見る Ant の生成 AI テクノロジーの新たな一面

9月23日夜、杭州アジア競技大会の開会式でメイントーチに火が灯されると、数億人のオンラインデジタル聖火ランナーの「小さな炎」が銭塘江に集まり、デジタルヒューマンイメージを形成した。その後、デジタル聖火ランナーと現地の6人目の聖火ランナーが聖火台まで歩いて行き、一緒にメイントーチに火を灯しました。

開幕式の核心アイデアとして、デジタルリアリティインターコネクションのトーチ点灯形式が話題となり、注目を集めました。

数億人が関わるデジタルヒューマンの点火は、数多くの高度で複雑な技術を伴う前例のない取り組みであり、その中で最も重要なのは、デジタルヒューマンをいかに「動かす」かということです。生成 AI と大規模モデルの急速な発展により、デジタルヒューマン研究にも新たな変化が生じていることは容易に想像できます。

10月上旬に開催される世界最高峰のコンピュータービジョンカンファレンス「ICCV 2023」で、3Dデジタルヒューマンモーションの生成に関する研究論文が発表されていることに気づきました。関連する論文は「拡散確率モデルによる人間と物体のインタラクションの階層的生成」と題され、浙江大学とAnt Groupが共同で発表した。

この研究により、デジタルヒューマンが長距離にわたる複雑な動きを合成するという問題がある程度解決され、元のモデルや経路計画では実現できない効果を実現できると報告されています。デジタルヒューマンの運転に関する技術は、アジア競技大会での1億人のデジタルヒューマンのオンライン配信にも使用されました。

生成AIがデジタルヒューマンを動かす

多くの場合、特定の 3D シーンで 3D の人間の動きを合成して、仮想の人間がシーン内を自然に歩き回り、オブジェクトと対話できるようにする必要があります。この効果は、AR/VR、映画制作、ビデオゲームなど、さまざまな用途に使用できます。

ここで、従来のキャラクター制御モーション生成方法は、ユーザーの制御信号によって誘導される短期または反復的なモーションを生成することを目的としていますが、新しい研究では、開始位置とターゲットオブジェクトモデルを与えられた長期的な人間とコンピューターの相互作用コンテンツを生成することに重点を置いています。

このアプローチはより効果的ですが、明らかにより困難です。まず、人と物の間の相互作用は首尾一貫している必要があり、そのためには人と物の間の長距離相互作用をモデル化する能力が必要です。第二に、コンテンツ生成の文脈では、実際の人間がターゲットオブジェクトに近づき、対話する方法は多数あるため、生成モデルはさまざまなサイズの動きを合成できる必要があります。

図 1. 人間と物体の相互作用画像の生成。新しい手法では、オブジェクトが与えられると、まず一連のマイルストーンイベントを予測します。リングは場所を表し、ピンク色の人物は元のポーズを表します。アルゴリズムはマイルストーン間のアクションを入力します。この図は、新しいメソッドが同じオブジェクトを使用して異なるマイルストーンとアクションを生成することを示しています。時間の流れは色分けされて表示され、濃い青は後のフレームを表します。

デジタルヒューマンの動作を生成する手法として、既存の合成手法はオンライン生成とオフライン生成に大別できます。ほとんどのオンラインアプローチは、キャラクターのリアルタイム制御に重点を置いています。ターゲットオブジェクトが与えられると、通常は自己回帰モデルを使用して予測をフィードバックすることで将来の動作を再帰的に生成します。このアプローチはビデオゲームなどのインタラクティブなシナリオで広く使用されていますが、その品質は長期的な生成にはまだ十分ではありません。

モーションの品質を向上させるために、最近のオフライン手法では、最初に軌道を生成し、次にモーションを合成する多段階フレームワークを採用しています。この戦略は合理的なパスを生成できますが、パスの多様性は制限されます。

新しい研究では、著者らは長期的かつ多様な人間と物体の相互作用を合成する新しいオフライン手法を提案しました。その革新性は、まず一連のマイルストーンを予測し、次にマイルストーン間の人間の行動を生成する階層的生成戦略にあります。

具体的には、開始位置とターゲットオブジェクトが与えられた場合に、動作軌跡に沿って一連のノードを合成するマイルストーン生成モジュールを設計します。各マイルストーンはローカルポーズをエンコードし、人間の動作中の遷移ポイントを示します。これらのマイルストーンに基づいて、アルゴリズムはモーション生成モジュールを使用して完全なモーションシーケンスを生成します。これらのマイルストーンの存在により、長いシーケンスの生成をいくつかの短いモーションシーケンスの合成に簡素化できます。

さらに、各マイルストーンのローカルポーズは、グローバルな依存関係を考慮したトランスフォーマーモデルによって生成されるため、時間的に一貫した結果が得られ、一貫した動きがさらに促進されます。

研究者らは、階層的生成フレームワークに加えて、拡散モデルをさらに活用して、人間と物体の相互作用を合成しました。これまでのモーション合成拡散モデルには、トランスフォーマーとノイズ除去拡散確率モデル (DDPM) を組み合わせたものもありました。

モーションシーケンスが長いため、それを新しい設定に直接適用すると、大量の計算が必要になり、GPU メモリが爆発的に増加する可能性があることに注意してください。新しい階層型生成フレームワークは、長期生成を複数の短いシーケンスの合成に変換するため、必要な GPU メモリは短期モーション生成と同じレベルに削減されます。

したがって、研究者は Transformer DDPM を効果的に利用して長期的なモーションシーケンスを合成し、生成品質を向上させることができます。

この目的のために、研究者たちは、下の図に示すように、階層的なモーション生成フレームワークを設計しました。

まず、GoalNet を使用してオブジェクトに対するインタラクションの目標を予測し、目標ポーズを生成して人間とオブジェクトのインタラクションを明示的にモデル化し、マイルストーン生成モジュールを使用してマイルストーンの長さを推定し、開始点から目標までのマイルストーンの軌跡を生成して、マイルストーンのポーズを配置します。

このように、長距離動作生成は、複数の短距離動作生成の組み合わせに分解されます。最後に、マイルストーン間の軌跡を合成し、アクションを埋め込むためのモーション生成モジュールを設計します。

AIポーズ生成

研究者は、人が物体と相互作用し、静止したままでいる姿勢を目標姿勢と呼んでいます。これまで、ほとんどの方法では cVAE モデルを使用して人間のポーズを生成していましたが、研究者たちは、この方法のパフォーマンスが不十分であることを発見しました。

この課題を克服するために、研究者らは、離散表現を利用してデータを有限の点集合にクラスタリングするデータ分布をモデル化する VQ-VAE モデルを導入しました。さらに、人間の姿勢は異なっていても類似した特性を持つ可能性があるという観察（例えば、人が座るとき、手の動きは異なるが、足の位置は同じである可能性がある）に基づいて、関節を L 個（L = 5）の異なる重複しないグループに分割しました。

図3に示すように、目標姿勢は独立した関節グループに分割されます。

開始ポーズと目標ポーズに基づいて、アルゴリズムでマイルストーンの軌跡を生成し、マイルストーンでのローカルポーズを合成することができます。動作データの長さは不明であり、任意である可能性があるため (たとえば、人は椅子まで素早く歩いてから座る場合もあれば、椅子の周りをゆっくり歩いてから座る場合もあります)、N で表されるマイルストーンの長さを予測する必要があります。次に、N 個のランドマークポイントが合成され、これらのポイントにローカルポーズが配置されます。

最後のステップはアクションの生成です。研究者が使用する方法は、フレームごとにアクションを予測するのではなく、生成されたマイルストーンに基づいてシーケンス全体を階層的に合成することです。まず軌道を生成し、次に動きを合成します。具体的には、連続する 2 つのマイルストーン内で、まず軌道を完了しました。次に、連続するマイルストーンジェスチャーによってガイドされる動きを入力します。これら 2 つのステップは、それぞれ 2 つの Transformer DDPM を使用して完了します。

研究者らは、各ステップで目標出力を生成するための DDPM の条件を慎重に設計しました。

結果でリードする

研究者らは、SAMP データセットにおけるさまざまな方法の結果を比較しました。論文で提案された方法は、FD が低く、ユーザー調査スコアが高く、APD が高いことがわかります。さらに、彼らの方法は SAMP よりも高い軌道多様性を実現します。

新しい方法は、雑然としたシーンでも満足のいく結果を生み出すことができます。この方法で生成された貫通フレームの割合は 3.8% ですが、SAMP の場合は 4.9% です。

SAMP や COUCH などのデータセットでは、論文で言及されている方法はベースライン方法よりも優れた結果を達成しました。

フルリンクレイアウトを完了する

デジタルヒューマンは、音声、セマンティクス、視覚などを統合したマルチモーダル技術の集大成です。生成 AI における最近の躍進と並行して、デジタルヒューマンの分野では飛躍的な発展が見られ、モデリング、生成インタラクション、レンダリングなど、以前は手作業が必要だったプロセスが完全に AI 対応になっています。

エンジニアが最適化を続けるにつれて、モバイルデバイスでのこのテクノロジーの体験も向上しています。先日終了したアジア競技大会の聖火リレーが良い例です。聖火ランナーになりたい場合は、Alipayアプリのミニプログラムを開くだけです。

開会式の円滑な進行を確保するため、アントグループのエンジニアは数百種類の異なるモデルの携帯電話で10万回以上のテストを実施し、20万行以上のコードを記述し、自社開発のWeb3DインタラクティブエンジンGalacean、AIデジタルヒューマン、クラウドサービス、ブロックチェーンなどの技術を組み合わせて、誰もがデジタル聖火ランナーとなり、聖火リレーに参加できるようにしたという。アジア競技大会デジタル聖火ランナープラットフォームは、数億人のユーザーをカバーし、一般的なスマートフォンデバイスの 97% をサポートします。

デジタル聖火ランナーに本当の参加感を与えるために、アントの技術チームは58個の顔つまみコントローラーを開発しました。AIアルゴリズムによる顔認識に基づいてデジタル聖火ランナーの顔を描いた後、顔の形、髪、鼻、口、眉毛などを調整して自由な着せ替えを実現します。この技術は2兆枚のデジタル画像を提供できます。

また、開会式の点火式終了後、各デジタル聖火ランナーには、各デジタル聖火ランナーのユニークな画像が入った専用のデジタル点火証明書が渡されます。この証明書は、分散型技術を通じてブロックチェーン上に保存されます。

研究論文やアジア競技大会のプロジェクトの内容から、その背後に完全なデジタルヒューマンテクノロジーシステムがあることは容易にわかります。アントグループはデジタルヒューマン技術を積極的に模索しており、デジタルヒューマンの全リンクコア技術の自社開発レイアウトを完了したとみられる。

市場のほとんどの企業とは異なり、Ant Group は独自のデジタルヒューマンテクノロジーを開発し、それを生成 AI と組み合わせることを選択しています。技術展開の面では、デジタルヒューマンのモデリング、レンダリング、運転、インタラクションのライフサイクル全体をカバーしています。AIGCと大規模モデルを組み合わせることで、デジタルヒューマンのフルリンク制作コストを大幅に削減します。現在、2Dおよび3Dデジタルヒューマンをサポートしており、放送型やインタラクティブ型など多様なソリューションを提供しています。

公開情報によると、Ant Digital Human Platform には現在、次の 4 つの技術的な利点と機能があります。

低コストのモデリング：清華大学と協力してアジア人の顔の 3D パラメトリックモデルを立ち上げ、写真に基づいて 3D 顔を再構築し、アジア人の顔の特徴にさらに適合させます。
ジェネレーティブドライブ: ドライブ生成とモーションキャプチャを組み合わせることで、従来のモーション制作プロセスに比べてコストが効果的に削減され、モーションの豊かさが向上します。
適応性の高いレンダリング：自社開発のWeb3Dレンダリングエンジン「Galacean」は、一般的なモバイル端末の97％をカバーしています。ニューラルレンダリングでは、動的な駆動と静的モデリングを分離するNeRFフレームワークを構築し、デジタルヒューマンの動的なビデオシーンに適用しています。
インテリジェントなインタラクション: 事前トレーニング済みの音声クローニングに基づいて、分単位のオーディオ入力をサポートし、パーソナライズされたデジタルヒューマン音声を生成します。また、大規模なモデルに基づいてデジタルヒューマンインタラクションをレイアウトします。

アジア競技大会の開幕式を前に、中国情報通信研究院は最新のデジタルヒューマン標準準拠検証結果を発表した。アントグループの霊静デジタルヒューマンプラットフォームは、業界で初めて金融デジタルヒューマン評価に合格した製品となり、最高評価の「優秀（L4）」を獲得した。

アントデジタルヒューマンプラットフォームは、アジア競技大会以外にも、アントグループのアリペイ、デジタルファイナンス、政府関係、五福などの事業もサポートしており、今年から短編動画、生放送、ミニプログラムなどのキャリアを通じてパートナーに基本サービスを提供するために使用され始めました。

近い将来、生成 AI によって強化されたデジタルヒューマンが継続的にアップグレードされ、私たちもより多くのシナリオでより優れたインタラクションを体験し、デジタルと現実の生活を統合したインテリジェントな生活を真に実現することが予測されます。

<<: OpenAIの最新の評価額は半年で3倍になり、800億ドルを超える

>>:

ブログ

自動運転企業のほとんどは失敗する運命にある

ブログ

デジタルヒューマンがアジア競技大会の聖火を灯す：ICCV 論文から見る Ant の生成 AI テクノロジーの新たな一面

生成AIがデジタルヒューマンを動かす

AIポーズ生成

結果でリードする

フルリンクレイアウトを完了する

AI を活用したソーシャルメディアマーケティングの 10 大ルール

科学者たちは、人間の肌の感触を模倣し、さらには触覚の方向を感知して予測できる電子毛髪を備えたロボットを開発している。

AIは現実世界に対応できる準備ができているでしょうか?

農業革命：農業ロボットの台頭

大スキャンダル？国内のAI専門家数十人が参加した論文が重大な盗作の疑いで告発される

人工知能オンライン機能システムのデータアクセス技術

自動運転企業のほとんどは失敗する運命にある

推薦する

機械学習のトレンドについて語る - 3つの新しい学習パラダイム

人工知能のおかげで、赤信号待ちは過去のものになるだろう

意見: 顔認識 - 今後の展望

サイバーセキュリティにおける人工知能技術の役割

ディープラーニングにも欠陥があり、同質のAIスタートアップ間の競争は熾烈になるだろう

新年前の最後の技術祭典 - インテリジェント運用とメンテナンスの開発動向

画像内のテキストを心配する必要はありません。TextDiffuserは高品質のテキストレンダリングを提供します。

座標系の変換を本当に理解していますか?自動運転にはマルチセンサーが不可欠

工業情報化部：電話ネットワークアクセスの物理チャネルに肖像マッチング技術を導入

自己教師学習の効率限界を突破！ Ma Yi と LeCun が共同で EMP-SSL をリリース: 特別なトリックは不要、30 エポックで SOTA を達成可能

「ロボットツアーガイド」の導入により、観光体験に斬新さが加わる

Microsoft が NaturalSpeech2 音声合成モデルを発表: 音声再構成は「より正確」になり、「行き詰まる」こともなくなる

今後 20 年間で人工知能は何ができるでしょうか?