デジタルヒューマンがアジア競技大会の聖火を灯す:ICCV 論文から見る Ant の生成 AI テクノロジーの新たな一面

デジタルヒューマンがアジア競技大会の聖火を灯す:ICCV 論文から見る Ant の生成 AI テクノロジーの新たな一面

9月23日夜、杭州アジア競技大会の開会式でメイントーチに火が灯されると、数億人のオンラインデジタル聖火ランナーの「小さな炎」が銭塘江に集まり、デジタルヒューマンイメージを形成した。その後、デジタル聖火ランナーと現地の6人目の聖火ランナーが聖火台まで歩いて行き、一緒にメイントーチに火を灯しました。

開幕式の核心アイデアとして、デジタルリアリティインターコネクションのトーチ点灯形式が話題となり、注目を集めました。

数億人が関わるデジタルヒューマンの点火は、数多くの高度で複雑な技術を伴う前例のない取り組みであり、その中で最も重要なのは、デジタルヒューマンをいかに「動かす」かということです。生成 AI と大規模モデルの急速な発展により、デジタル ヒューマン研究にも新たな変化が生じていることは容易に想像できます。

10月上旬に開催される世界最高峰のコンピュータービジョンカンファレンス「ICCV 2023」で、3Dデジタルヒューマンモーションの生成に関する研究論文が発表されていることに気づきました。関連する論文は「拡散確率モデルによる人間と物体のインタラクションの階層的生成」と題され、浙江大学とAnt Groupが共同で発表した。

この研究により、デジタルヒューマンが長距離にわたる複雑な動きを合成するという問題がある程度解決され、元のモデルや経路計画では実現できない効果を実現できると報告されています。デジタルヒューマンの運転に関する技術は、アジア競技大会での1億人のデジタルヒューマンのオンライン配信にも使用されました。

生成AIがデジタルヒューマンを動かす

多くの場合、特定の 3D シーンで 3D の人間の動きを合成して、仮想の人間がシーン内を自然に歩き回り、オブジェクトと対話できるようにする必要があります。この効果は、AR/VR、映画制作、ビデオ ゲームなど、さまざまな用途に使用できます。

ここで、従来のキャラクター制御モーション生成方法は、ユーザーの制御信号によって誘導される短期または反復的なモーションを生成することを目的としていますが、新しい研究では、開始位置とターゲット オブジェクト モデルを与えられた長期的な人間とコンピューターの相互作用コンテンツを生成することに重点を置いています。

このアプローチはより効果的ですが、明らかにより困難です。まず、人と物の間の相互作用は首尾一貫している必要があり、そのためには人と物の間の長距離相互作用をモデル化する能力が必要です。第二に、コンテンツ生成の文脈では、実際の人間がターゲット オブジェクトに近づき、対話する方法は多数あるため、生成モデルはさまざまなサイズの動きを合成できる必要があります。

図 1. 人間と物体の相互作用画像の生成。新しい手法では、オブジェクトが与えられると、まず一連のマイルストーン イベントを予測します。リングは場所を表し、ピンク色の人物は元のポーズを表します。アルゴリズムはマイルストーン間のアクションを入力します。この図は、新しいメソッドが同じオブジェクトを使用して異なるマイルストーンとアクションを生成することを示しています。時間の流れは色分けされて表示され、濃い青は後のフレームを表します。

デジタルヒューマンの動作を生成する手法として、既存の合成手法はオンライン生成とオフライン生成に大別できます。ほとんどのオンラインアプローチは、キャ​​ラクターのリアルタイム制御に重点を置いています。ターゲット オブジェクトが与えられると、通常は自己回帰モデルを使用して予測をフィードバックすることで将来の動作を再帰的に生成します。このアプローチはビデオゲームなどのインタラクティブなシナリオで広く使用されていますが、その品質は長期的な生成にはまだ十分ではありません。

モーションの品質を向上させるために、最近のオフライン手法では、最初に軌道を生成し、次にモーションを合成する多段階フレームワークを採用しています。この戦略は合理的なパスを生成できますが、パスの多様性は制限されます。

新しい研究では、著者らは長期的かつ多様な人間と物体の相互作用を合成する新しいオフライン手法を提案しました。その革新性は、まず一連のマイルストーンを予測し、次にマイルストーン間の人間の行動を生成する階層的生成戦略にあります。

具体的には、開始位置とターゲット オブジェクトが与えられた場合に、動作軌跡に沿って一連のノードを合成するマイルストーン生成モジュールを設計します。各マイルストーンはローカル ポーズをエンコードし、人間の動作中の遷移ポイントを示します。これらのマイルストーンに基づいて、アルゴリズムはモーション生成モジュールを使用して完全なモーション シーケンスを生成します。これらのマイルストーンの存在により、長いシーケンスの生成をいくつかの短いモーション シーケンスの合成に簡素化できます。

さらに、各マイルストーンのローカルポーズは、グローバルな依存関係を考慮したトランスフォーマー モデルによって生成されるため、時間的に一貫した結果が得られ、一貫した動きがさらに促進されます。

研究者らは、階層的生成フレームワークに加えて、拡散モデルをさらに活用して、人間と物体の相互作用を合成しました。これまでのモーション合成拡散モデルには、トランスフォーマーとノイズ除去拡散確率モデル (DDPM) を組み合わせたものもありました。

モーション シーケンスが長いため、それを新しい設定に直接適用すると、大量の計算が必要になり、GPU メモリが爆発的に増加する可能性があることに注意してください。新しい階層型生成フレームワークは、長期生成を複数の短いシーケンスの合成に変換するため、必要な GPU メモリは短期モーション生成と同じレベルに削減されます。

したがって、研究者は Transformer DDPM を効果的に利用して長期的なモーション シーケンスを合成し、生成品質を向上させることができます。

この目的のために、研究者たちは、下の図に示すように、階層的なモーション生成フレームワークを設計しました。

まず、GoalNet を使用してオブジェクトに対するインタラクションの目標を予測し、目標ポーズを生成して人間とオブジェクトのインタラクションを明示的にモデル化し、マイルストーン生成モジュールを使用してマイルストーンの長さを推定し、開始点から目標までのマイルストーンの軌跡を生成して、マイルストーンのポーズを配置します。

このように、長距離動作生成は、複数の短距離動作生成の組み合わせに分解されます。最後に、マイルストーン間の軌跡を合成し、アクションを埋め込むためのモーション生成モジュールを設計します。

AIポーズ生成

研究者は、人が物体と相互作用し、静止したままでいる姿勢を目標姿勢と呼んでいます。これまで、ほとんどの方法では cVAE モデルを使用して人間のポーズを生成していましたが、研究者たちは、この方法のパフォーマンスが不十分であることを発見しました。

この課題を克服するために、研究者らは、離散表現を利用してデータを有限の点集合にクラスタリングするデータ分布をモデル化する VQ-VAE モデルを導入しました。さらに、人間の姿勢は異なっていても類似した特性を持つ可能性があるという観察(例えば、人が座るとき、手の動きは異なるが、足の位置は同じである可能性がある)に基づいて、関節を L 個(L = 5)の異なる重複しないグループに分割しました。

図3に示すように、目標姿勢は独立した関節グループに分割されます。

開始ポーズと目標ポーズに基づいて、アルゴリズムでマイルストーンの軌跡を生成し、マイルストーンでのローカルポーズを合成することができます。動作データの長さは不明であり、任意である可能性があるため (たとえば、人は椅子まで素早く歩いてから座る場合もあれば、椅子の周りをゆっくり歩いてから座る場合もあります)、N で表されるマイルストーンの長さを予測する必要があります。次に、N 個のランドマーク ポイントが合成され、これらのポイントにローカル ポーズが配置されます。

最後のステップはアクションの生成です。研究者が使用する方法は、フレームごとにアクションを予測するのではなく、生成されたマイルストーンに基づいてシーケンス全体を階層的に合成することです。まず軌道を生成し、次に動きを合成します。具体的には、連続する 2 つのマイルストーン内で、まず軌道を完了しました。次に、連続するマイルストーンジェスチャーによってガイドされる動きを入力します。これら 2 つのステップは、それぞれ 2 つの Transformer DDPM を使用して完了します。

研究者らは、各ステップで目標出力を生成するための DDPM の条件を慎重に設計しました。

結果でリードする

研究者らは、SAMP データセットにおけるさまざまな方法の結果を比較しました。論文で提案された方法は、FD が低く、ユーザー調査スコアが高く、APD が高いことがわかります。さらに、彼らの方法は SAMP よりも高い軌道多様性を実現します。

新しい方法は、雑然としたシーンでも満足のいく結果を生み出すことができます。この方法で生成された貫通フレームの割合は 3.8% ですが、SAMP の場合は 4.9% です。

SAMP や COUCH などのデータセットでは、論文で言及されている方法はベースライン方法よりも優れた結果を達成しました。

フルリンクレイアウトを完了する

デジタルヒューマンは、音声、セマンティクス、視覚などを統合したマルチモーダル技術の集大成です。生成 AI における最近の躍進と並行して、デジタル ヒューマンの分野では飛躍的な発展が見られ、モデリング、生成インタラクション、レンダリングなど、以前は手作業が必要だったプロセスが完全に AI 対応になっています。

エンジニアが最適化を続けるにつれて、モバイルデバイスでのこのテクノロジーの体験も向上しています。先日終了したアジア競技大会の聖火リレーが良い例です。聖火ランナーになりたい場合は、Alipayアプリのミニプログラムを開くだけです。

開会式の円滑な進行を確保するため、アントグループのエンジニアは数百種類の異なるモデルの携帯電話で10万回以上のテストを実施し、20万行以上のコードを記述し、自社開発のWeb3DインタラクティブエンジンGalacean、AIデジタルヒューマン、クラウドサービス、ブロックチェーンなどの技術を組み合わせて、誰もがデジタル聖火ランナーとなり、聖火リレーに参加できるようにしたという。アジア競技大会デジタル聖火ランナープラットフォームは、数億人のユーザーをカバーし、一般的なスマートフォンデバイスの 97% をサポートします。

デジタル聖火ランナーに本当の参加感を与えるために、アントの技術チームは58個の顔つまみコントローラーを開発しました。AIアルゴリズムによる顔認識に基づいてデジタル聖火ランナーの顔を描いた後、顔の形、髪、鼻、口、眉毛などを調整して自由な着せ替えを実現します。この技術は2兆枚のデジタル画像を提供できます。

また、開会式の点火式終了後、各デジタル聖火ランナーには、各デジタル聖火ランナーのユニークな画像が入った専用のデジタル点火証明書が渡されます。この証明書は、分散型技術を通じてブロックチェーン上に保存されます。

研究論文やアジア競技大会のプロジェクトの内容から、その背後に完全なデジタルヒューマンテクノロジーシステムがあることは容易にわかります。アントグループはデジタルヒューマン技術を積極的に模索しており、デジタルヒューマンの全リンクコア技術の自社開発レイアウトを完了したとみられる。

市場のほとんどの企業とは異なり、Ant Group は独自のデジタル ヒューマン テクノロジーを開発し、それを生成 AI と組み合わせることを選択しています。技術展開の面では、デジタルヒューマンのモデリング、レンダリング、運転、インタラクションのライフサイクル全体をカバーしています。AIGCと大規模モデルを組み合わせることで、デジタルヒューマンのフルリンク制作コストを大幅に削減します。現在、2Dおよび3Dデジタルヒューマンをサポートしており、放送型やインタラクティブ型など多様なソリューションを提供しています。

公開情報によると、Ant Digital Human Platform には現在、次の 4 つの技術的な利点と機能があります。

  • 低コストのモデリング:清華大学と協力してアジア人の顔の 3D パラメトリック モデルを立ち上げ、写真に基づいて 3D 顔を再構築し、アジア人の顔の特徴にさらに適合させます。
  • ジェネレーティブ ドライブ: ドライブ生成とモーション キャプチャを組み合わせることで、従来のモーション制作プロセスに比べてコストが効果的に削減され、モーションの豊かさが向上します。
  • 適応性の高いレンダリング:自社開発のWeb3Dレンダリングエンジン「Galacean」は、一般的なモバイル端末の97%をカバーしています。ニューラルレンダリングでは、動的な駆動と静的モデリングを分離するNeRFフレームワークを構築し、デジタルヒューマンの動的なビデオシーンに適用しています。
  • インテリジェントなインタラクション: 事前トレーニング済みの音声クローニングに基づいて、分単位のオーディオ入力をサポートし、パーソナライズされたデジタルヒューマン音声を生成します。また、大規模なモデルに基づいてデジタルヒューマンインタラクションをレイアウトします。

アジア競技大会の開幕式を前に、中国情報通信研究院は最新のデジタルヒューマン標準準拠検証結果を発表した。アントグループの霊静デジタルヒューマンプラットフォームは、業界で初めて金融デジタルヒューマン評価に合格した製品となり、最高評価の「優秀(L4)」を獲得した。

アントデジタルヒューマンプラットフォームは、アジア競技大会以外にも、アントグループのアリペイ、デジタルファイナンス、政府関係、五福などの事業もサポートしており、今年から短編動画、生放送、ミニプログラムなどのキャリアを通じてパートナーに基本サービスを提供するために使用され始めました。

近い将来、生成 AI によって強化されたデジタル ヒューマンが継続的にアップグレードされ、私たちもより多くのシナリオでより優れたインタラクションを体験し、デジタルと現実の生活を統合したインテリジェントな生活を真に実現することが予測されます。

<<:  OpenAIの最新の評価額は半年で3倍になり、800億ドルを超える

>>: 

ブログ    

推薦する

90年代以降の世代初登場!何凱明と孫建のチームが未来科学賞を受賞し、ResNetは18万回引用された。

先ほど、2023年未来科学賞の受賞者が発表されました!今年の「数学およびコンピューターサイエンス賞」...

あなたは人工知能の前で「透明な人」ですか?

プライバシーがないと感じる人が増えているのは紛れもない事実です。最も直接的な例は、買い物をしたい場合...

...

...

人工知能の安全で制御可能な開発について議論するために、AIセキュリティと産業ガバナンスフォーラムが正式に開催されました。

第四次科学技術革命をリードする戦略的技術として、人工知能は社会構築と経済発展に重大かつ広範囲な影響を...

ビジョンレーダーは、センサーコンピューティングによる次世代の自動運転システムの重要なコンポーネントです。

[[438879]] 2021年10月25日、テスラの時価総額は1兆ドルを超え、米国株式市場で時価...

...

ガートナーは、中国企業が平均5つ以上のAIユースケースを展開しているというレポートを発表した。

最近、ガートナーは中国企業が人工知能プロジェクトをプロトタイプから生産へと移行していることを示す最新...

企業が機械学習で犯す5つの間違い

機械学習技術の発展により、企業内のさまざまな構造化コンテンツや非構造化コンテンツから、より多くの情報...

現代のストレージシステムの背後にある古典的なアルゴリズムを解釈する

アプリケーションによって処理されるデータの量は増加し続けています。データの増加は、ストレージ機能の拡...

AIと機械学習が建設業界にもたらす変化

建設業界は長い間、伝統的な手作業のプロセスで知られてきましたが、テクノロジーの進歩により急速に変化し...

マイクロソフトがAR仮想「翻訳機」をデモ、将来の翻訳業界に影響を与える

7月22日のニュース:AR技術は継続的な発展により、徐々に成熟してきました。他の新しいテクノロジーと...

ルカン氏の論文は「盗作」と非難されたのか? LSTMの父は怒りの投稿を投稿しました:私をコピーした人はオリジナルにもマークを付けてください

チューリング賞を受賞したヤン・ルカンは、AI分野の三大巨頭の一人です。当然ながら、彼が発表した論文は...

ガートナー:世界のAIチップの収益は2023年に530億ドル、2027年には1194億ドルに達する

8月24日、市場調査会社ガートナーの最新予測によると、 AI向けハードウェアの世界販売収益は2023...