ネットワークケーブルに沿って登ることが現実になりました。Audio2Photorealは、対話を通じてリアルな表情や動きを生成できます

ネットワークケーブルに沿って登ることが現実になりました。Audio2Photorealは、対話を通じてリアルな表情や動きを生成できます

携帯電話の冷たい画面を通して友達とチャットするときは、相手の口調を推測する必要があります。彼/彼女が話すとき、あなたは彼/彼女の表情や動きさえも心の中で見ることができます。ビデオ通話ができれば一番良いのですが、現実にはいつでもビデオ通話ができるわけではありません。

遠く離れた友人とチャットする場合、それは冷たい画面のテキストや無表情な仮想画像ではなく、現実的でダイナミックで表現力豊かなデジタル仮想人物を通して行われます。この仮想人物は、友達の笑顔、目、さらには微妙な体の動きまで完璧に再現できるだけではありません。もっと親密で温かい気持ちになれますか?まさに「インターネットケーブルに沿って這ってあなたを探します」という言葉を体現しています。

これは単なるSFではなく、現実に実現できる技術です。

表情や体の動きには多くの情報が含まれており、コンテンツの意味に大きく影響します。例えば、ずっと相手の目を見ながら話すのと、あまり目を合わせずに話すのとでは、相手に与える印象が全く異なり、コミュニケーションの内容に対する相手の理解にも影響を及ぼします。私たちはコミュニケーション中のこうした微妙な表情や動きに非常に敏感で、それらを使って会話相手の意図、快適さのレベル、理解のレベルを高度に理解します。したがって、これらの微妙なニュアンスを捉えることができる、非常にリアルな会話ができる仮想人間を開発することが、インタラクションにとって極めて重要です。

この目的のために、メタ氏とカリフォルニア大学の研究者らは、2人の人間の会話の音声に基づいてリアルな仮想人間を生成する方法を提案した。音声と密接に同期したさまざまな高周波ジェスチャーと表情豊かな顔の動きを合成できます。体と手については、自己回帰 VQ ベースのアプローチと拡散モデルの利点を活用しました。顔については、オーディオに基づいて調整された拡散モデルを使用します。予測された顔、体、手の動きは、リアルな仮想人間としてレンダリングされます。ガイド付きジェスチャ条件を拡散モデルに追加すると、以前の研究よりも多様で妥当な会話ジェスチャを生成できることを実証します。


  • 論文アドレス: https://huggingface.co/papers/2401.01885
  • プロジェクトアドレス: https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/

研究者らは、対人会話のためのリアルな顔、体、手の動きを生成する方法を研究したのは初めてだと述べている。以前の研究と比較して、私たちの VQ と拡散ベースの方法は、より現実的で多様な動きを合成します。

方法の概要

研究者らは、記録されたマルチビューデータから潜在的な表情コードを抽出して顔を表現し、モーションスケルトンの関節角度を使用して体の姿勢を表現しました。図3に示すように、本論文のシステムは、2人の会話の音声が入力されると、表情コードと体の姿勢シーケンスを生成する2つの生成モデルで構成されています。その後、表情コードと体のポーズシーケンスは、ニューラル仮想人間レンダラーを使用してフレームごとにレンダリングされ、特定のカメラビューから顔、体、手を含む完全にテクスチャ化されたアバターを生成できます。

体と顔のダイナミクスは非常に異なることに注意することが重要です。まず、顔は入力音声、特に唇の動きと強く相関していますが、体は音声と弱い相関があります。その結果、特定の音声入力におけるボディジェスチャーの多様性がより複雑になります。第二に、顔と体は 2 つの異なる空間で表現されるため、それぞれ異なる時間的ダイナミクスに従います。そのため、研究者たちは顔と体をシミュレートするために 2 つの別々のモーション モデルを使用しました。こうすることで、顔モデルは声と一致する顔の細部に「焦点を合わせる」ことができ、一方、体モデルは多様でありながら合理的な体の動きを生成することに重点を置くことができます。

顔の動きのモデルは、入力オーディオと、事前トレーニング済みの唇回帰器によって生成された唇の頂点に基づいて調整された拡散モデルです (図 4a)。四肢運動モデルについては、研究者らは、音声のみに条件付けされた純粋な拡散モデルは多様性に欠け、時系列で調整されていない運動を生み出すことを発見した。しかし、研究者がさまざまな誘導姿勢で結果を条件付けたところ、品質が向上しました。そのため、彼らはボディモーションモデルを 2 つの部分に分割しました。まず、自己回帰オーディオ調整トランスフォーマーが 1fp での大まかなガイドポーズを予測し (図 4b)、次に拡散モデルがこれらの大まかなガイドポーズを利用して、きめ細かい高周波モーションを埋め込みます (図 4c)。メソッドの設定の詳細については、元の論文を参照してください。

実験と結果

研究者らは、実際のデータに基づいてリアルな会話の動きを効果的に生成する Audio2Photoreal の能力を定量的に評価しました。一方、定量的な結果を確認し、特定の会話コンテキストにおける Audio2Photoreal のジェスチャ生成の適切性を測定するために、知覚評価も実施されます。実験結果によると、ジェスチャが 3D メッシュではなくリアルなアバター上に提示された場合、評価者は微妙なジェスチャに対してより敏感であることが示されました。

研究者らは、トレーニング セット内のランダムなモーション シーケンスに基づいて、この方法の生成結果を 3 つのベースライン方法 (KNN、SHOW、LDA) と比較しました。オーディオやガイドポーズなし、ガイドポーズなしだがオーディオに基づく、オーディオなしだがガイドポーズに基づくという条件下で、Audio2Photoreal の各コンポーネントの有効性をテストするためにアブレーション実験が実行されました。

定量的な結果

表 1 は、以前の研究と比較して、最も多様な動作を生成するときに私たちの方法が最も低い FD スコアを達成することを示しています。ランダムは GT と一致する多様性に優れていますが、ランダム セグメントは対応する会話のダイナミクスと一致しないため、FD_g が高くなります。

図 5 は、私たちの方法によって生成されたガイド付きポーズの多様性を示しています。 VQ ベースのトランスフォーマー P をサンプリングすることで、同じオーディオ入力に対して異なるスタイルのポーズを生成できます。

図 6 に示すように、拡散モデルは会話の音声とより一致する動的なアクションを生成することを学習します。

図 7 は、LDA によって生成された動きがダイナミズムに欠け、動きが少ないことを示しています。比較すると、提案された方法によって合成された動作の変化は、実際の状況とより一致しています。

さらに、研究者らは唇の動きを生成するこの方法の精度も分析した。表 2 の統計に示されているように、Audio2Photoreal はベースライン メソッド SHOW を大幅に上回り、アブレーション実験で事前トレーニング済みのリップ リグレッサーを削除した後のパフォーマンスも上回っています。この設計により、話しているときの口の形の同期の問題が改善され、話していないときの口のランダムな開閉が効果的に回避され、顔のメッシュ頂点 (メッシュ L2) の誤差を減らしながら、モデルが唇の動きをより正確に再構築できるようになります。

定性評価

会話中のジェスチャーの一貫性を定量化することは難しいため、研究者は定性的な方法を使用してそれを評価しました。彼らは MTurk で 2 セットの A/B テストを実施しました。具体的には、評価者に、私たちの方法とベースライン方法で生成された結果のビデオペア、または私たちの方法と実際のシーンのビデオペアを視聴してもらい、どちらのビデオの動きがより合理的であるかを評価するように依頼しました。

図 8 に示すように、私たちの方法は以前のベースライン方法 LDA を大幅に上回っており、評価者の約 70% がメッシュとリアリズムの点で Audio2Photoreal を好みます。

図 8 の上のグラフに示されているように、評価者の私たちの方法に対する評価は、LDA と比較して「やや好む」から「非常に好む」に変化しています。実際の状況と比較すると、同様の評価が示されています。しかし、リアリズムの点では、評価者は依然として Audio2Photoreal よりも実際の状況を好みました。

より技術的な詳細については、元の論文をお読みください。

<<: 

>>:  データベース向けに設計: DB-GPTはプライベートLLMテクノロジーを使用して、次世代のデータベースインタラクションを定義します。

ブログ    
ブログ    

推薦する

バイトダンスが声明を発表:アルゴリズムや技術の移転は行われていない

9月21日、ByteDanceは「TikTokに関する特定の虚偽の噂についての声明」を発表した。バイ...

韓国の常温超伝導チームは重要な技術を隠蔽したのか?アニーリングの詳細がネットユーザーによって暴露され、6つの中国チームが攻撃を開始

昨今、室温超伝導を再現する実験が注目を集めています。 3日間の期限が過ぎ、多くの再現実験で結果が得ら...

80億人民元を超える資金で医療AIは「V字カーブ」を描いている

[[373863]] 「人工知能は将来の生産性の中核である」という見解に疑問を抱く人はほとんどいませ...

自動運転における機械学習の核となるのはモデルではなくパイプラインである

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

人工知能バブルの次のラウンドは、消費者向けロボットによって引き起こされるかもしれません。

ロボット業界ではここ1か月間、大きなニュースが数多くあり、大きな注目を集めています。テンセントが率い...

C# でのジョセフ リング アルゴリズムの簡単な分析

C# アルゴリズムを勉強しているときに、C# ジョセフ リング アルゴリズムに出会いました。ジョセフ...

ステップバイステップ | ニューラルネットワーク初心者ガイド

[[252981]]ビッグデータダイジェスト制作編纂者:李磊、大潔瓊、雲周過去数年間にブラウザを開い...

タオバオライブストリーミングにおける機械学習に基づく帯域幅推定の探求と実践

背景メディア伝送における一般的な帯域幅推定アルゴリズムには、GCC/BBR/PCC/QUBIC など...

人工知能の根幹技術を徹底的に分析

AIチップ・AIフレームワークの代表的企業コンピューティングアルゴリズムの重要な基盤として、人工知能...

...

21 歳の SpaceX インターンが AI を使って大規模な考古学的事件を解決し、4 万ドルを獲得しました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

中国初の人工知能教科書が注目を集める:人材育成が鍵

香港のサウスチャイナ・モーニング・ポストが5月3日に報じたところによると、人工知能分野の世界的な競争...

AIがセキュリティの自動化、分析、対応にどのように役立つか

人工知能 (AI) は、チャットボットから自動運転車まで、あらゆるものを説明するために使用できる幅広...

労働者は大きなモデルに遭遇します。外の世界はすでにこのように機能しているのでしょうか?

オフィスのシナリオでは、PPT の作成は最も一般的なタスクの 1 つです。業務報告、製品発表、イベン...

Xuelang Cloudは、世界人工知能会議アルゴリズムコンテストのBPAA産業トラックで世界トップ10に輝きました!

2021年7月6日、世界人工知能大会組織委員会事務局主催の第1回BPAA応用アルゴリズム実践モデル...