ネットワークケーブルに沿って登ることが現実になりました。Audio2Photorealは、対話を通じてリアルな表情や動きを生成できます

ネットワークケーブルに沿って登ることが現実になりました。Audio2Photorealは、対話を通じてリアルな表情や動きを生成できます

携帯電話の冷たい画面を通して友達とチャットするときは、相手の口調を推測する必要があります。彼/彼女が話すとき、あなたは彼/彼女の表情や動きさえも心の中で見ることができます。ビデオ通話ができれば一番良いのですが、現実にはいつでもビデオ通話ができるわけではありません。

遠く離れた友人とチャットする場合、それは冷たい画面のテキストや無表情な仮想画像ではなく、現実的でダイナミックで表現力豊かなデジタル仮想人物を通して行われます。この仮想人物は、友達の笑顔、目、さらには微妙な体の動きまで完璧に再現できるだけではありません。もっと親密で温かい気持ちになれますか?まさに「インターネットケーブルに沿って這ってあなたを探します」という言葉を体現しています。

これは単なるSFではなく、現実に実現できる技術です。

表情や体の動きには多くの情報が含まれており、コンテンツの意味に大きく影響します。例えば、ずっと相手の目を見ながら話すのと、あまり目を合わせずに話すのとでは、相手に与える印象が全く異なり、コミュニケーションの内容に対する相手の理解にも影響を及ぼします。私たちはコミュニケーション中のこうした微妙な表情や動きに非常に敏感で、それらを使って会話相手の意図、快適さのレベル、理解のレベルを高度に理解します。したがって、これらの微妙なニュアンスを捉えることができる、非常にリアルな会話ができる仮想人間を開発することが、インタラクションにとって極めて重要です。

この目的のために、メタ氏とカリフォルニア大学の研究者らは、2人の人間の会話の音声に基づいてリアルな仮想人間を生成する方法を提案した。音声と密接に同期したさまざまな高周波ジェスチャーと表情豊かな顔の動きを合成できます。体と手については、自己回帰 VQ ベースのアプローチと拡散モデルの利点を活用しました。顔については、オーディオに基づいて調整された拡散モデルを使用します。予測された顔、体、手の動きは、リアルな仮想人間としてレンダリングされます。ガイド付きジェスチャ条件を拡散モデルに追加すると、以前の研究よりも多様で妥当な会話ジェスチャを生成できることを実証します。


  • 論文アドレス: https://huggingface.co/papers/2401.01885
  • プロジェクトアドレス: https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/

研究者らは、対人会話のためのリアルな顔、体、手の動きを生成する方法を研究したのは初めてだと述べている。以前の研究と比較して、私たちの VQ と拡散ベースの方法は、より現実的で多様な動きを合成します。

方法の概要

研究者らは、記録されたマルチビューデータから潜在的な表情コードを抽出して顔を表現し、モーションスケルトンの関節角度を使用して体の姿勢を表現しました。図3に示すように、本論文のシステムは、2人の会話の音声が入力されると、表情コードと体の姿勢シーケンスを生成する2つの生成モデルで構成されています。その後、表情コードと体のポーズシーケンスは、ニューラル仮想人間レンダラーを使用してフレームごとにレンダリングされ、特定のカメラビューから顔、体、手を含む完全にテクスチャ化されたアバターを生成できます。

体と顔のダイナミクスは非常に異なることに注意することが重要です。まず、顔は入力音声、特に唇の動きと強く相関していますが、体は音声と弱い相関があります。その結果、特定の音声入力におけるボディジェスチャーの多様性がより複雑になります。第二に、顔と体は 2 つの異なる空間で表現されるため、それぞれ異なる時間的ダイナミクスに従います。そのため、研究者たちは顔と体をシミュレートするために 2 つの別々のモーション モデルを使用しました。こうすることで、顔モデルは声と一致する顔の細部に「焦点を合わせる」ことができ、一方、体モデルは多様でありながら合理的な体の動きを生成することに重点を置くことができます。

顔の動きのモデルは、入力オーディオと、事前トレーニング済みの唇回帰器によって生成された唇の頂点に基づいて調整された拡散モデルです (図 4a)。四肢運動モデルについては、研究者らは、音声のみに条件付けされた純粋な拡散モデルは多様性に欠け、時系列で調整されていない運動を生み出すことを発見した。しかし、研究者がさまざまな誘導姿勢で結果を条件付けたところ、品質が向上しました。そのため、彼らはボディモーションモデルを 2 つの部分に分割しました。まず、自己回帰オーディオ調整トランスフォーマーが 1fp での大まかなガイドポーズを予測し (図 4b)、次に拡散モデルがこれらの大まかなガイドポーズを利用して、きめ細かい高周波モーションを埋め込みます (図 4c)。メソッドの設定の詳細については、元の論文を参照してください。

実験と結果

研究者らは、実際のデータに基づいてリアルな会話の動きを効果的に生成する Audio2Photoreal の能力を定量的に評価しました。一方、定量的な結果を確認し、特定の会話コンテキストにおける Audio2Photoreal のジェスチャ生成の適切性を測定するために、知覚評価も実施されます。実験結果によると、ジェスチャが 3D メッシュではなくリアルなアバター上に提示された場合、評価者は微妙なジェスチャに対してより敏感であることが示されました。

研究者らは、トレーニング セット内のランダムなモーション シーケンスに基づいて、この方法の生成結果を 3 つのベースライン方法 (KNN、SHOW、LDA) と比較しました。オーディオやガイドポーズなし、ガイドポーズなしだがオーディオに基づく、オーディオなしだがガイドポーズに基づくという条件下で、Audio2Photoreal の各コンポーネントの有効性をテストするためにアブレーション実験が実行されました。

定量的な結果

表 1 は、以前の研究と比較して、最も多様な動作を生成するときに私たちの方法が最も低い FD スコアを達成することを示しています。ランダムは GT と一致する多様性に優れていますが、ランダム セグメントは対応する会話のダイナミクスと一致しないため、FD_g が高くなります。

図 5 は、私たちの方法によって生成されたガイド付きポーズの多様性を示しています。 VQ ベースのトランスフォーマー P をサンプリングすることで、同じオーディオ入力に対して異なるスタイルのポーズを生成できます。

図 6 に示すように、拡散モデルは会話の音声とより一致する動的なアクションを生成することを学習します。

図 7 は、LDA によって生成された動きがダイナミズムに欠け、動きが少ないことを示しています。比較すると、提案された方法によって合成された動作の変化は、実際の状況とより一致しています。

さらに、研究者らは唇の動きを生成するこの方法の精度も分析した。表 2 の統計に示されているように、Audio2Photoreal はベースライン メソッド SHOW を大幅に上回り、アブレーション実験で事前トレーニング済みのリップ リグレッサーを削除した後のパフォーマンスも上回っています。この設計により、話しているときの口の形の同期の問題が改善され、話していないときの口のランダムな開閉が効果的に回避され、顔のメッシュ頂点 (メッシュ L2) の誤差を減らしながら、モデルが唇の動きをより正確に再構築できるようになります。

定性評価

会話中のジェスチャーの一貫性を定量化することは難しいため、研究者は定性的な方法を使用してそれを評価しました。彼らは MTurk で 2 セットの A/B テストを実施しました。具体的には、評価者に、私たちの方法とベースライン方法で生成された結果のビデオペア、または私たちの方法と実際のシーンのビデオペアを視聴してもらい、どちらのビデオの動きがより合理的であるかを評価するように依頼しました。

図 8 に示すように、私たちの方法は以前のベースライン方法 LDA を大幅に上回っており、評価者の約 70% がメッシュとリアリズムの点で Audio2Photoreal を好みます。

図 8 の上のグラフに示されているように、評価者の私たちの方法に対する評価は、LDA と比較して「やや好む」から「非常に好む」に変化しています。実際の状況と比較すると、同様の評価が示されています。しかし、リアリズムの点では、評価者は依然として Audio2Photoreal よりも実際の状況を好みました。

より技術的な詳細については、元の論文をお読みください。

<<: 

>>:  データベース向けに設計: DB-GPTはプライベートLLMテクノロジーを使用して、次世代のデータベースインタラクションを定義します。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

強力な人工知能まであとどれくらいでしょうか?まず、これらの5つの数学の問題を解くのに10年から20年かかります

[[272461]] 7月30日、成都ハイテクゾーンの景栄会で開催された2019年世界人工知能サミッ...

ロボットはどのようにして深く学習するのでしょうか?論理的判断と感情的な選択は依然として障害となっている

[[187099]]一人でいるときに少し寂しさを感じたらどうすればいいでしょうか?Microsoft...

2022 年に AI はサイバーセキュリティ分野に何をもたらすでしょうか?

[[439421]] [51CTO.com クイック翻訳]近年、人工知能(AI)は私たちの日常生活...

再帰アルゴリズムの時間計算量について十分に理解していない

[[414048]]この記事では、面接の質問と面接のシナリオを使用して、再帰アルゴリズムの時間計算量...

これがあれば、母は私が授業をさぼったり、空想にふけったり、携帯電話で遊んだりすることを心配する必要がなくなります...

最近、中国薬科大学は試験的に教室に顔認識システムを導入しました。学生の出席を自動的に識別するだけでな...

Appleはすでに社内でAppleGPTを使用していると報じられている

7月24日、Appleは社内で従業員の業務を支援するためにチャットボットを使用しており、将来的には顧...

GPT-4 だけが自己改善可能、GPT-3.5 はできない、MIT と Microsoft のコード生成実験で新たな発見

大規模言語モデル (LLM) は、自然言語からコード スニペットを生成できることが示されていますが、...

人工知能は職場のつながりとコラボレーションを変革できる

世界の人工知能(AI)市場は2027年までに2,670億ドルに達すると予想されています。しかし、テク...

中関村科学技術の張傑氏との対話:大規模モデルを実装するには従うべき「テクニック」がある

ゲスト | 張潔インタビュー | 張小南編集者 | 徐潔成制作:51CTO テクノロジースタック(W...

悪いデータは良いAIを殺すことが判明

[[421984]]データ サイエンティストは、データの準備があらゆる AI システムの成功に非常に...

自動運転車にロボットが殺される、これは今後ますます増えるかもしれない

CES ではさまざまな新技術が注目を集めようと競い合っていたが、同じ場所で悲劇が起きた。自動運転モー...

20以上のモバイルハードウェア、Int8超高速推論、エンドサイド推論エンジンPaddle Lite 2.0が正式にリリースされました

PaddlePaddleは今年8月、端末やエッジデバイス向けのエッジ推論エンジン「Paddle Li...

VSCodeでChatGPTを実行すると、ファイルを直接生成できます。

人気の ChatGPT には、コード生成という非常に目を引く機能があります。多くの開発者はすでにプロ...

...