しゃべるアバター!新しいフレームワークLipSync3Dは将来的に動的なリップシンクを可能にするかもしれない

しゃべるアバター!新しいフレームワークLipSync3Dは将来的に動的なリップシンクを可能にするかもしれない

Google AIの研究者たちは、インド工科大学カラグプル校と協力し、音声コンテンツから話すアバターを合成できる新しいフレームワークを開発した。

このプロジェクトの目標は、オーディオから「話すヘッド」ビデオを作成するための最適化されたリソース効率の高い方法を開発し、インタラクティブ アプリケーションやその他のリアルタイム環境でアバターにリップシンクされた吹き替えや機械翻訳されたオーディオを追加できるようにすることです。

論文アドレス: https://arxiv.org/pdf/2106.04185.pdf

機械学習モデル LipSync3D

このプロセスでトレーニングされた機械学習モデル LipSync3D では、入力データとして対象の顔認識のビデオのみが必要です。

データ準備パイプラインは、顔の形状の抽出を照明や入力ビデオのその他の側面の評価から切り離し、よりコスト効率が高く集中的なトレーニングを可能にします。

LipSync3D の 2 段階ワークフロー。上の画像は、「ターゲット」オーディオから生成された動的テクスチャの 3D 顔を示しており、下の画像は、生成されたメッシュがターゲット ビデオに挿入されたことを示しています。

実際、この研究分野における LipSync3D の最も注目すべき貢献は、トレーニングと推論の照明を分離する照明正規化アルゴリズムでしょう。

照明データを一般的なジオメトリから切り離すと、LipSync3D は困難な状況でもよりリアルなリップシンクを実現できます。近年の他のアプローチでは、この点での限界を明らかにしないように、「固定された」照明条件に制限されています。

入力データ フレームの前処理中に、システムはミラー ポイントを識別して削除する必要があります。ミラー ポイントはビデオが撮影された照明条件に固有のものであり、そうしないと再生プロセスに干渉する可能性があるためです。

LipSync3D は、その名前が示すように、評価する顔をピクセル単位で分析するだけでなく、識別された顔のランドマークを積極的に使用して、アニメーション化された CGI スタイルのメッシュと、従来の CGI パイプラインを介してその周囲にラップされた「展開された」テクスチャを生成します。

LipSync3D でのポーズの正規化。左側には入力フレームと検出された特徴があり、中央には結果のメッシュに対して評価された正規化された頂点があり、右側にはテクスチャ予測のグラウンドトゥルースを提供する対応するテクスチャアトラスがあります。出典: https://arxiv.org/pdf/2106.04185.pdf

研究者らは、照明再現に対するこの斬新なアプローチに加えて、LipSync3D は、正規化された空間における個別のデータ ストリームへのジオメトリ、照明、ポーズ、テクスチャの分離、時間的に一貫したビデオ合成を生成する、簡単にトレーニング可能な自己回帰テクスチャ予測モデル、および人間の評価と客観的な指標によるリアリティの向上という、これまでの研究に比べて 3 つの主要な革新を提供すると主張しています。

ビデオの顔画像のさまざまな側面を分割することで、ビデオ合成をより細かく制御できるようになります。

LipSync3D は、音素や音声のその他の側面を分析することで、適切な唇の形状をオーディオから直接導き出し、それを口の周りの対応する既知の筋肉の姿勢に変換できます。

このプロセスでは、推定されたジオメトリとテクスチャにオートエンコーダ設定の専用エンコーダがあるが、モデルに適用することを意図した音声とオーディオエンコーダを共有する共同予測パイプラインを使用します。

LipSync3D のモーション合成は、現実世界の画像と同様にメッシュとテクスチャ情報のみで構成される、様式化された CGI アバターの改善にも役立ちます。

パーソナライズされた 3D アバターの唇の動きをリアルタイムでパワーソース スピーカー ビデオに表示します。この場合、パーソナライズされた事前トレーニングを通じて最良の結果が得られます。

研究者たちは、よりリアルなアバターの使用も望んでいる。

GeForce GTX 1080 で TensorFlow、Python、C++ を使用するパイプラインでは、2 ~ 5 分のビデオの場合、ビデオ例のトレーニング時間は 3 ~ 5 時間でした。トレーニング セッションでは、500 ~ 1000 エポックにわたって 128 フレームのバッチ サイズが使用され、各エポックは完全なビデオ評価を表します。

未来:ダイナミックリップシンク

新しいオーディオトラックへのリップシンクは、特に物議を醸しているディープフェイク技術の副産物として、ここ数年間コンピュータービジョン研究で大きな注目を集めています。

2017年、ワシントン大学は音声からリップシンクを学習できる研究を実演し、当時の大統領バラク・オバマ氏の画像を使ったビデオも制作した。

https://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf

2018年には、マックスプランクコンピュータサイエンス研究所の別の研究プログラムがアイデンティティ>アイデンティティのビデオ転送を実現し、リップシンクも実現しました。2021年5月には、AIスタートアップのFlawlessAIが独自のリップシンク技術TrueSyncをリリースし、主要映画の多言語公開に向けた改良された吹き替え技術としてメディアに広く認知されました。

もちろん、ディープフェイク オープン ソース リポジトリの継続的な開発により、顔画像合成の分野におけるアクティブなユーザー貢献型研究分野も生まれます。

<<:  医療の発展は自動化に向かっており、手術ロボットは急速に発展している。

>>:  ネイチャーの表紙に掲載されているこのグループ学習は、中央コーディネーターを必要とせず、連合学習よりも優れています。

ブログ    
ブログ    

推薦する

ハイパーオートメーション – AIの新時代における自動化

「自動化」の本質的な意味は変わりませんが、その用語の使用法は時間の経過とともに確実に変化してきました...

ディープラーニングによる画像セグメンテーション:手法と応用

人工知能とディープラーニング手法に基づく現代のコンピュータービジョン技術は、過去 10 年間で目覚ま...

確かな情報です! AIテクノロジーアーキテクチャソリューションの実現可能性を判断するのに役立つ3つの重要な要素

近年、人工知能は急速に発展しており、コンピュータービジョンや自然言語処理の分野で画期的な変化をもたら...

8年が経ちました。Googleが中国に戻るという噂は本当でしょうか?

[51CTO.com オリジナル記事] Google の中国復帰について新たな声が上がっている。最...

デアデビルが来た!バットセンスAIは、スマートフォンが音を聞いて3D画像を生成できるようにする

英国の科学者たちは、スマートフォンやノートパソコンなどの日常的な物に、デアデビルと同じくらい強力なコ...

自動車所有者は完全自動運転を導入すべきでしょうか?マスク氏:よく分かりません

北京時間7月27日、テスラは最近、自動車所有者に「完全自動運転」(FSD)機能のサブスクリプションを...

...

Python 自然言語処理 (NLP) を使用して要約を作成する方法

たくさんのレポートを読まなければならないときに、それぞれのレポートを簡単に要約したいという状況に遭遇...

rsyncのコアアルゴリズム

Rsync は、Unix/Linux でファイルを同期するための効率的なアルゴリズムです。2 台のコ...

パフォーマンスが20%向上しました! USTCの「状態シーケンス周波数領域予測」手法:学習サンプル効率の最大化の特徴

強化学習 (RL) アルゴリズムのトレーニング プロセスでは、サポートとして環境との相互作用のサンプ...

...

企業はアルゴリズムやデータを通じて、どのようにより深い堀を築くのでしょうか?

[51CTO.com からのオリジナル記事] データは今最もホットなものです。当時は「紙は洛陽と同...

電力業界における人工知能開発の現状

今日は、人類が初めて電気を家庭や企業に供給するようになってから 140 年目の記念日です。電力産業は...

...

2020年、アルゴリズムの話題が主流になる年

[[397576]]システムに閉じ込められた配達員から人々が飽きることのないソーシャルメディアまで、...