しゃべるアバター!新しいフレームワークLipSync3Dは将来的に動的なリップシンクを可能にするかもしれない

しゃべるアバター!新しいフレームワークLipSync3Dは将来的に動的なリップシンクを可能にするかもしれない

Google AIの研究者たちは、インド工科大学カラグプル校と協力し、音声コンテンツから話すアバターを合成できる新しいフレームワークを開発した。

このプロジェクトの目標は、オーディオから「話すヘッド」ビデオを作成するための最適化されたリソース効率の高い方法を開発し、インタラクティブ アプリケーションやその他のリアルタイム環境でアバターにリップシンクされた吹き替えや機械翻訳されたオーディオを追加できるようにすることです。

論文アドレス: https://arxiv.org/pdf/2106.04185.pdf

機械学習モデル LipSync3D

このプロセスでトレーニングされた機械学習モデル LipSync3D では、入力データとして対象の顔認識のビデオのみが必要です。

データ準備パイプラインは、顔の形状の抽出を照明や入力ビデオのその他の側面の評価から切り離し、よりコスト効率が高く集中的なトレーニングを可能にします。

LipSync3D の 2 段階ワークフロー。上の画像は、「ターゲット」オーディオから生成された動的テクスチャの 3D 顔を示しており、下の画像は、生成されたメッシュがターゲット ビデオに挿入されたことを示しています。

実際、この研究分野における LipSync3D の最も注目すべき貢献は、トレーニングと推論の照明を分離する照明正規化アルゴリズムでしょう。

照明データを一般的なジオメトリから切り離すと、LipSync3D は困難な状況でもよりリアルなリップシンクを実現できます。近年の他のアプローチでは、この点での限界を明らかにしないように、「固定された」照明条件に制限されています。

入力データ フレームの前処理中に、システムはミラー ポイントを識別して削除する必要があります。ミラー ポイントはビデオが撮影された照明条件に固有のものであり、そうしないと再生プロセスに干渉する可能性があるためです。

LipSync3D は、その名前が示すように、評価する顔をピクセル単位で分析するだけでなく、識別された顔のランドマークを積極的に使用して、アニメーション化された CGI スタイルのメッシュと、従来の CGI パイプラインを介してその周囲にラップされた「展開された」テクスチャを生成します。

LipSync3D でのポーズの正規化。左側には入力フレームと検出された特徴があり、中央には結果のメッシュに対して評価された正規化された頂点があり、右側にはテクスチャ予測のグラウンドトゥルースを提供する対応するテクスチャアトラスがあります。出典: https://arxiv.org/pdf/2106.04185.pdf

研究者らは、照明再現に対するこの斬新なアプローチに加えて、LipSync3D は、正規化された空間における個別のデータ ストリームへのジオメトリ、照明、ポーズ、テクスチャの分離、時間的に一貫したビデオ合成を生成する、簡単にトレーニング可能な自己回帰テクスチャ予測モデル、および人間の評価と客観的な指標によるリアリティの向上という、これまでの研究に比べて 3 つの主要な革新を提供すると主張しています。

ビデオの顔画像のさまざまな側面を分割することで、ビデオ合成をより細かく制御できるようになります。

LipSync3D は、音素や音声のその他の側面を分析することで、適切な唇の形状をオーディオから直接導き出し、それを口の周りの対応する既知の筋肉の姿勢に変換できます。

このプロセスでは、推定されたジオメトリとテクスチャにオートエンコーダ設定の専用エンコーダがあるが、モデルに適用することを意図した音声とオーディオエンコーダを共有する共同予測パイプラインを使用します。

LipSync3D のモーション合成は、現実世界の画像と同様にメッシュとテクスチャ情報のみで構成される、様式化された CGI アバターの改善にも役立ちます。

パーソナライズされた 3D アバターの唇の動きをリアルタイムでパワーソース スピーカー ビデオに表示します。この場合、パーソナライズされた事前トレーニングを通じて最良の結果が得られます。

研究者たちは、よりリアルなアバターの使用も望んでいる。

GeForce GTX 1080 で TensorFlow、Python、C++ を使用するパイプラインでは、2 ~ 5 分のビデオの場合、ビデオ例のトレーニング時間は 3 ~ 5 時間でした。トレーニング セッションでは、500 ~ 1000 エポックにわたって 128 フレームのバッチ サイズが使用され、各エポックは完全なビデオ評価を表します。

未来:ダイナミックリップシンク

新しいオーディオトラックへのリップシンクは、特に物議を醸しているディープフェイク技術の副産物として、ここ数年間コンピュータービジョン研究で大きな注目を集めています。

2017年、ワシントン大学は音声からリップシンクを学習できる研究を実演し、当時の大統領バラク・オバマ氏の画像を使ったビデオも制作した。

https://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf

2018年には、マックスプランクコンピュータサイエンス研究所の別の研究プログラムがアイデンティティ>アイデンティティのビデオ転送を実現し、リップシンクも実現しました。2021年5月には、AIスタートアップのFlawlessAIが独自のリップシンク技術TrueSyncをリリースし、主要映画の多言語公開に向けた改良された吹き替え技術としてメディアに広く認知されました。

もちろん、ディープフェイク オープン ソース リポジトリの継続的な開発により、顔画像合成の分野におけるアクティブなユーザー貢献型研究分野も生まれます。

<<:  医療の発展は自動化に向かっており、手術ロボットは急速に発展している。

>>:  ネイチャーの表紙に掲載されているこのグループ学習は、中央コーディネーターを必要とせず、連合学習よりも優れています。

ブログ    
ブログ    

推薦する

Google: 人工知能、機械学習などを Wear OS オペレーティング システムに統合

[[244954]]最近、上海世界博覧センターで 2 日間にわたる Google 開発者会議 (Go...

1 つの記事で 10 個のアルゴリズムをカバーします。基本的なグラフアルゴリズムの視覚的な説明

[[343053]]グラフは、ソーシャル メディア ネットワーク、Web ページやリンク、GPS の...

...

ビッグデータと人工知能の違いすら分からないのに、あなたはまだトップへの道を歩んでいる

ビッグデータと AI は公平に比較​​できるでしょうか? ある程度は公平ですが、まずはその違いを明確...

...

AIはハリウッドに影響を与えているのでしょうか?議論の余地はあるものの、答えはすでにある

最新の3Dアニメーションをご覧になった方は、その壮大な世界に衝撃を受けるかもしれません。もしこれらの...

...

データが増えるほど、AI は賢くなるのでしょうか?私たちはそれを常に当然のこととして受け止めてきました。

人工知能技術の台頭に伴い、AIの問題点が徐々に明らかになってきました。 AI による決定は、依然とし...

...

ピュー研究所:アルゴリズム時代の7つの主要テーマとその主な影響

世界的に権威のある調査機関であるピュー研究所は最近、「アルゴリズムの時代」と題する報告書を発表し、1...

ディープラーニングデータセットを管理するための新しいアプローチ

ハブの紹介 Activeloop の Hub は、Numpy のような配列にデータを配置するオープン...

...

...

顔認識の時代に顔を守る方法

シャオ・ワンは最近少しイライラしている。毎日仕事が終わったらすぐにジムに行って運動していたのですが、...

2018 年に人工知能を変える 5 つのビッグデータ トレンド

ビッグデータや人工知能の広範な導入を通じて、これらの新興技術の大きな影響が世界経済に浸透するにつれ、...