しゃべるアバター!新しいフレームワークLipSync3Dは将来的に動的なリップシンクを可能にするかもしれない

しゃべるアバター!新しいフレームワークLipSync3Dは将来的に動的なリップシンクを可能にするかもしれない

Google AIの研究者たちは、インド工科大学カラグプル校と協力し、音声コンテンツから話すアバターを合成できる新しいフレームワークを開発した。

このプロジェクトの目標は、オーディオから「話すヘッド」ビデオを作成するための最適化されたリソース効率の高い方法を開発し、インタラクティブ アプリケーションやその他のリアルタイム環境でアバターにリップシンクされた吹き替えや機械翻訳されたオーディオを追加できるようにすることです。

論文アドレス: https://arxiv.org/pdf/2106.04185.pdf

機械学習モデル LipSync3D

このプロセスでトレーニングされた機械学習モデル LipSync3D では、入力データとして対象の顔認識のビデオのみが必要です。

データ準備パイプラインは、顔の形状の抽出を照明や入力ビデオのその他の側面の評価から切り離し、よりコスト効率が高く集中的なトレーニングを可能にします。

LipSync3D の 2 段階ワークフロー。上の画像は、「ターゲット」オーディオから生成された動的テクスチャの 3D 顔を示しており、下の画像は、生成されたメッシュがターゲット ビデオに挿入されたことを示しています。

実際、この研究分野における LipSync3D の最も注目すべき貢献は、トレーニングと推論の照明を分離する照明正規化アルゴリズムでしょう。

照明データを一般的なジオメトリから切り離すと、LipSync3D は困難な状況でもよりリアルなリップシンクを実現できます。近年の他のアプローチでは、この点での限界を明らかにしないように、「固定された」照明条件に制限されています。

入力データ フレームの前処理中に、システムはミラー ポイントを識別して削除する必要があります。ミラー ポイントはビデオが撮影された照明条件に固有のものであり、そうしないと再生プロセスに干渉する可能性があるためです。

LipSync3D は、その名前が示すように、評価する顔をピクセル単位で分析するだけでなく、識別された顔のランドマークを積極的に使用して、アニメーション化された CGI スタイルのメッシュと、従来の CGI パイプラインを介してその周囲にラップされた「展開された」テクスチャを生成します。

LipSync3D でのポーズの正規化。左側には入力フレームと検出された特徴があり、中央には結果のメッシュに対して評価された正規化された頂点があり、右側にはテクスチャ予測のグラウンドトゥルースを提供する対応するテクスチャアトラスがあります。出典: https://arxiv.org/pdf/2106.04185.pdf

研究者らは、照明再現に対するこの斬新なアプローチに加えて、LipSync3D は、正規化された空間における個別のデータ ストリームへのジオメトリ、照明、ポーズ、テクスチャの分離、時間的に一貫したビデオ合成を生成する、簡単にトレーニング可能な自己回帰テクスチャ予測モデル、および人間の評価と客観的な指標によるリアリティの向上という、これまでの研究に比べて 3 つの主要な革新を提供すると主張しています。

ビデオの顔画像のさまざまな側面を分割することで、ビデオ合成をより細かく制御できるようになります。

LipSync3D は、音素や音声のその他の側面を分析することで、適切な唇の形状をオーディオから直接導き出し、それを口の周りの対応する既知の筋肉の姿勢に変換できます。

このプロセスでは、推定されたジオメトリとテクスチャにオートエンコーダ設定の専用エンコーダがあるが、モデルに適用することを意図した音声とオーディオエンコーダを共有する共同予測パイプラインを使用します。

LipSync3D のモーション合成は、現実世界の画像と同様にメッシュとテクスチャ情報のみで構成される、様式化された CGI アバターの改善にも役立ちます。

パーソナライズされた 3D アバターの唇の動きをリアルタイムでパワーソース スピーカー ビデオに表示します。この場合、パーソナライズされた事前トレーニングを通じて最良の結果が得られます。

研究者たちは、よりリアルなアバターの使用も望んでいる。

GeForce GTX 1080 で TensorFlow、Python、C++ を使用するパイプラインでは、2 ~ 5 分のビデオの場合、ビデオ例のトレーニング時間は 3 ~ 5 時間でした。トレーニング セッションでは、500 ~ 1000 エポックにわたって 128 フレームのバッチ サイズが使用され、各エポックは完全なビデオ評価を表します。

未来:ダイナミックリップシンク

新しいオーディオトラックへのリップシンクは、特に物議を醸しているディープフェイク技術の副産物として、ここ数年間コンピュータービジョン研究で大きな注目を集めています。

2017年、ワシントン大学は音声からリップシンクを学習できる研究を実演し、当時の大統領バラク・オバマ氏の画像を使ったビデオも制作した。

https://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf

2018年には、マックスプランクコンピュータサイエンス研究所の別の研究プログラムがアイデンティティ>アイデンティティのビデオ転送を実現し、リップシンクも実現しました。2021年5月には、AIスタートアップのFlawlessAIが独自のリップシンク技術TrueSyncをリリースし、主要映画の多言語公開に向けた改良された吹き替え技術としてメディアに広く認知されました。

もちろん、ディープフェイク オープン ソース リポジトリの継続的な開発により、顔画像合成の分野におけるアクティブなユーザー貢献型研究分野も生まれます。

<<:  医療の発展は自動化に向かっており、手術ロボットは急速に発展している。

>>:  ネイチャーの表紙に掲載されているこのグループ学習は、中央コーディネーターを必要とせず、連合学習よりも優れています。

ブログ    
ブログ    

推薦する

IDC が製造業の予測を発表。AI によるリスク意思決定がリストに含まれているのはなぜですか?

製造業の実際の発展状況は、国の経済発展と社会の安定に関係しています。伝統的な製造業のインテリジェンス...

インテルのAIが破壊された万里の長城の修復にどのように貢献したか、その背後にある秘密が発見された

人工知能がテクノロジーと人文科学の交差点に到達したとき、どのようなエネルギーが解き放たれるのでしょう...

ロボット導入の「秘密」:継続的な学習、知識の伝達、自律的な参加

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

集中治療室における人工知能の未来

他の業界と同様に、ヘルスケアにおける AI の応用と議論は幅広く行われています。 AIはすでに診断の...

スマートシティ技術の未来: AI、ビッグデータ、クラウド

世界の人口の半分以上が都市に惹かれています。成長、繁栄、雇用、機会、教育、娯楽の誘惑は、抵抗できない...

誇張ではなく、絶対にそうはならない

[[280896]] 01. はじめにデータのクエリ速度を向上させるために、キャッシュがよく使用され...

自動運転のスケールアップ問題

[[280016]]最近のニュースによると、Google傘下の自動運転企業Waymoがユーザーにメー...

人工知能の主な発展とその原動力

本日の講演は、アリババCIOアカデミーが開催した人工知能(AI)技術に関する特別研修コースのために賈...

マイクロソフトのAI研究者が誤って38TBの内部データを漏洩

クラウド セキュリティのスタートアップ企業 Wiz の研究者は、SAS トークンの設定ミスが原因で、...

拡散モデル画像理解力がSOTAをリフレッシュ! ByteDance Fudanチームが新たな「メタプロンプト」戦略を提案

テキストから画像への (T2I) 拡散モデルは、大規模な画像とテキストのペアで事前トレーニングされて...

...

ディープラーニングを使って背景を除去し、切り抜きを実現する方法の詳細な説明

上記のコースで、経験豊富な Web 開発者である Alon Burg と出会い、偶然にも同じような興...

...

...

L4自動運転の脆弱性: 認識アルゴリズムは人工の3D悪意のある障害物を回避できない可能性がある

最近、ある調査により、レベル4自動運転で使用されるマルチセンサーフュージョンベースの認識技術にセキュ...