しゃべるアバター!新しいフレームワークLipSync3Dは将来的に動的なリップシンクを可能にするかもしれない

しゃべるアバター!新しいフレームワークLipSync3Dは将来的に動的なリップシンクを可能にするかもしれない

Google AIの研究者たちは、インド工科大学カラグプル校と協力し、音声コンテンツから話すアバターを合成できる新しいフレームワークを開発した。

このプロジェクトの目標は、オーディオから「話すヘッド」ビデオを作成するための最適化されたリソース効率の高い方法を開発し、インタラクティブ アプリケーションやその他のリアルタイム環境でアバターにリップシンクされた吹き替えや機械翻訳されたオーディオを追加できるようにすることです。

論文アドレス: https://arxiv.org/pdf/2106.04185.pdf

機械学習モデル LipSync3D

このプロセスでトレーニングされた機械学習モデル LipSync3D では、入力データとして対象の顔認識のビデオのみが必要です。

データ準備パイプラインは、顔の形状の抽出を照明や入力ビデオのその他の側面の評価から切り離し、よりコスト効率が高く集中的なトレーニングを可能にします。

LipSync3D の 2 段階ワークフロー。上の画像は、「ターゲット」オーディオから生成された動的テクスチャの 3D 顔を示しており、下の画像は、生成されたメッシュがターゲット ビデオに挿入されたことを示しています。

実際、この研究分野における LipSync3D の最も注目すべき貢献は、トレーニングと推論の照明を分離する照明正規化アルゴリズムでしょう。

照明データを一般的なジオメトリから切り離すと、LipSync3D は困難な状況でもよりリアルなリップシンクを実現できます。近年の他のアプローチでは、この点での限界を明らかにしないように、「固定された」照明条件に制限されています。

入力データ フレームの前処理中に、システムはミラー ポイントを識別して削除する必要があります。ミラー ポイントはビデオが撮影された照明条件に固有のものであり、そうしないと再生プロセスに干渉する可能性があるためです。

LipSync3D は、その名前が示すように、評価する顔をピクセル単位で分析するだけでなく、識別された顔のランドマークを積極的に使用して、アニメーション化された CGI スタイルのメッシュと、従来の CGI パイプラインを介してその周囲にラップされた「展開された」テクスチャを生成します。

LipSync3D でのポーズの正規化。左側には入力フレームと検出された特徴があり、中央には結果のメッシュに対して評価された正規化された頂点があり、右側にはテクスチャ予測のグラウンドトゥルースを提供する対応するテクスチャアトラスがあります。出典: https://arxiv.org/pdf/2106.04185.pdf

研究者らは、照明再現に対するこの斬新なアプローチに加えて、LipSync3D は、正規化された空間における個別のデータ ストリームへのジオメトリ、照明、ポーズ、テクスチャの分離、時間的に一貫したビデオ合成を生成する、簡単にトレーニング可能な自己回帰テクスチャ予測モデル、および人間の評価と客観的な指標によるリアリティの向上という、これまでの研究に比べて 3 つの主要な革新を提供すると主張しています。

ビデオの顔画像のさまざまな側面を分割することで、ビデオ合成をより細かく制御できるようになります。

LipSync3D は、音素や音声のその他の側面を分析することで、適切な唇の形状をオーディオから直接導き出し、それを口の周りの対応する既知の筋肉の姿勢に変換できます。

このプロセスでは、推定されたジオメトリとテクスチャにオートエンコーダ設定の専用エンコーダがあるが、モデルに適用することを意図した音声とオーディオエンコーダを共有する共同予測パイプラインを使用します。

LipSync3D のモーション合成は、現実世界の画像と同様にメッシュとテクスチャ情報のみで構成される、様式化された CGI アバターの改善にも役立ちます。

パーソナライズされた 3D アバターの唇の動きをリアルタイムでパワーソース スピーカー ビデオに表示します。この場合、パーソナライズされた事前トレーニングを通じて最良の結果が得られます。

研究者たちは、よりリアルなアバターの使用も望んでいる。

GeForce GTX 1080 で TensorFlow、Python、C++ を使用するパイプラインでは、2 ~ 5 分のビデオの場合、ビデオ例のトレーニング時間は 3 ~ 5 時間でした。トレーニング セッションでは、500 ~ 1000 エポックにわたって 128 フレームのバッチ サイズが使用され、各エポックは完全なビデオ評価を表します。

未来:ダイナミックリップシンク

新しいオーディオトラックへのリップシンクは、特に物議を醸しているディープフェイク技術の副産物として、ここ数年間コンピュータービジョン研究で大きな注目を集めています。

2017年、ワシントン大学は音声からリップシンクを学習できる研究を実演し、当時の大統領バラク・オバマ氏の画像を使ったビデオも制作した。

https://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf

2018年には、マックスプランクコンピュータサイエンス研究所の別の研究プログラムがアイデンティティ>アイデンティティのビデオ転送を実現し、リップシンクも実現しました。2021年5月には、AIスタートアップのFlawlessAIが独自のリップシンク技術TrueSyncをリリースし、主要映画の多言語公開に向けた改良された吹き替え技術としてメディアに広く認知されました。

もちろん、ディープフェイク オープン ソース リポジトリの継続的な開発により、顔画像合成の分野におけるアクティブなユーザー貢献型研究分野も生まれます。

<<:  医療の発展は自動化に向かっており、手術ロボットは急速に発展している。

>>:  ネイチャーの表紙に掲載されているこのグループ学習は、中央コーディネーターを必要とせず、連合学習よりも優れています。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIは進化すればするほど、人間の脳に似てきます!メタは機械の「前頭前野」を発見し、AI学者と神経科学者は驚いた

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2018 年に人工知能を変える 5 つのビッグデータ トレンド

ビッグデータや人工知能の広範な導入を通じて、これらの新興技術の大きな影響が世界経済に浸透するにつれ、...

Nature の調査: AI が「必需品」になったと考える科学者はわずか 4%

AI に関する論文数は劇的に増加していますが、本当に AI が「必須」であると考えている研究者はわ...

世界のトップ企業で募集中の AI 研究職

人工知能とは、人間のように考え行動するようにプログラムされたロボットで人間の理解を再現することを指し...

SQL は ChatGPT を実行できますか?答えはYESです!

ChatGPTは世界中で人気を博しています。今日の質問は、SQL で ChatGPT を実行できる...

輸送と物流における AI と自動化のユースケース

7bridgesの創設者兼CEOであるフィリップ・アシュトン氏は、次のように述べています。「運輸・物...

人工知能は寒い冬を迎え、自動運転車の開発は妨げられている

懐疑論者は、完全な自動運転の実現は業界が考えているよりもずっと先のことかもしれないと述べている。 [...

香水アートとAIが出会うとき

[51CTO.com 速訳] 香水は依然として人工物とみなされており、「スーパーな鼻」を持つトップマ...

人工ニューラル ネットワーク入門 - コンピューターは学習できるか?

人工ニューラル ネットワークは、人工知能 (人間の認知能力を模倣するプログラム) を作成する方法です...

人民大学高陵人工知能学院はAIに音楽を聴くことを教え、9,288本のビデオデータセットも公開した。

AIが自らコンサートを楽しめることをご存知ですか?さらに、演奏シーンでは各楽器の演奏状況もAIが把...

ベクトルデータベースは AI をどのように改善するのでしょうか?

翻訳者 |ブガッティレビュー | Chonglou事前トレーニング済みのAIモデルがすぐに利用できる...

最適化問題におけるステップサイズが大きいほど、収束速度が速くなり、数十年にわたる勾配降下法アルゴリズムの従来の考え方を覆すものとなった。

機械学習の世界では、最適化問題は非常に重要であり、世界をより良い方向に変える可能性があります。最適化...

顔認識防止技術でプライバシー漏洩を防ぐ方法

人工知能監視システムに対する懸念から、研究者たちはそれを標的とするツールの開発に取り組んでいる。最近...

自動運転マップ構築モデルを1つの記事で理解する

1 高精度地図高精度地図HDMapは自動運転において愛憎入り混じった役割を果たしており、近年、業界の...