機械学習を使用してビデオ内の顔を再構築する

機械学習を使用してビデオ内の顔を再構築する

翻訳者 | 崔昊

校正:孫淑娟

導入

中国と英国の共同研究により、ビデオ内の顔を再現する新しい方法が考案された。この技術は、高い一貫性を維持しながら、人工的に切り取られたようには見えずに顔の構造を拡大したり縮小したりすることができます。

通常、顔の構造のこの変換は、顔を完全に再構築するために詳細で高価なモーション キャッピング、リギング、テクスチャリングの手順に依存する従来の CGI 手法によって実現されます。

従来の方法とは異なり、新しいテクノロジーの CGI は 3D 顔情報のパラメーターとしてニューラル パイプラインに統合され、機械学習ワークフローの基礎として機能します。

著者らは次のように指摘している。

「私たちの目標は、現実世界の自然な顔に基づいて、顔の輪郭を変形および編集し、高品質のポートレート再構成ビデオ [結果] を生成することです。この技術は、顔の美化や顔の誇張などの視覚効果アプリケーションに使用できます。」

Photoshop の登場以来、2D の顔の歪みは消費者が利用できるようになっていますが (顔の歪みや身体醜形障害のサブカルチャーも生まれました)、CGI を使用せずにビデオ用に顔を作り直すのは、依然として困難な作業です。

マーク・ザッカーバーグの顔のサイズは新しい技術により拡大したり縮小したりしている

ボディーリシェイプは現在、コンピュータービジョンのホットな話題です。主にファッションの電子商取引における可能性が理由です。たとえば、背を高く見せたり、骨格をより多様に見せたりできますが、まだ課題がいくつかあります。

同様に、ビデオ内の顔の形を説得力のある方法で変更することは研究者の研究の中心となってきましたが、この技術の成功はアーティファクトやその他の制限によって妨げられてきました。その結果、新製品では、これまで研究されてきた機能が静的拡張から動的ビデオ出力に移行します。

新しいシステムは、AMD Ryzen 9 3950Xと32GBのRAMを搭載したデスクトップPCでトレーニングされ、OpenCVのオプティカルフローアルゴリズムを使用して、StructureFlowフレームワークによって平滑化されたモーションマップを生成し、人気のディープフェイクパッケージでも使用されている特徴推定用のFacial Alignment Network (FAN)コンポーネントと、顔の最適化問題を解決するCeres Solverを使用しました。

新システムで顔を拡大した例

この論文は「ビデオ内の肖像画のパラメトリックな再形成」と題され、浙江大学の研究者3人とバース大学の研究者1人によって執筆されました。

顔について

新しいシステムでは、ビデオが一連の画像に抽出され、まず顔の基本モデルが構築されます。次に、代表的な後続フレームを接続して、画像全体の実行方向 (つまり、ビデオ フレームの方向) に沿って一貫したパーソナリティ パラメータを構築します。

顔変形システムの建築的流れ

次に、計算式に基づいて、線形回帰によって実装されたシェーピングパラメータが生成されます。次に、符号付き距離関数 (SDF) を使用して、顔の整形前と整形後の顔の輪郭の 2D マップが構築されます。

最後に、出力ビデオはコンテンツに応じた変形最適化の対象となります。

顔のパラメータ化

このプロセスでは、ディープフェイク検出システムにも適したニューラルおよび GAN​​ ベースの顔合成補助ツールである 3D モーフィング可能な顔モデル (3DMM) を活用します。

3D モーフィング可能な顔モデル (3DMM) の例 - 新しいプロジェクトで使用されるパラメトリック プロトタイプ顔。左上、3DMM 表面上の象徴的なアプリケーション。右上、アイソマップの 3D メッシュ頂点。左下は特徴のフィット、中央下は顔のテクスチャの抽出された等値線、右下は最終的なフィットと形状を示しています。

新しいシステムのワークフローでは、被写体が視界から外れた場合などの遮蔽状況が考慮されます。これはディープフェイク ソフトウェアが直面している最大の課題の 1 つです。FAN ランドマークではこうした状況をほとんど考慮できず、顔が避けられたり隠されたりするにつれて変換の品質が低下する傾向があるためです。

新しいシステムでは、3D 顔 (3DMM) と 2D 顔 (FAN ランドマークによって定義) の境界に一致する「輪郭エネルギー」を定義することで、この問題を回避します。

最適化

このシステムは、顔の形をリアルタイムで変えるビデオチャットのフィルターなど、リアルタイム変形に使用されます。現在、フレームワークではこれを実現できないため、「リアルタイム」変形を可能にするために必要な計算リソースを提供することが大きな課題となります。

論文の仮定に基づくと、24fps のビデオでは、1 秒の映像に対してパイプラインのフレーム操作ごとに 16.344 秒の遅延が発生し、特徴推定と 3D 顔変形のワンショット ヒット (それぞれ 321 ミリ秒と 160 ミリ秒) が発生します。

したがって、最適化によりレイテンシの削減に重要な進歩がもたらされました。すべてのフレームにわたる共同最適化はシステムのオーバーヘッドを大幅に増加させ、初期化スタイルの最適化(全体を通して一貫したスピーカー特性を想定)は異常を引き起こす可能性があるため、現実的にサンプリングされたフレームで係数を計算するためにスパースパターンを採用します。

次に、このフレームのサブセットに対して共同最適化が実行され、再構築プロセスがより合理化されます。

顔面

このプロジェクトで使用されている変形技法は、作者の 2020 年の作品「Deep Shapely Portraits (DSP)」を改変したものです。

「Deep Shapely Portraits」は、2020 年に ACM Multimedia に提出された作品です。この論文は、浙江大学とテンセントのゲームとインテリジェントグラフィックス革新技術共同研究室の研究者らが主導した。

著者らは、「このアプローチを単眼画像の再形成から画像シーケンス全体の再形成にまで拡張する」と述べています。

テスト

この論文では、新しいアプローチを評価するための比較可能な歴史的データが存在しないと指摘している。そのため、著者らは、曲線のビデオ出力フレームと静的な DSP 出力を比較しました。

Deep Shapely Portraits の静止画像で新しいシステムをテストする

著者らは、DSP アプローチではスパース マッピングの使用によりアーティファクトが発生するが、新しいフレームワークでは密なマッピングを通じてこの問題に対処していると指摘しています。さらに、この論文では、DSP によって制作されたビデオには流動性と視覚的な一貫性が欠けていると主張しています。

著者らは次のように指摘している。

「結果は、私たちの方法が安定して首尾一貫して再形成されたポートレートビデオを生成できることを示していますが、画像ベースの方法では目立つちらつきアーティファクト(人工的な修正の痕跡)が簡単に生じます。」

翻訳者紹介

51CTO コミュニティ エディター兼シニア アーキテクトの Cui Hao 氏は、ソフトウェア開発とアーキテクチャで 18 年の経験があり、分散アーキテクチャでは 10 年の経験があります。元HPの技術専門家。彼は情報を共有することに積極的で、60 万回以上読まれている人気の高い技術記事を多数執筆しています。 『分散アーキテクチャの原則と実践』の著者。

原題:機械学習による動画内の顔の再構築、著者: Martin Anderson


<<:  ユニバーサルで説明可能なAIコンピューティングハードウェア設計は、EDAにおける次の革命的な技術となるでしょう。

>>:  中小企業のAIを活用したデジタルトランスフォーメーションを実現する4つの道

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

2020 年の人工知能におけるトップ 10 の技術進歩

2020年が過ぎようとしています。今年、人工知能の分野ではどんな大きな進展がありましたか?以下で一緒...

XLNet の作者と AMiner のコア開発者が協力し、AI でエンタープライズ セールスを強化

[元記事は51CTO.comより] 近年、多くのインターネット企業がデータ、テクノロジー、AI、組織...

人工知能について知っておくべき基礎知識はすべてここにあります

21 世紀に革命をもたらした技術を 1 つ挙げるとすれば、それは人工知能でしょう。人工知能は私たちの...

人工知能の3つの浮き沈みと、寒い冬の可能性

[[437677]]より長期的な視点で見ると、中国は歴史上、3つの発展の波と2つの谷を経験してきたこ...

デンマークはロボット工学をリードしています – IoT はどのような役割を果たすのでしょうか?

デンマークは、1970年代初頭から国家政策の一環として風力タービンに投資した最初の国の一つであり、こ...

最新の電子皮膚が本物の痛みを与え、切断者の触覚回復を助ける

ジョンズ・ホプキンス大学医学部の研究チームは、人間の皮膚にある触覚受容体の複雑な神経ネットワークを利...

コミック版:ディープラーニングって何?

Google はどのようにしてわずか数秒で Web ページ全体をさまざまな言語に翻訳するのか、ある...

行列乗算の最適化と畳み込みにおけるその応用

導入天気予報、石油探査、原子物理学などの現代の科学技術は、主にコンピュータシミュレーションに依存して...

...

人工知能で電力網の問題を解決する

MIT-IBM Watson AI ラボの研究者たちは、電力網の問題のトラブルシューティングに人工知...

AIの覚醒はなんと恐ろしいことか!人工知能は人間に取って代わり、地球の新たな支配者となるのでしょうか?

人工知能が人類を転覆させるのではないかと人々が心配する理由は2つしかありません。1つ目は、ロボットの...

...

強化学習は AGI を実現するのに十分でしょうか?サットン:報酬メカニズムはさまざまな目標を達成するのに十分です

[[405185]]人工知能の分野では、何十年もの間、コンピューター科学者が視覚、言語、推論、運動能...