翻訳者 | 崔昊 校正:孫淑娟 導入中国と英国の共同研究により、ビデオ内の顔を再現する新しい方法が考案された。この技術は、高い一貫性を維持しながら、人工的に切り取られたようには見えずに顔の構造を拡大したり縮小したりすることができます。 通常、顔の構造のこの変換は、顔を完全に再構築するために詳細で高価なモーション キャッピング、リギング、テクスチャリングの手順に依存する従来の CGI 手法によって実現されます。 従来の方法とは異なり、新しいテクノロジーの CGI は 3D 顔情報のパラメーターとしてニューラル パイプラインに統合され、機械学習ワークフローの基礎として機能します。 著者らは次のように指摘している。 「私たちの目標は、現実世界の自然な顔に基づいて、顔の輪郭を変形および編集し、高品質のポートレート再構成ビデオ [結果] を生成することです。この技術は、顔の美化や顔の誇張などの視覚効果アプリケーションに使用できます。」 Photoshop の登場以来、2D の顔の歪みは消費者が利用できるようになっていますが (顔の歪みや身体醜形障害のサブカルチャーも生まれました)、CGI を使用せずにビデオ用に顔を作り直すのは、依然として困難な作業です。 マーク・ザッカーバーグの顔のサイズは新しい技術により拡大したり縮小したりしている ボディーリシェイプは現在、コンピュータービジョンのホットな話題です。主にファッションの電子商取引における可能性が理由です。たとえば、背を高く見せたり、骨格をより多様に見せたりできますが、まだ課題がいくつかあります。 同様に、ビデオ内の顔の形を説得力のある方法で変更することは研究者の研究の中心となってきましたが、この技術の成功はアーティファクトやその他の制限によって妨げられてきました。その結果、新製品では、これまで研究されてきた機能が静的拡張から動的ビデオ出力に移行します。 新しいシステムは、AMD Ryzen 9 3950Xと32GBのRAMを搭載したデスクトップPCでトレーニングされ、OpenCVのオプティカルフローアルゴリズムを使用して、StructureFlowフレームワークによって平滑化されたモーションマップを生成し、人気のディープフェイクパッケージでも使用されている特徴推定用のFacial Alignment Network (FAN)コンポーネントと、顔の最適化問題を解決するCeres Solverを使用しました。 新システムで顔を拡大した例 この論文は「ビデオ内の肖像画のパラメトリックな再形成」と題され、浙江大学の研究者3人とバース大学の研究者1人によって執筆されました。 顔について新しいシステムでは、ビデオが一連の画像に抽出され、まず顔の基本モデルが構築されます。次に、代表的な後続フレームを接続して、画像全体の実行方向 (つまり、ビデオ フレームの方向) に沿って一貫したパーソナリティ パラメータを構築します。 顔変形システムの建築的流れ 次に、計算式に基づいて、線形回帰によって実装されたシェーピングパラメータが生成されます。次に、符号付き距離関数 (SDF) を使用して、顔の整形前と整形後の顔の輪郭の 2D マップが構築されます。 最後に、出力ビデオはコンテンツに応じた変形最適化の対象となります。 顔のパラメータ化このプロセスでは、ディープフェイク検出システムにも適したニューラルおよび GAN ベースの顔合成補助ツールである 3D モーフィング可能な顔モデル (3DMM) を活用します。 3D モーフィング可能な顔モデル (3DMM) の例 - 新しいプロジェクトで使用されるパラメトリック プロトタイプ顔。左上、3DMM 表面上の象徴的なアプリケーション。右上、アイソマップの 3D メッシュ頂点。左下は特徴のフィット、中央下は顔のテクスチャの抽出された等値線、右下は最終的なフィットと形状を示しています。 新しいシステムのワークフローでは、被写体が視界から外れた場合などの遮蔽状況が考慮されます。これはディープフェイク ソフトウェアが直面している最大の課題の 1 つです。FAN ランドマークではこうした状況をほとんど考慮できず、顔が避けられたり隠されたりするにつれて変換の品質が低下する傾向があるためです。 新しいシステムでは、3D 顔 (3DMM) と 2D 顔 (FAN ランドマークによって定義) の境界に一致する「輪郭エネルギー」を定義することで、この問題を回避します。 最適化このシステムは、顔の形をリアルタイムで変えるビデオチャットのフィルターなど、リアルタイム変形に使用されます。現在、フレームワークではこれを実現できないため、「リアルタイム」変形を可能にするために必要な計算リソースを提供することが大きな課題となります。 論文の仮定に基づくと、24fps のビデオでは、1 秒の映像に対してパイプラインのフレーム操作ごとに 16.344 秒の遅延が発生し、特徴推定と 3D 顔変形のワンショット ヒット (それぞれ 321 ミリ秒と 160 ミリ秒) が発生します。 したがって、最適化によりレイテンシの削減に重要な進歩がもたらされました。すべてのフレームにわたる共同最適化はシステムのオーバーヘッドを大幅に増加させ、初期化スタイルの最適化(全体を通して一貫したスピーカー特性を想定)は異常を引き起こす可能性があるため、現実的にサンプリングされたフレームで係数を計算するためにスパースパターンを採用します。 次に、このフレームのサブセットに対して共同最適化が実行され、再構築プロセスがより合理化されます。 顔面このプロジェクトで使用されている変形技法は、作者の 2020 年の作品「Deep Shapely Portraits (DSP)」を改変したものです。 「Deep Shapely Portraits」は、2020 年に ACM Multimedia に提出された作品です。この論文は、浙江大学とテンセントのゲームとインテリジェントグラフィックス革新技術共同研究室の研究者らが主導した。 著者らは、「このアプローチを単眼画像の再形成から画像シーケンス全体の再形成にまで拡張する」と述べています。 テストこの論文では、新しいアプローチを評価するための比較可能な歴史的データが存在しないと指摘している。そのため、著者らは、曲線のビデオ出力フレームと静的な DSP 出力を比較しました。 Deep Shapely Portraits の静止画像で新しいシステムをテストする 著者らは、DSP アプローチではスパース マッピングの使用によりアーティファクトが発生するが、新しいフレームワークでは密なマッピングを通じてこの問題に対処していると指摘しています。さらに、この論文では、DSP によって制作されたビデオには流動性と視覚的な一貫性が欠けていると主張しています。 著者らは次のように指摘している。 「結果は、私たちの方法が安定して首尾一貫して再形成されたポートレートビデオを生成できることを示していますが、画像ベースの方法では目立つちらつきアーティファクト(人工的な修正の痕跡)が簡単に生じます。」 翻訳者紹介51CTO コミュニティ エディター兼シニア アーキテクトの Cui Hao 氏は、ソフトウェア開発とアーキテクチャで 18 年の経験があり、分散アーキテクチャでは 10 年の経験があります。元HPの技術専門家。彼は情報を共有することに積極的で、60 万回以上読まれている人気の高い技術記事を多数執筆しています。 『分散アーキテクチャの原則と実践』の著者。 原題:機械学習による動画内の顔の再構築、著者: Martin Anderson |
<<: ユニバーサルで説明可能なAIコンピューティングハードウェア設計は、EDAにおける次の革命的な技術となるでしょう。
>>: 中小企業のAIを活用したデジタルトランスフォーメーションを実現する4つの道
人工知能の重要な分野として、機械学習はますます利用されています。この技術をより早く習得するにはどうす...
プロンプトに応じてテキスト、画像、その他のコンテンツを生成できる生成型人工知能 (AI) の企業導...
近年、研究者らはトカマクの停止や損傷の原因となる核分裂反応を研究している。核分裂反応を予測・制御でき...
[[201115]] 2016年3月15日、ALPHGOが韓国の囲碁プレイヤー、イ・セドルを4対1...
ニューラル ネットワーク (NN) は、ほぼすべての分野で創造的な方法で問題を解決するのに役立ちます...
リカレント ニューラル ネットワーク (RNN) は、ネットワークに追加の重みを追加してネットワーク...
[[191038]]ブランドン・エイモス編集:モリー・ハン・シャオヤン目次1. はじめに2. ステ...
私たちは前例のない危機を生きています。 COVID-19パンデミックの間、医療従事者は最前線のヒーロ...
9 月 13 日、Microsoft は Windows 11 ビルド 22621.2338 および...
今年 1 月の Consumer Electronics Show は、今後数年間に自動車市場に参入...
[[206343]]アメリカの企業では、多数のロボットを使って働くことが当たり前になっている。ここ...
米国現地時間9月8日木曜日、投資会社ニーダム・セキュリティーズは、アマゾン、グーグル、マイクロソフト...
[[387639]]人工知能に関するこれらの 8 冊の本は、AI に関連する倫理的問題、AI が雇用...
PyTorch から Mxnet まで、これらの Python ディープラーニング フレームワークを...