DeepFake は顔を本物らしく入れ替えることができますが、髪の毛の場合は同じことはできません。現在、浙江大学とスウェーデンの研究者たちは考えを広げ、GAN や CNN を使用してリアルな仮想の髪の毛を生成しています。 ディープフェイク技術は、トランプ政権の時代と同時期の2010年代後半に初めて導入された。 大統領にいたずらをするためにディープフェイクを使うことを熱心に計画していた無数の人々は、実際にはそれほど小さくない障害に遭遇した。 さまざまなディープフェイクソフトウェアは、画像をゴールデンレトリバーのオレンジ色の顔に置き換えることができますが、その手に負えないブロンドの毛のせいで、AIが説得力のある代替画像を生成するのは困難です。 ほら、その髪の毛がディープフェイク製品だとバレてしまうじゃないですか? ディープフェイクは顔を変えることはできるが、髪は変えられない実際、これは新たな課題に直面している古い問題です。肖像画のモデルの髪の毛をいかにリアルに再現するかは、ギリシャ・ローマ時代以来、彫刻家にとって難しい問題でした。 平均的な人間の頭には約 10 万本の毛が生えています。色や屈折率の違いにより、毛が一定の長さを超えると、コンピューター時代であっても、複雑な物理モデルを使用してシミュレーションし、画像を動かしたり再構成したりするしかありません。 現在、これを実現できるのは 20 世紀後半の従来の CGI 技術だけです。 現在のDeepFake技術では、この問題はまだ解決できません。 DeepFaceLab は数年前から、短い髪しかキャプチャできない「全頭髪」モデルしかリリースしておらず、髪は依然として硬いままです。これは今でも業界をリードするソフトウェア パッケージです。 最近、DFL のパートナーである FaceSwap は、ユーザーがディープフェイクの出力画像に耳や髪の毛のグラフィック詳細を含めることができる BiseNet セマンティック セグメンテーション モデルを作成しました。 どちらのソフトウェア パッケージも、当時かなり物議を醸した 2017 年の Deepfakes のソース コードから派生したものです。 DeepFake モデルが提示しようとしている髪の毛の画像が非常に短い場合でも、出力結果の品質は非常に低いことがよくあります。アバターは、画像とシームレスに一体化しているのではなく、重ね合わされているように見えます。 GANで髪の毛を生成する現在、業界で人間のポートレートをシミュレートするために最も一般的に使用されている 2 つの方法は、Neural Radiance Fields テクノロジーです。 NeRF は複数の視点から画像をキャプチャし、それらの視点の 3D イメージングを探索可能なニューラル ネットワーク AI にカプセル化できます。 もう 1 つのアプローチは生成的敵対的ネットワーク (GAN) です。NeRF は 2020 年に登場したばかりですが、人間のような画像合成においては NeRF よりも進んでいます。 NeRF の 3D ジオメトリに対する推測的理解により、パターン化されたシーンを高い忠実度と一貫性で複製できるようになります。空間に物理モデルが適用されていない場合でも、より正確にはカメラの視点に関連する変更がない場合でも、収集されたデータによって引き起こされる変形は同じです。 しかし、現時点では、NeRF が人間の髪の毛の動きをシミュレートする能力はそれほど優れているわけではありません。 NeRF とは異なり、GAN にはほぼ致命的な欠点があります。 GAN の潜在空間には、3D 情報の理解が自然には含まれていません。 そのため、GAN によって生成された 3D 認識可能な合成顔画像は、近年、画像生成研究のホットな話題となっています。 2019 年の InterFaceGAN は大きなブレークスルーの 1 つでした。 しかし、InterFaceGAN で発表された慎重に選択された画像結果でさえ、ニューラル ネットワーク AI によって生成されたヘア画像の時間的一貫性において満足のいく一貫性を達成することは依然として困難な課題であり、VFX 画像ワークフローへの適用は依然として信頼できないことを示しています。 ニューラル ネットワーク AI の潜在空間を操作することで首尾一貫したビューを生成することは、錬金術に似た技術である可能性があることがますます明らかになっています。 ますます多くの論文が、異なるアプローチを見つけ、CGI ベースの 3D 情報を安定した標準化された制約として GAN ワークフローに組み込む必要があります。 CGI 要素は、スキンド マルチパーソン線形モデル (SMPL) などの 3D の中間グラフィック プリミティブによって表現できます。 または、NeRF モデルに似た 3D 推論技術を適用して、ソース画像やビデオから画像の形状を推定することでも導出できます。 今週、シドニー工科大学の ReLER ラボ、AAII 研究所、アリババ ダモ アカデミー、浙江大学の研究者が協力し、3D 知覚画像合成のための「マルチビュー コヒーレンス生成敵対ネットワーク」(MVCGAN) について説明する論文を発表しました。 MVCGANによって生成されたアバター MVCGAN には、GAN で幾何学的制約を提供できる Generative Radiance Field Network (GRAF) AI が含まれています。理論的には、この組み合わせにより、GAN ベースの方法の中で最もリアルな仮想ヘア出力結果が実現できると言えます。 MVCGANで生成された髪付きアバターと他のモデルで生成されたアバターの比較 上図からわかるように、極端なヘアパラメータでは、MVCGAN を除いて、他のモデルの画像結果は信じられないほど歪んでいます。 しかし、仮想ヘアの時間ベースの再構築は、CGI ワークフローでは依然として課題となっています。 したがって、業界には、従来のジオメトリベースのアプローチによって、近い将来に時間的に一貫したヘアパターン合成を AI の潜在的領域に持ち込むことができると信じる理由はありません。 CNN を用いた安定した仮想毛髪データの生成しかし、スウェーデンのチャルマース工科大学の3人の研究者が発表する論文は、「ニューラルネットワークを使用して人間の髪の毛の画像を生成する」研究に新たな進歩をもたらすかもしれない。 この論文は「畳み込みニューラルネットワークによるリアルタイムヘアフィルタリング」と題され、2022年5月に開催される重要な学術会議「インタラクティブ3Dグラフィックスおよびゲームカンファレンス」で発表される予定です。 このシステムは、オートエンコーダベースのニューラルネットワークAIをベースとしており、仮想空間内で髪の毛によって自動的に作成される影や髪の毛の太さのレンダリングなど、生成された仮想ヘアパターンの解像度をリアルタイムで評価することができます。このオートエンコーダの乱数シードは、OpenGL ジオメトリによって生成された乱数の有限サンプルから取得されます。 このアプローチでは、ランダムな透明度を持つ限られた数のサンプルのみをレンダリングし、U-net をトレーニングして元の画像を再構築することができます。 ニューラル ネットワークは PyTorch でトレーニングされ、ニューラル ネットワークのサイズと入力固有値の数に応じて、6 ~ 12 時間で収束するようにトレーニングできます。トレーニングされたパラメータ (重み) は、イメージング システムのリアルタイム実装に使用されます。 トレーニング データセットは、ランダムな距離、ポーズ、さまざまな照明条件で、ストレートなヘアスタイルとウェーブのかかったヘアスタイルの実際の画像を数百枚レンダリングすることによって生成されました。 サンプル内の髪の半透明度の値は、ランダムな透明度を持つスーパーサンプリングされた解像度でレンダリングされた画像から平均化されます。 元の高解像度データは、ネットワークとハードウェアの制限に対応するために最初にダウンサンプリングされ、次に一般的なオートエンコーダ ワークフローの明瞭性を向上させるためにアップサンプリングされます。 トレーニング済みモデルから派生したアルゴリズムを使用する「リアルタイム」ソフトウェアは、この AI モデルのリアルタイム推論アプリケーションとして NVIDIA CUDA、cuDNN、OpenGL を組み合わせて使用します。 初期入力特徴値は OpenGL のマルチサンプル カラー バッファーにダンプされ、その結果は CNN での処理を続行する前に cuDNN テンソルにストリーミングされ、その後、これらのテンソルは「ライブ」OpenGL テクスチャにコピーされて最終画像に適用されます。 この AI のリアルタイム実行ハードウェアは NVIDIA RTX 2080 グラフィックス カードであり、生成される画像解像度は 1024 x 1024 ピクセルです。 髪の色のデータ値は、ニューラル ネットワーク AI によって処理される最終値とは完全に分離されているため、髪の色を変更するのは簡単な作業ですが、仮想の髪のグラデーションや縞などの効果は、今後も課題となるでしょう。 結論はオートエンコーダーや GAN の潜在空間を探索することは、精度よりも直感で帆船を操縦することに似ています。つい最近になって、NeRF、GAN、非ディープフェイク(2017)オートエンコーダーフレームワークなどの方法で、顔のような「より単純な」幾何学的形状を生成する信頼性の高い結果が得られるようになりました。 人間の髪の毛の構造は非常に複雑であり、現在の物理モデルや画像合成方法では提供できない追加機能を組み込む必要があることから、髪の毛の合成は一般的な顔合成モデルに統合された単なるコンポーネントに留まる可能性は低いと考えられます。このタスクを実行するには、複雑で専用の独立したニューラル ネットワーク AI が必要ですが、これらのニューラル ネットワークは、最終的にはより広範で複雑な顔合成フレームワークに組み込まれる可能性があります。 |
<<: 「半導体第一の都市」上海、ついに半導体製造再開の夜明けを迎える
>>: 大連理工大学は、小規模サンプル認識にDeepBDCを提案し、6つのベンチマークで最高のパフォーマンスを達成した。
人工知能によってもたらされる将来の教育の変革と発展は、新たな機会を生み出すだけでなく、より大きな課題...
[[389620]]画像ソース: https://pixabay.com/images/id-60...
緊急時のメモとしても使える、コレクションする価値のあるAI写真を8枚シェアします。最初の RTF フ...
進化する人工知能により、電子商取引分野におけるウェブサイトのアクセシビリティ訴訟のリスクを最小限に抑...
2023年は人工知能が爆発的に成長する年となるでしょう。赤は人工知能、青は機械学習を表すマイクロソフ...
人工知能は職場にますます浸透しつつあり、現在では仮想パーソナルアシスタント (VPA) やその他の形...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
シカゴ大学の助教授イシャヌ・チャトパディアイ氏は、彼と彼のチームが「アーバン・ツイン」モデルを作成し...
大型モデルはどんどん「人間らしく」なってきていますが、本当にそうなのでしょうか?現在、Nature ...
グラフは、複雑なシステムを記述およびモデル化するために使用できる一般的な言語です。グラフは、構文情報...
ロイター通信は今週、米国が中国へのGPU輸出をさらに制限する新たな規制を導入すると独占的に報じた。制...