AIは顔の特徴、口を開ける、見つめる、眉を上げるなどの動作を完璧に模倣できるため、動画詐欺を防ぐことは不可能である。

AIは顔の特徴、口を開ける、見つめる、眉を上げるなどの動作を完璧に模倣できるため、動画詐欺を防ぐことは不可能である。

防ぐのは不可能だ。そもそも防ぐことは不可能だ。AIの模倣能力はここまで発達しているのか?

ある瞬間に顔の表情をキラキラとさせ、次の瞬間には全く同じ表情を再現し、睨みつけたり、眉を上げたり、口を尖らせたり、どんなに誇張した表情でも非常に上手に真似されています。

難易度を上げて、眉毛を高くしたり、目を大きく見開いたり、さらには口の形を歪ませたりしても、仮想キャラクターのアバターは表情を完璧に再現できます。

左側のパラメータを調整すると、右側の仮想アバターもそれに応じて変化します。

口と目をア​​ップで撮ってみます。完全に同じとまではいきませんが、表情はまったく同じです(右端)。

この研究はミュンヘン工科大学などの機関によるもので、表情、姿勢、視点を完全に制御できるリアルな頭部アバターを作成するために使用できる手法である GaussianAvatars を提案しています。


  • 論文アドレス: https://arxiv.org/pdf/2312.02069.pdf
  • 論文ホームページ: https://shenhanqian.github.io/gaussian-avatars

研究によると、コンピュータービジョンとグラフィックスでは、動く人間の仮想頭部を作成することは常に課題でした。特に、極端な表情や、しわや髪の毛などの細部を捉えることは難しく、生成された仮想キャラクターは視覚的なアーティファクトが発生しやすくなります。

Neural Radiance Fields (NeRF) とその派生型は、マルチビュー観測から静的シーンを再構築する際に一貫して優れた結果を示してきました。その後の研究では、NeRF が拡張され、人間がカスタマイズしたシナリオの動的なシーン モデリングが可能になりました。しかし、これらの方法は制御性に欠けており、新しいポーズや表情にうまく一般化できません。

最近登場した「3D ガウス スプラッティング」方式は、NeRF よりも高いレンダリング品質を実現し、リアルタイムのビュー合成に使用できます。ただし、このアプローチでは出力アニメーションを再構築することはできません。

この論文では、3D ガウス スプラットに基づく動的な 3D 人間の頭部表現方法である GaussianAvatars を提案します。

具体的には、FLAME (頭部全体をモデル化する) メッシュが与えられ、各三角形の中心に 3D ガウス分布を初期化します。 FLAME メッシュがアニメーション化されると、各ガウス分布は親三角形に対して移動、回転、および拡大縮小されます。次に、3D ガウス分布がグリッドの上に放射フィールドを形成し、グリッドが正確に位置合わせされていない領域や特定の視覚要素を再現できない領域を補正します。

仮想キャラクターの再構築において高い忠実度を実現するために、本論文ではバインディング継承戦略を導入します。さらに、この論文では、新しい表情やポーズを持つ仮想キャラクターをアニメーション化するために、忠実度と堅牢性のバランスをとる方法についても検討します。結果は、GaussianAvatars が新しいビューのレンダリング、ビデオ再生の駆動などにおいて既存の研究よりもはるかに優れていることを示しています。

方法の紹介


下の図 2 に示すように、GaussianAvatars への入力は、人間の頭部のマルチビュー ビデオ録画です。各タイムステップで、GaussianAvatars はフォトメトリック ヘッド トラッカーを使用して、FLAME パラメータをマルチビュー観測値と既知のカメラ パラメータに一致させます。

FLAME メッシュの頂点は異なる位置にありますが、同じトポロジを共有しているため、研究チームはメッシュの三角形と 3D ガウス スプラットの間に一貫した接続を作成することができました。スプラットは、微分可能なタイル ラスタライザーを使用して画像にレンダリングされます。これらの画像は実際の画像によって監視され、リアルな人間の頭部アバターを学習します。

静的シーンでは、最適な品質を得るために、ガウススプラットを高密度化および削減するための一連の適応密度制御操作も実行する必要があります。三角形とスプラット間の接続を切断せずにこれを実現するために、研究チームは、新しいガウス点が FLAME メッシュにバインドされたままになるように、バインディング継承戦略を設計しました。

実験結果

この研究では、新しいビューの合成による再構築の品質と、自己再現によるアニメーションの忠実度を評価します。下の図3は定性的な比較結果を示しています。新しいビューの合成では、すべての方法で適切なレンダリング結果が生成されます。 PointAvatar の結果を詳しく調べると、固定ポイント サイズによるポイント アーティファクトが見られますが、GaussianAvatars は 3D ガウスの異方性スケーリングによってこの問題を軽減します。

表 1 の定量的な比較からも同様の結論を導き出すことができます。 GaussianAvatars は、新しいビュー合成メトリックの点では他の方法を大幅に上回り、LPIPS の点では知覚の違いが大幅に少なく、自己再現でも優れています。自己再現は追跡された FLAME グリッドに基づいて行われるため、ターゲット イメージと完全に一致しない可能性があることに注意してください。

アバターアニメーションの実世界テストを行うために、この研究では図 4 のクロスアイデンティティ再現を実験しました。アバターは、ソース俳優のまばたきや口の動きを正確に再現し、しわなどの生き生きとした複雑なダイナミクスを示しました。


本研究では、方法の構成要素の有効性を検証するためにアブレーション実験も実施し、その結果を次の図に示します。

<<:  Microsoft Copilot は、コード インタープリター、DALL·E 3、ChatGPT を備えた完全バージョンに進化しました。

>>:  Microsoft Copilot の壮大なアップデート! GPT-4 Turboは無料で使用でき、Bingのディープサーチは30秒で正確な回答を提供できます

ブログ    
ブログ    
ブログ    

推薦する

...

人工知能の4つの主な種類を探る

人工知能(AI)は、環境、教育、医療などの重要な問題の解決に新たな可能性をもたらします。人工知能は、...

...

「ビッグモデルは基本的に2つのファイルです!」テスラの元AIディレクターが一般向けに1時間にわたるLLMポピュラーサイエンスを披露

テスラの元AIディレクター、アンドレイ・カルパシー氏の新しいチュートリアルが話題になっている。今回、...

2022年までのビッグモデルの未来を展望し、周志華、唐潔、楊紅霞といったビッグネームはどう考えているのだろうか?

年末から年始にかけて、ビッグモデルの過去を振り返り、ビッグモデルの未来に期待してみましょう。 28日...

AIは数学データベースの問題の82%を証明でき、Transformerをベースにした新しいSOTAが達成されました。

科学者たちは最近、AI に数学の授業をさせることに夢中になっていると言わざるを得ません。現在、Fac...

...

製造バリューチェーンにおいて RPA に真のチャンスはあるのでしょうか?

[[421304]]製造業における自動化の推進力は非常に単純です。自動化は人間の作業をシミュレート...

ディープラーニングにも格闘技カンファレンスがある! 8つのテクノロジーの巨人:私の学派はAGIを実現できる

[[426161]]ディープラーニングの研究は格闘技の競技のようなものですか?意外なことに、何でもや...

OpenAI CEOアルトマン氏の突然の解任に関する分析

今日は一緒に楽しく OpenAI について話し合いましょう。もともと書きたくなかったのですが、自メデ...

...

AV-TESTに再び認定されました! Sangfor EDRは中国で初めて満点を獲得したエンタープライズレベルのエンドポイントセキュリティ製品となる

検出能力6点!パフォーマンス消費6ポイント!使いやすさ6点!先日、国際的に権威のある評価機関 AV-...

人工知能は242万件の医療記録の分析を支援した

人工知能は242万件の医療記録の分析を支援した1月26日、iFLYTEKは最前線の防疫・管理を支援す...

...