AIは顔の特徴、口を開ける、見つめる、眉を上げるなどの動作を完璧に模倣できるため、動画詐欺を防ぐことは不可能である。

AIは顔の特徴、口を開ける、見つめる、眉を上げるなどの動作を完璧に模倣できるため、動画詐欺を防ぐことは不可能である。

防ぐのは不可能だ。そもそも防ぐことは不可能だ。AIの模倣能力はここまで発達しているのか?

ある瞬間に顔の表情をキラキラとさせ、次の瞬間には全く同じ表情を再現し、睨みつけたり、眉を上げたり、口を尖らせたり、どんなに誇張した表情でも非常に上手に真似されています。

難易度を上げて、眉毛を高くしたり、目を大きく見開いたり、さらには口の形を歪ませたりしても、仮想キャラクターのアバターは表情を完璧に再現できます。

左側のパラメータを調整すると、右側の仮想アバターもそれに応じて変化します。

口と目をア​​ップで撮ってみます。完全に同じとまではいきませんが、表情はまったく同じです(右端)。

この研究はミュンヘン工科大学などの機関によるもので、表情、姿勢、視点を完全に制御できるリアルな頭部アバターを作成するために使用できる手法である GaussianAvatars を提案しています。


  • 論文アドレス: https://arxiv.org/pdf/2312.02069.pdf
  • 論文ホームページ: https://shenhanqian.github.io/gaussian-avatars

研究によると、コンピュータービジョンとグラフィックスでは、動く人間の仮想頭部を作成することは常に課題でした。特に、極端な表情や、しわや髪の毛などの細部を捉えることは難しく、生成された仮想キャラクターは視覚的なアーティファクトが発生しやすくなります。

Neural Radiance Fields (NeRF) とその派生型は、マルチビュー観測から静的シーンを再構築する際に一貫して優れた結果を示してきました。その後の研究では、NeRF が拡張され、人間がカスタマイズしたシナリオの動的なシーン モデリングが可能になりました。しかし、これらの方法は制御性に欠けており、新しいポーズや表情にうまく一般化できません。

最近登場した「3D ガウス スプラッティング」方式は、NeRF よりも高いレンダリング品質を実現し、リアルタイムのビュー合成に使用できます。ただし、このアプローチでは出力アニメーションを再構築することはできません。

この論文では、3D ガウス スプラットに基づく動的な 3D 人間の頭部表現方法である GaussianAvatars を提案します。

具体的には、FLAME (頭部全体をモデル化する) メッシュが与えられ、各三角形の中心に 3D ガウス分布を初期化します。 FLAME メッシュがアニメーション化されると、各ガウス分布は親三角形に対して移動、回転、および拡大縮小されます。次に、3D ガウス分布がグリッドの上に放射フィールドを形成し、グリッドが正確に位置合わせされていない領域や特定の視覚要素を再現できない領域を補正します。

仮想キャラクターの再構築において高い忠実度を実現するために、本論文ではバインディング継承戦略を導入します。さらに、この論文では、新しい表情やポーズを持つ仮想キャラクターをアニメーション化するために、忠実度と堅牢性のバランスをとる方法についても検討します。結果は、GaussianAvatars が新しいビューのレンダリング、ビデオ再生の駆動などにおいて既存の研究よりもはるかに優れていることを示しています。

方法の紹介


下の図 2 に示すように、GaussianAvatars への入力は、人間の頭部のマルチビュー ビデオ録画です。各タイムステップで、GaussianAvatars はフォトメトリック ヘッド トラッカーを使用して、FLAME パラメータをマルチビュー観測値と既知のカメラ パラメータに一致させます。

FLAME メッシュの頂点は異なる位置にありますが、同じトポロジを共有しているため、研究チームはメッシュの三角形と 3D ガウス スプラットの間に一貫した接続を作成することができました。スプラットは、微分可能なタイル ラスタライザーを使用して画像にレンダリングされます。これらの画像は実際の画像によって監視され、リアルな人間の頭部アバターを学習します。

静的シーンでは、最適な品質を得るために、ガウススプラットを高密度化および削減するための一連の適応密度制御操作も実行する必要があります。三角形とスプラット間の接続を切断せずにこれを実現するために、研究チームは、新しいガウス点が FLAME メッシュにバインドされたままになるように、バインディング継承戦略を設計しました。

実験結果

この研究では、新しいビューの合成による再構築の品質と、自己再現によるアニメーションの忠実度を評価します。下の図3は定性的な比較結果を示しています。新しいビューの合成では、すべての方法で適切なレンダリング結果が生成されます。 PointAvatar の結果を詳しく調べると、固定ポイント サイズによるポイント アーティファクトが見られますが、GaussianAvatars は 3D ガウスの異方性スケーリングによってこの問題を軽減します。

表 1 の定量的な比較からも同様の結論を導き出すことができます。 GaussianAvatars は、新しいビュー合成メトリックの点では他の方法を大幅に上回り、LPIPS の点では知覚の違いが大幅に少なく、自己再現でも優れています。自己再現は追跡された FLAME グリッドに基づいて行われるため、ターゲット イメージと完全に一致しない可能性があることに注意してください。

アバターアニメーションの実世界テストを行うために、この研究では図 4 のクロスアイデンティティ再現を実験しました。アバターは、ソース俳優のまばたきや口の動きを正確に再現し、しわなどの生き生きとした複雑なダイナミクスを示しました。


本研究では、方法の構成要素の有効性を検証するためにアブレーション実験も実施し、その結果を次の図に示します。

<<:  Microsoft Copilot は、コード インタープリター、DALL·E 3、ChatGPT を備えた完全バージョンに進化しました。

>>:  Microsoft Copilot の壮大なアップデート! GPT-4 Turboは無料で使用でき、Bingのディープサーチは30秒で正確な回答を提供できます

ブログ    
ブログ    

推薦する

保険業界は人工知能をどのように活用しているのか

保険業界の企業や顧客にとって AI がどのように役立つか、また代理店向けの最新のポリシーについて説明...

...

AIの頂点:プレミアムディープラーニングGPU、KG 7204-R5

人工知能(AI)の分野といえば、「人間対機械」ゲームにおける「AlphaGo」という名の名を挙げざる...

クラウドベースの SaaS アプリケーションで AI を活用して効率的なリモート ワークを実現する方法

現在進行中のCOVID-19パンデミックにより、企業がリモートワークを実施する必要性が浮き彫りになり...

AIと5Gの相乗効果:デジタル時代の潜在能力を最大限に引き出す

進化するテクノロジーの世界では、人工知能 (AI) と第 5 世代無線ネットワーク (5G) という...

AI 開発者: AI 分野を選択するには?

機械学習アルゴリズムは、より広範で信頼性の高いデータをリアルタイムで提供することができ、インテリジェ...

科学者たちは一連のAI映画評価ツールを開発しました。撮影が始まる前に評価を与えることができます。

海外メディアの報道によると、映画の評価は大きな問題である。すべての映画の予告編の最後にそれらを見るこ...

APICloud CEO 劉欣: モバイルアプリケーションは人工知能の実装にとって最も直接的な媒体である

報道によると、APICloudが主催するAI時代のモバイル技術変革カンファレンスが2018年1月5日...

神府に集い、知恵で未来を勝ち取ろう!神府デモンストレーションゾーン「ファーウェイクラウドカップ」2021年全国AIコンテストが成功裏に終了

2021年9月27日、神府改革革新モデル区、ファーウェイ、上海交通大学が共催する「神府にクラウドが集...

...

ディープラーニングを使った顔認証

[[390275]]今日は、ディープラーニングを使用して顔認証アルゴリズムを作成します。 私たちのタ...

人工知能を人間化して、その信頼性を確立するにはどうすればよいでしょうか?

人工知能 (AI) はブラックボックスの実践と見なされることが多く、テクノロジー自体の仕組みではなく...

期待する! 2020年までに中国の人工知能は世界の先進レベルに達するだろう

最近、北京は「科学技術革新の加速と人工知能産業の育成に関する指導意見」を発表し、北京の人工知能発展ス...

Cloudera は研究から実稼働までエンタープライズ機械学習を加速します

クラウド向けに最適化された機械学習および分析のための最新プラットフォームを提供する Cloudera...