ディープフェイクに取って代わると期待されていますか?今年最も注目されているNeRFテクノロジーの秘密を解き明かす

ディープフェイクに取って代わると期待されていますか?今年最も注目されているNeRFテクノロジーの秘密を解き明かす

え、まだNeRFを知らないの?

NeRF は、今年コンピューター ビジョン分野で最も注目されている AI テクノロジーであり、幅広い用途と明るい未来を秘めています。

Bilibiliの人たちはついにこの技術を利用する新しい方法を思いつきました。

アイデアを出す

では、NeRF とは何でしょうか?

NeRF (Neural Radiance Fields) は、2020 年の ECCV カンファレンスの最優秀論文で初めて提案された概念です。暗黙的な表現を新たなレベルに引き上げ、2D のポーズ画像のみを監督として使用して複雑な 3 次元シーンを表現できます。

一つの石が千の波紋を引き起こす。それ以来、NeRFは急速に発展し、「新しい視点の合成、3D再構築」など、複数の技術方向に応用されてきました。

NeRF は、トレーニング用にスパースなマルチアングルポーズ画像を入力して神経放射場モデルを取得し、それに基づいて、下の図に示すように、あらゆる視点から鮮明な写真をレンダリングできます。簡単にまとめると、MLP を使用して 3 次元シーンを暗黙的に学習することになります。

ネットユーザーは当然、NeRF を同様に人気のある Deepfake と比較するでしょう。

MetaPhysics が最近公開した記事では、NeRF の進化、課題、利点を検証し、NeRF が最終的に Deepfake に取って代わると予測しています。

ディープフェイク技術に関する話題のほとんどは、ディープフェイクが2017年に初めて登場して以来人気を博している2つのオープンソースソフトウェアパッケージ、DeepFaceLab (DFL) と FaceSwap に関するものでした。

どちらのパッケージも幅広いユーザーベースと活発な開発者コミュニティを持っていますが、どちらのプロジェクトも GitHub コードから大きく逸脱していません。

もちろん、DFL と FaceSwap の開発者も手をこまねいているわけではありません。より大きな入力画像を使用してディープフェイク モデルをトレーニングすることが可能になりましたが、これにはより高価な GPU が必要になります。

しかし実際には、過去3年間、メディアが宣伝したディープフェイク画像の品質の向上は、主にエンドユーザーによるものです。

彼らは、データ収集とモデルトレーニングのベストプラクティス(1 回の実験に数週間かかることもあります)に関する貴重な経験を積み、2017 年のオリジナル コードの最も外側の制限を活用して拡張する方法を学びました。

VFX および ML 研究コミュニティの一部では、アーキテクチャをスケールアップして機械学習モデルを最大 1024×1024 の画像でトレーニングできるようにすることで、一般的なディープフェイク パッケージの「ハード リミット」を突破しようとしています。

これは、現在 DeepFaceLab や FaceSwap の範囲内にあるピクセル数の 2 倍であり、映画やテレビの制作に役立つ解像度にかなり近いものです。

次にNeRFを見てみましょう。

ベールを脱ぐ

2020年に登場したNeRF(Neural Radiance Fields)は、ニューラルネットワーク内で複数視点の写真をつなぎ合わせて物体や環境を再構築する手法です。

入力ビューのスパース セットを使用して、基礎となる連続ボリューム シーン関数を最適化することにより、複雑なシーン ビューを合成するための最先端の結果を実現します。

このアルゴリズムは、完全に接続されたディープ ネットワークを使用して、入力が単一の連続 5D 座標 (空間位置 (x、y、z) と視線方向 (θ、φ)) であり、出力がその空間位置での体積密度と関連する放射振幅の明るさであるシーンを表します。

ビューは、カメラの光線に沿って 5D 座標を照会することによって合成され、出力の色と密度は、従来のボリューム レンダリング手法を使用して画像に投影されます。

実装プロセス:

まず、連続シーンを 5D ベクトル値関数として表現します。この関数の入力は 3D 位置と 2D 視線方向で、対応する出力は発光色 c と体積密度 σ です。

実際には、方向を表すために 3D 直交単位ベクトル d が使用されます。連続 5D シーン表現は MLP ネットワークを使用して近似され、その重みが最適化されます。

さらに、ボリューム密度 σ を位置 x の関数として予測するようにネットワークを制約し、RGB カラー c を位置と視線方向の両方の関数として予測できるようにすることで、マルチビューの一貫性のある表現を促進します。

これを実現するために、MLP はまず、入力 3D 座標 x を 8 つの完全接続レイヤー (ReLU アクティベーションとレイヤーあたり 256 チャネルを使用) で処理し、σ と 256 次元の特徴ベクトルを出力します。

この特徴ベクトルは、カメラレイの視線方向と連結され、ビューに依存する RGB カラーを出力する追加の完全接続レイヤーに渡されます。

さらに、NeRF では、複雑なシーンの高解像度表現を実現するために 2 つの改良が導入されています。 1 つ目は、MLP が高頻度関数を表現できるようにするための位置エンコーディングであり、2 つ目は、高頻度表現を効率的にサンプリングできるようにする層別サンプリング プロセスです。

ご存知のとおり、Transformer アーキテクチャの位置エンコーディングは、シーケンス内のトークンの個別の位置をアーキテクチャ全体の入力として提供できます。 NeRF は位置エンコーディングを使用して連続入力座標をより高次元の空間にマッピングし、MLP がより高い周波数関数を近似しやすくなります。

図からわかるように、位置エンコーディングを削除すると、モデルの高周波ジオメトリとテクスチャを表現する能力が大幅に低下し、最終的には過度に滑らかな外観になります。

各カメラレイに沿った N 個のクエリ ポイントでニューラル放射フィールド ネットワークを密に評価するレンダリング戦略は非効率的であるため、NeRF は最終的に、最終レンダリングの予想される効果に比例してサンプルを分散することでレンダリング効率を向上させる階層表現を採用しています。

つまり、NeRF はシーンを表現するために 1 つのネットワークのみを使用するのではなく、「粗粒度」ネットワークと「細粒度」ネットワークの 2 つのネットワークを同時に最適化します。

将来は有望だ

NeRF は、MLP を使用してオブジェクトやシーンを連続関数として表現する従来のアプローチの欠点を解決します。以前の方法と比較して、NeRF はより優れたレンダリング結果を生成できます。

しかし、NeRF は多くの技術的なボトルネックにも直面しています。たとえば、NeRF のアクセラレータは、低レイテンシ、よりインタラクティブな環境、およびトレーニング時間の短縮を実現するために、他の比較的有用な機能 (柔軟性など) を犠牲にしています。

したがって、NeRF は重要なブレークスルーではあるものの、完璧な結果を達成するにはまだ時間がかかります。

テクノロジーは進歩しており、将来はまだまだ有望です!​

<<:  言語AIは自分の答えが正しいかどうかを知っていることが判明しました。バークレー大学や他の大学による新たな研究が人気を集めている

>>:  文化分野における人工知能の応用

ブログ    

推薦する

人工知能技術は若者の雇用にどのような影響を与えるでしょうか?

人工知能の発展の過程で、常に次のような声が聞かれます。「人工知能によって、特に若者を中心に、失業者が...

ロボティック・プロセス・オートメーションは大きな問題でしょうか?

今日の急速に変化するデジタル時代において、企業は効率を高め、運用コストを削減し、全体的な生産性を向上...

AI は世界を変える。e コマースのビジネス シナリオで顔認識をどのように活用するのでしょうか?

【51CTO.comオリジナル記事】 1. 概要今日、コンピュータービジョンとディープラーニングの...

...

...

超高性能+究極のアプリケーション、Powerleader AIサーバーがインテリジェントな開発を促進

現在、クラウドコンピューティングやAIなどの技術の出現により、データセンター設計の構造的変化が進み、...

...

人気のワールドモデルとは何ですか? DriveDreamer: 実世界初の自動運転世界モデル

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

人材獲得におけるAIの台頭

[[405721]]過去 10 年間で採用手法が進化するにつれ、人材獲得における人工知能の活用がます...

「Painted Skin」の悪夢が現実に? 「人間の皮膚」で覆われたこのロボットはCell誌に掲載された。

指が背中をゆっくりと優しくなぞり、背骨に沿って上へ移動し、そしてゆっくりと止まるところを想像してくだ...

ルーティングの基本アルゴリズム設計の目標とタイプ

基本的なルーティング アルゴリズムの設計目標とタイプは、基本的なルーティング アルゴリズムに関する知...

人工知能やその他の科学研究には「越えてはならない一線」があり、5つの原則が倫理的な最低ラインを示している

人工知能の覚醒、個人ネットワークの情報セキュリティ、遺伝子編集...科学技術が急速に発展するにつれ、...

Zhihu のホットトピック: 今後 3 ~ 5 年で、機械学習の人材が最も不足する分野はどれでしょうか?

[[328766]]今後 3 ~ 5 年で、機械学習のどの分野の人材が最も不足するでしょうか?今日...

サイバーセキュリティにおける AI: 誇大宣伝と現実

人工知能(AI)の可能性は魅力的です。セキュリティ管理者への警鐘。自律的な自己学習ソリューションの力...