この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 2D 画像を 3D に変換し、3D の幾何学的データを提供することはできますか? NVIDIA とスタンフォード大学が共同で立ち上げたこの GAN は、3D GAN に新たな高みをもたらしました。 さらに、生成される画像の品質も高くなり、見る角度を変えても顔が変形することもありません。 従来の方法と比較すると、 7 倍高速で、メモリの占有量は 16 分の1以下です。 最も驚くべきことは、 3D の幾何学的データも提供できることです。たとえば、これらの石像効果は、抽出された位置情報に基づいてレンダリングすることで得られます。 リアルタイムでインタラクティブに編集することもできます。 このフレームワークがリリースされると、Twitter 上で多数のネットユーザーの注目を集め、600 件を超える「いいね!」が集まりました。 最新の3D GANは3次元の幾何学データを生成できます!モデル速度が 7 倍に向上 | NVIDIA & スタンフォード">どうですか? 2D から 3D への想像力が再びリフレッシュされますか? 可視と不可視の混合+二重識別実際、単一視点の 2D 写真のみを使用して 3D 効果を生成できるモデル フレームワークはすでに数多く存在します。 しかし、それらは計算コストが高かったり、実際の 3D 効果と一致しない近似値を与えたりします。 その結果、生成されたエフェクトには、画質の低下や変形などの問題が生じます。 上記の問題を解決するために、研究者は明示的・暗黙的なハイブリッドネットワークアーキテクチャを提案しました。 このアプローチは計算上の制限を回避でき、画像のアップサンプリングにあまり依存しません。 最新の3D GANは3次元の幾何学データを生成できます!モデル速度が 7 倍に向上 | NVIDIA & スタンフォード">比較すると、純粋に暗黙的なニューラル ネットワーク (NeRF など) は、位置エンコーディング (PE) を備えた完全接続層 (FC) を使用してシーンを表現しており、位置の決定速度が遅くなることがわかります。 純粋な明示的ニューラル ネットワークと小さな暗黙的デコーダーを組み合わせたフレームワークは高速ですが、高解像度の出力を保証することはできません。 最新の3D GANは3次元の幾何学データを生成できます!モデル速度が 7 倍に向上 | NVIDIA & スタンフォード">NVIDIA とスタンフォード大学が提案した新しい方法EG3Dは、明示的表現と暗黙的表現の利点を組み合わせたものです。 主に、StyleGAN2 ベースの特徴ジェネレーターとマッピング ネットワーク、軽量の特徴デコーダー、ニューラル レンダリング モジュール、超解像モジュール、および場所を二重に識別できる StyleGAN2 識別子が含まれます。 このうち、ニューラル ネットワークのバックボーン部分は 3D 座標を出力できる明示的な表現であり、デコーダー部分は暗黙的な表現です。 一般的な多層認識メカニズムと比較すると、この方法は7 倍高速で、メモリの占有量は 16 分の1未満です。 同時に、この手法は、優れた潜在空間など、StyleGAN2 の特徴も継承しています。 たとえば、FFHQ データセットで補間した後、EG3D は非常にうまく機能します。 この方法では、レンダリングに中解像度 (128 x 128) を使用し、2D 画像空間畳み込みを使用して最終出力の解像度と画質を向上させます。 この二重識別により、最終出力画像とレンダリングされた出力の一貫性が確保され、異なるビューでの畳み込み層の不一致によって発生する問題を回避できます。 △ 2枚の画像の左半分が最終的な出力効果で、右半分がレンダリングされた出力です 二重識別法を使用しないと、口角などの細部に歪みが生じます。 △左の写真は二重識別を使用していない場合、右の写真はEG3D法の効果を示しています データに関しては、以前の方法と比較して、EG3D 方法は、256 解像度と 512 解像度での距離スコア (FID)、識別一貫性 (ID)、深度精度、姿勢精度において優れたパフォーマンスを発揮します。 最新の3D GANは3次元の幾何学データを生成できます!モデル速度が 7 倍に向上 | NVIDIA & スタンフォード">チームについてこの研究はNVIDIAとスタンフォード大学が共同で実施した。 共著者は、Eric R. Chan、Connor Z. Lin、Matthew A. Chan、Koki Nagano の 4 名です。 そのうちのエリック・R・チャンはスタンフォード大学の博士課程の学生で、これまでpi-GANなど2D画像を3Dに変換するいくつかの手法に携わってきました。 最新の3D GANは3D幾何学データを生成できます!モデル速度が 7 倍に向上 | NVIDIA & スタンフォード">Connor Z. Lin は、スタンフォード大学の 2 年目の博士課程の学生です。彼はカーネギーメロン大学で学士号と修士号を取得しました。彼の研究対象は、コンピューターグラフィックスとディープラーニングです。 最新の3D GANは3D幾何学データを生成できます!モデル速度が 7 倍に向上 | NVIDIA & スタンフォード">Matthew A. Chan は研究助手です。3 人ともスタンフォード大学の Computational Imaging Lab に所属しています。 永野 功樹は現在、NVIDIA でコンピューター グラフィックスを専門とする上級研究員として働いています。彼は東京大学で学士号を取得しています。 最新の3D GANは3D幾何学データを生成できます!モデル速度が 7 倍に向上 | NVIDIA & スタンフォード">論文の宛先: |
<<: 時間変換に基づく初のビデオ移行攻撃アルゴリズム、復旦大学の研究がAAAI 2022に選出
>>: 人工知能技術は急速に発展しています。AIの信頼問題をどのように解決するのでしょうか?
企業ビジネスの継続的な拡大と電子化の発展に伴い、企業独自のデータや負荷データが急増し始めています。し...
多くの従業員にとって、仕事と生活のバランスを取ることは課題です。私たちは睡眠とほぼ同じくらいの時間を...
人工知能 (AI) は研究プロセスにおいてますます重要な役割を果たしています。 AI ベースのアルゴ...
人工知能が IT 組織に与える影響を検討する場合は、まず自分の仕事から始めるとよいでしょう。あなたが...
海外メディアの報道によると、OpenAIは2月18日、短いテキストプロンプトを通じて「リアル」かつ「...
マルチモーダル時代突入、大型機種でもドローンを操縦可能!視覚モジュールが開始条件を捉えれば、大型モデ...
日用消費財業界の商品識別需要シナリオでは、日用消費財ブランドの営業担当者は、販売のために端末店舗を訪...
[[211015]]現在、TensorFlow のメジャーバージョンは 1.3 にアップグレードさ...
機械学習は、私たちがもっと注目する価値のある強力なテクノロジーです。機械学習アプリケーションについて...
従来の産業および製造現場では、作業者の安全の監視、オペレーターの効率性の向上、品質検査の改善はすべて...
翻訳者 |ブガッティレビュー | Chonglou ChatGPTは2020年6月にリリースされ、 ...
スマートロボットは、タスクをより効率的かつ正確に実行し、生産性を向上させ、人的エラーを削減するように...
著者: ユン・チャオ[51CTO.com からのオリジナル記事]人工知能ソリューションの応用が進むに...