形状精度の高い 3D 認識画像合成のためのシェーディング ガイド付き生成暗黙モデル

形状精度の高い 3D 認識画像合成のためのシェーディング ガイド付き生成暗黙モデル

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

生成された放射フィールドの開発により、3D 対応の画像合成が開発されました。 3D オブジェクトは複数の視点から見るとリアルに見えるという観察に基づいて、これらの方法では、2D 画像から効果的な 3D 放射フィールドを学習するための正規化としてマルチビュー制約を導入します。進歩はしているものの、形状と色の曖昧さのために正確な 3D 形状をキャプチャできないことが多く、下流のタスクへの適用が制限されます。この研究では、マックス・プランク研究所と香港中文大学の学者らが、改良された形状表現を学習する新しい色付け誘導型生成暗黙モデル、ShadeGAN を提案することで、この曖昧さを解決しています。

論文アドレス: https://arxiv.org/pdf/2110.15678.pdf コードアドレス: https://github.com/xingangpan/shadegan 重要なのは、正確な 3D 形状が、さまざまな照明条件下でもリアルなレンダリング効果を生み出す必要があることです。照明を明示的にモデル化し、さまざまな照明条件下でシェーディングを実行することで、複数の照明制約が実現されます。合成画像を識別器に入力することで勾配が得られます。表面法線を計算するための追加の計算負荷を補うために、研究チームは表面追跡による効率的なボリューム レンダリング戦略をさらに設計し、トレーニング時間と推論時間をそれぞれ 24% と 48% 削減しました。複数のデータセットでの実験により、ShadeGAN は、基礎となる 3D 形状を正確にキャプチャしながら、リアルな 3D 対応画像合成を実現することが示されました。また、彼らは、3D 形状の再構築と画像の再照明への適用性に関して、既存の方法よりも優れたアプローチのパフォーマンスを実証しました。

1.はじめに

StyleGAN や BigGAN などの高度な深層生成モデルは、自然な画像合成において大きな成功を収めています。ただし、これらの 2D 表現ベースのモデルでは、インスタンスの新しいビューを 3D に一貫した方法で合成することはできません。また、三次元物体の明確な形状を表現することもできません。これらの制限を克服するために、研究者らは 3D シーンを神経放射場として表現する新しい深層生成モデルを提案しました。 3D 対応の生成モデルは、画像合成中に 3D の一貫性を維持しながら、視点を明示的に制御できます。これらは、制約のない 2D 画像のセットから教師なし方式で 3D 形状を学習する大きな可能性を示しています。 3D 対応の生成モデルをトレーニングして正確な 3D オブジェクトの形状を学習できれば、3D 形状の再構築や画像の再照明など、さまざまな下流アプリケーションを拡張できます。 3D を考慮した画像合成の既存の試みでは、下の図に示すように、不正確でノイズの多い粗い 3D 形状を学習する傾向があります。研究では、この不正確さは、この方法で採用されたトレーニング戦略の避けられない曖昧さによるものであることが判明しました。特に、「マルチビュー制約」と呼ばれる正規化は、3D 表現がさまざまな視点からよりリアルに見えるようにするために使用されます。このような制約は通常、最初にジェネレーターの出力 (放射輝度フィールドなど) をランダムにサンプリングされた視点に投影し、次にそれを偽の画像として識別器に送り、トレーニングを行います。この制約により、モデルは 3D を意識した方法で画像を合成できますが、形状と色の関連付けがあいまいになり、多くのオブジェクトの色が局所的に滑らかであるため、識別器にとって同様にもっともらしい小さな形状の変化でも類似の RGB 画像が生成される可能性があります。したがって、不正確な形状はこの制約の下では依然として隠されています。

本論文では、研究チームは上記の曖昧さを解決するために、新しいカラーリング誘導生成暗黙モデル(ShadeGAN)を提案しました。特に、ShadeGAN はシェーディング (つまり、照明と形状の相互作用) を明示的にモデル化することで、より正確な 3D 形状を学習します。正確な 3D 形状は、さまざまな角度から見てリアルに見えるだけでなく、さまざまな照明条件下でもリアルに見える必要があります。つまり、「複数の照明制約」を満たす必要があります。この考え方は、異なる照明条件下で撮影された画像から正確な表面法線を復元できることを示すフォトメトリックステレオと同様の直感を共有しています。トレーニングに使用される実際の画像は通常、さまざまな照明条件下で撮影されるため、複数の照明制約が実行可能であることに注意してください。この制約を満たすために、ShadeGAN は、アルベドを近似するが必ずしも視点の独立性を満たすわけではない中間表現として、再照明可能な色フィールドを採用します。レンダリング中、カラー フィールドはランダムにサンプリングされた照明条件下でシェーディングされます。このシェーディング プロセスによって処理される画像の外観は表面法線に大きく依存するため、以前のシェーディングに依存しない生成モデルと比較して、不正確な 3D 形状表現がより明確に明らかになります。複数の照明制約を満たすことで、ShadeGAN は上図の右下に示すように、より正確な 3D 形状を推測できるようになります。上記のシェーディング処理では、逆伝播によってジェネレーターの法線方向を計算する必要があり、3D ボリューム レンダリングでは、1 つのピクセルの計算を何十回も繰​​り返す必要があるため、追加の計算オーバーヘッドが発生します。

既存の効率的なボリューム レンダリング技術は主に静的なシーンを対象としており、動的な特性を考慮した生成モデルに直接適用することはできません。 ShadeGAN のレンダリング速度を向上させるために、研究チームは潜在コードに基づいてレンダリングされたオブジェクトの表面を評価する効果的な表面追跡ネットワークを構築しました。これにより、予測された表面の近くのポイントのみを照会することでレンダリング計算を節約でき、レンダリングされた画像の品質に影響を与えることなく、トレーニングと推論の時間をそれぞれ 24% と 48% 削減できました。 ShadeGAN の有効性は、複数のデータセットに対する包括的な実験を通じて検証されます。結果は、私たちのアプローチが、以前の生成方法と比較して、より正確な基礎となる 3D 形状をキャプチャしながら、フォトリアリスティックな画像を合成できることを示しています。学習された 3D 形状分布により、3D 形状の再構築などのさまざまな下流タスクが可能になり、ShadeGAN は BFM データセット上の他のベースラインを大幅に上回ります。シェーディング プロセスをモデル化することで、照明条件を明示的に制御し、画像の再照明効果を実現できます。

ShadeGAN は次のように要約できます。1) 複数の照明制約を満たすシェーディング ガイド付き生成モデルを使用して、既存の 3D 知覚画像合成における形状と色のあいまいさの問題を解決します。 ShadeGAN はより正確な 3D 形状を学習できるため、より優れた画像合成が可能になります。 2) サーフェストラッキングによる効率的なレンダリング技術が設計され、ボリュームレンダリングベースの生成モデルのトレーニングと推論の時間を大幅に節約します。 3) ShadeGANは影と色を分離することを学習し、アルベドに近づけることで、画像合成において自然な再照明効果を実現します。

2. ShadeGANニューラルボリュームレンダリング

ニューラル ボリューム レンダリングは、Neural Radiance Fields (NeRF) の先駆的な研究から始まり、3D シーンの表現や新しいビューの合成に広く使用されてきました。座標ベースのニューラル ネットワークとボリューム レンダリングを組み合わせることで、NeRF は 3D 一貫性を備えた高忠実度のビュー合成を実現します。 NeRF を拡張または改善する試みがいくつか提案されています。たとえば、照明をさらにシミュレートし、位置合わせされたマルチビュー、マルチ照明画像に基づいて反射と陰影を分離することを学習します。さらに、空間スパース性、建築設計、効率的なレンダリングなどの観点から、静的シーンのレンダリングを高速化する研究も数多く行われています。これらの照明および加速技術をボリューム レンダリング ベースの生成モデルに適用することは簡単ではありません。これは、通常、入力潜在コードに応じて変化する動的なシーンを表す、ローカライズされていない、ペアになっていない画像から学習されるためです。研究チームはまず、正確な 3D 形状学習の正規化として、ボリューム レンダリング ベースの生成モデルで照明をモデル化しようと試みました。さらに、私たちは、同様の洞察を持ちながら、真の深度によるトレーニングに依存せず、狭い範囲の視点にも制限されない、私たちの方法のためのレンダリング技術を考案しました。

3D対応画像合成の生成

生成的敵対的ネットワーク (GAN) は高解像度の写真のようにリアルな画像を生成できますが、カメラの視点を明示的に制御することはできません。 3D を意識した方法で画像を合成できるようにするために、最近の多くの方法では、 3D 表現をGAN に組み込む方法が調査されています。いくつかの研究では 3D データから直接学習していますが、この論文では、より実用的な設定であるため、研究チームは制約のない 2D 画像にのみアクセスできる方法に焦点を当てました。研究チームは、3Dボクセルの特徴を利用し、ニューラルレンダリングを学習しようと何度も試みました。リアルな3D知覚合成は生成されましたが、3Dボクセルは解釈できず、3D形状に変換できませんでした。 NeRF は、GAN における中間 3D 表現として放射フィールドの使用を成功させ、マルチビューの一貫性を備えた印象的な 3D 対応画像合成を実現しましたが、これらの方法で抽出された 3D 形状は不正確でノイズが多いことがよくあります。この論文では、研究チームの主な目標は、レンダリング プロセス中に照明を明示的にモデル化することで、形状の不正確さを解決することでした。この革新により、3D に対応した画像合成が向上し、より幅広い用途に応用できるようになります。

2D画像からの教師なし3D形状学習

ShadeGAN は、制約のない単眼ビューの 2D 画像から 3D オブジェクトの形状を学習する教師なしアプローチを採用しています。いくつかの方法では、外部の 3D 形状テンプレートまたは 2D キーポイントを弱い監視として使用しますが、2D 画像のみが利用可能な、より困難な設定を検討します。ほとんどのアプローチは「合成による分析」パラダイムを採用しており、写真ジオメトリオートエンコーダは再構成損失の下で各画像の 3D 形状と視点を推測するように設計されています。一部のオブジェクト クラスについては 3D 形状を学習できますが、一般的に使用されるオブジェクト形状の対称性の仮定などの単純な解決策を防ぐために、通常は正規化に依存します。この仮定は対称的な結果を生み出す傾向があり、オブジェクトの非対称な側面を無視する可能性があります。最近、GAN2Shape は、2D GAN によって生成された画像の 3D 形状を復元できることを示しました。ただし、このアプローチでは、インスタンス固有のトレーニングが非効率的であり、完全な 3D 表現ではなく深度マップを復元します。この論文で提案された 3D 対応生成モデルは、教師なし 3D 形状学習の強力な手法としても機能します。上記のオートエンコーダベースの方法と比較して、GAN ベースの方法では、各画像の視点を推測する必要がなくなり、強力な正規化に依存しません。さらに実験により、ShadeGAN は最新かつ最も先進的な方法である Unsp3d や GAN2Shape と比較してパフォーマンスが高いことが実証されました。

3. ShadeGAN 手法

ShadeGAN は、制約なし、ラベルなしの 2D 画像学習による 3D 対応画像合成の問題を考慮します。生成的暗黙モデルでシェーディング、つまり照明と形状の相互作用をモデル化することで、より正確な 3D オブジェクト形状の教師なし学習が可能になります。次に、Neural Radiance Fields (NeRF) について最初に紹介し、次にシェーディング ガイド生成の暗黙的モデルについて詳しく紹介します。

3.1 神経放射場の予備的研究

NeRF はディープ インプリシット モデルとして、MLP ネットワークを使用して 3D シーンを放射輝度フィールドとして表現します。 3D 座標と視線方向を入力として受け取り、ボリューム密度と色を出力します。特定のカメラポーズで画像をレンダリングするには、画像の各ピクセルカラー C を、次のように対応するカメラレイに沿ったボリュームレンダリングによって取得します。

実際には、このボリューム レンダリングは、離散形式の層別化と層別サンプリングを使用して実装されます。レンダリング プロセスは微分可能であるため、静的シーンのポーズ画像に対して NeRF を最適化するのは簡単です。トレーニング後、NeRF は新しいカメラポーズで画像をレンダリングし、高品質の新しいビュー合成を可能にします。

3.2 暗黙的モデルの色付けによる生成

3D 対応画像合成のための明示的なシェーディング プロセスをモデル化できる生成暗黙モデルの開発は、非常に興味深いことです。研究チームは、NeRF の MLP ネットワークに 2 つの拡張を加えました。まず、ほとんどの深層生成モデルと同様に、事前分布からサンプリングされた潜在コード z にさらに依存します。 2 番目に、色 c を直接出力するのではなく、再照明できるプレコサイン色項を出力します

特定の照明条件下で陰影を付けることができるという点で、概念的にはアルベドに似ています。アルベドは視点に依存しませんが、この研究では、データセットのバイアスを考慮するために、データセット間でのこの独立性は厳密には強制されません。したがって、私たちのジェネレーターは、座標 x、視線方向 d、および潜在的な方向エンコーディング z を入力として受け取り、ボリューム密度 σ とプレコサインカラー a を出力します。ここで、σ は d から独立していますが、a の d への依存性はオプションであることに注意してください。カメラライトの色 C 、つまり近い境界と遠い境界の合計を取得するために、研究チームは最終的なプレコサイン色 A を次のように計算しました。

研究チームはまた、次の式を使用して法線 n を計算しました。これは、入力座標に対する体積密度 σ の微分であり、局所的な法線方向を自然に捉え、バックプロパゲーションによって計算できます。最終的な色 C は、次のようにランバート色付けによって得られます。

は照明方向、周囲係数と拡散反射率です。

カメラと照明のサンプリング方程式(2-4)は、カメラ光線r(t)と照明条件が与えられた場合にピクセルカラーをレンダリングするプロセスを説明します。完全な画像を生成するには、潜在コード z に加えて、カメラの姿勢と照明条件 μ をサンプリングする必要があります

このセットアップでは、カメラの姿勢はピッチ角とヨー角で記述でき、以前の研究と同様にガウス分布または均一分布からサンプリングできます。トレーニング中にカメラのポーズをランダムにサンプリングすると、学習した 3D シーンがさまざまな角度からリアルに見えるようになります。このマルチビュー制約は効果的な 3D 表現を学習するのに有益ですが、正確な 3D オブジェクトの形状を推測するには不十分な場合がよくあります。

そこで本論文では、研究チームはさらに、事前分布から照明条件 μ をランダムにサンプリングすることで、複数の照明制約を導入しています。実際には、既存の方法を使用してデータセットから推定できます。実験では、単純かつ手動で調整された事前分布でも妥当な結果が得られます。式(4)の拡散項は、法線方向に敏感なシェーディングプロセスを生成するため、この多重照明制約はモデルを正規化し、自然なシェーディングを生成するより正確な3D形状を学習する。

生成モデルのトレーニングはGAN パラダイムに従っており、ジェネレータはパラメータ φ を持つ識別器 D とともに敵対的な方法でトレーニングされます。トレーニング中、ジェネレーターは、潜在コード z、カメラのポーズ、照明条件 μ を対応する事前分布 pz とからサンプリングして偽の画像を生成しますデータ分布 pI からサンプリングされた実際の画像を l で表します。 ShadeGAN モデルは、正規化された非飽和 GAN 損失を使用してトレーニングされます。

この式では、 λ は正規化の強度を制御します。

(2-4)において、研究チームはボリュームレンダリングによりAとnを取得し、シェーディングを行った。別のアプローチは、各ローカル空間ポイントでシェーディングを実行することです。ここで、はローカル法線です。次に、c(r(t), z) を使用してボリュームソートを実行し、最終的なピクセルカラーを取得します。実際には、研究チームはこの方式では最適ではない結果が得られたことを観察しました。直感的な理由は、この定式化では、法線方向が各ローカル ポイントで正規化され、オブジェクトの表面近くでは法線方向が大きくなる傾向があることが無視されるためです。

この論文で使用されているランバート シェーディングは、実際の照明シーンを近似しています。学習した 3D 形状を改善するための適切な正規化として機能する一方で、生成された画像の分布と実際の画像の分布との間に追加のギャップが生じる可能性があります。このリスクを補うために、予測される a を照明条件に合わせて調整することを選択できます。つまり、a = a(r(t), d, μ, z) です。照明条件が実際のデータ分布から逸脱する場合、ジェネレーターは a の値を調整して上記のギャップを減らすことを学習できます。

3.3 サーフェストラッキングによる効率的なボリュームレンダリング

研究チームは、NeRF と同様に、離散積分を使用してボリューム レンダリングを実装しました。これは通常、図に示すように、カメラの光線に沿って数十のポイントをサンプリングする必要があります。本論文では、各点の法線方向を得るために、式(3)のジェネレータに対して逆伝播を行う必要があり、計算コストが大幅に増加する。より効率的なボリューム レンダリングを実現するには、空間スパース性を活用するのが自然なアイデアです。通常、ボリュームレンダリングにおける重みT(t, z)σ(r(t), z)は、トレーニング中にオブジェクトの表面の位置に集中します。レンダリング前に粗い表面の位置がわかっている場合は、表面近くのポイントをサンプリングして計算を節約できます。静的シーンの場合、この空間スパース性はスパース ボクセル グリッドに格納されますが、3D シーンの潜在コードは入力に応じて常に変化しているため、この手法を生成モデルに直接適用することはできません。

生成的暗黙モデルでより効率的なボリュームレンダリングを実現するために、研究チームはさらに、潜在コードに基づいて表面の位置を模倣することを学習する表面追跡ネットワーク S を提案しました。特に、ボリューム レンダリングでは、次のような方法でオブジェクト表面の深度を自然に推定できます。

T(t, z)は(2)と同じように定義される。したがって、カメラの姿勢と潜在的なエンコーディング z が与えられれば、完全な深度マップをレンダリングできます上の図(b)に示すように、これはサーフェストラッキングネットワークを使用してシミュレートされます。サーフェストラッキングネットワークは、zを入力として受け取り、深度マップを出力する軽量の畳み込みニューラルネットワークです。ディープシミュレーション損失は次のとおりです。

その中で、Prec は表面のエッジをより適切に捉えるのに役立つ知覚的損失です。トレーニング中は、ジェネレーターとディスクリミネーターと一緒に最適化されます。潜在コードzとカメラの姿勢をサンプリングするたびに、深度マップの初期推定値が得られます

次に、予測深度sのピクセルに対して、式(2, 3, 6)でボリュームレンダリングを実行できます。ここで、近い境界と遠い境界はボリュームレンダリングの間隔であり、トレーニング反復回数iが増加するにつれて減少します。

具体的には、大きな区間から始めてまで減らします。画像が小さくなると、レンダリングに使用されるポイントの数もそれに応じて減少します。効率的なサーフェス トラッキング ネットワークの計算コストは​​、ジェネレータに比べて最小限です。これは、前者はイメージをレンダリングするために 1 回のフォワード パスのみを必要とするのに対し、後者は H × W × m 回クエリされるためです。したがって、m を減らすと、ShadeGAN のトレーニングと推論が大幅に高速化されます。

4.実験

実験により、ShadeGAN は照明条件を明示的に制御しながら、従来の方法よりもはるかに正確な 3D 形状を学習できることが示されています。使用されるデータセットには、CelebA、BFM、CAT が含まれ、これらにはすべて制約のない 2D RGB 画像のみが含まれています。モデル構造に関しては、ジェネレーターとして SIREN ベースの MLP を採用し、識別器として畳み込みニューラル ネットワークを採用しました。照明条件の事前分布については、Unsup3d を使用して実際のデータの照明条件を推定し、適合された多変量ガウス分布を事前分布として使用します。アブレーション研究には、手作業で作成された事前分布も含まれます。特に明記しない限り、すべての実験において、前面余弦色 a は照明条件 μ と視線方向 d に依存します。

ベースラインと比較

ShadeGAN は、最先端の 2 つの生成暗黙モデルである GRAF と pi-GAN と比較されます。具体的には、図 4 には、体積密度 σ に対してマーチング キューブを実行することによって得られる合成画像とそれに対応する 3D メッシュが含まれています。 GRAF と pi-GAN は制御可能なポーズで画像を合成できますが、学習した 3D 形状は不正確でノイズが多くなります。対照的に、私たちの方法は、フォトリアリスティックな 3D 一貫性画像を合成するだけでなく、より正確な 3D 形状と表面法線も学習し、提案された複数の照明制約が正規化子として有効であることを示しています。図 5 には、さらに多くの合成画像とそれに対応する形状が含まれています。 ShadeGAN は、より正確な 3D 形状に加えて、アルベドと拡散シェーディング コンポーネントについても本質的に学習します。図に示すように、ShadeGAN は完璧ではありませんが、マルチライティング制約に対する自然な解決策であるため、満足のいく品質で影とアルベドを分離することに成功しています。

学習された 3D 形状の品質は、BFM データセットで定量的に評価されます。具体的には、各生成暗黙モデルを使用して 50,000 枚の画像とそれに対応する深度マップが生成されます。各モデルからの画像と深度のペアは、入力画像の深度マップを予測することを学習する追加の畳み込みニューラル ネットワーク (CNN) をトレーニングするためのトレーニング データとして使用されます。次に、トレーニングされた各 CNN を BFM テスト セットでテストし、その予測を、学習した 3D 形状の品質の尺度として実際の深度マップと比較します。この論文では、スケール不変深度誤差 (SIDE) と平均角度偏差 (MAD) の指標について報告します。その中でも、ShadeGAN は GRAF や pi-GAN よりも大幅に優れたパフォーマンスを発揮します。 ShadeGAN は、教師なし学習や GAN2Shape などの他の高度な教師なし 3D 形状学習方法よりも優れており、教師なし 3D 形状学習において大きな可能性を秘めています。異なるモデルで合成された画像の FID スコアに関しては、BFM と CelebA では ShadeGAN の FID スコアは pi GAN よりもわずかに劣っています。直感的に言えば、これは近似シェーディング(つまり、ランバート シェーディング)と実際の照明との間のギャップによって発生するもので、より現実的なシェーディング モデルを採用し、以前の照明を改善することで回避できます。

アブレーション研究

研究チームはさらに、ShadeGAN におけるいくつかの設計選択の影響を調査しました。まず、局所的なポイント固有のシェーディングが実行されます。図に示すように、ローカルカラーリング戦略の結果は元の戦略よりも大幅に悪く、考慮が有益であることがわかります。

提案された効率的なボリューム レンダリング手法の有効性を検証するために、研究チームは、画像品質とトレーニング/推論時間への影響を調べるオプションを含めました。効率的なボリュームレンダリングはパフォーマンスにほとんど影響を与えないことが観察されていますが、ShadeGAN のトレーニング時間と推論時間はそれぞれ 24% と 48% 大幅に短縮されています。さらに、サーフェス トラッキング ネットワークによって予測された深度マップとボリューム レンダリングによって取得された深度マップが下の図に視覚化されています。結果は、さまざまな ID とカメラのポーズの下で、表面追跡ネットワークが実際の表面の位置に非常に近い深度値を一貫して予測できるため、予測された表面に近いポイントをサンプリングして、画像の品質を犠牲にすることなくレンダリングできることを示しています。

照明を考慮した画像合成

ShadeGAN はシェーディング プロセスをモデル化するため、照明条件を明示的に制御できるように設計されています。下の図は、照明を考慮した画像合成の結果を示しています。ShadeGAN は、さまざまな照明方向で有望な画像を生成します。予測された a が照明条件 μ に条件付けられる場合、a は照明条件に応じてわずかに変更されます。たとえば、影が暗すぎる領域では、a は明るくなり、最終的な画像はより自然になります。オプションで、式 4 に鏡面反射項 (つまり、Blinn Phong シェーディング、h は視点と照明方向の間の角度の二等分線) を追加して、鏡面反射ハイライト効果を作成することもできます。

GAN反転

ShadeGAN は、GAN 反転を実行することで、指定されたターゲット イメージを再構築することもできます。下の図に示すように、この反転により、3D 形状、表面法線、おおよそのアルベド、陰影など、画像のさまざまな要素を取得できます。さらに、視点や照明条件を変更することで、ビュー合成や再照明をさらに実行できます。

話し合う

使用されるランバート シェーディングは実際の照明に近いため、ShadeGAN によって学習されたアルベドは完全には分離されません。私たちのアプローチでは、物体の空間的に変化する材料特性を考慮していません。今後、研究チームは、分離された生成された反射フィールドをより深く理解するために、より複雑なシェーディング モデルを組み込む予定です。

5.結論

形状精度の高い 3D 対応画像合成のための新しい生成暗黙モデルである ShadeGAN を提案します。 ShadeGAN の明示的な照明モデリングを通じて実装された複数の照明制約が、2D 画像から正確な 3D 形状を学習するのに大きく役立つことを実証します。 ShadeGAN は、画像合成中に照明条件を制御して、自然な画像の再照明効果を実現することもできます。計算コストを削減するために、研究チームはさらに軽量の表面追跡ネットワークを設計しました。このネットワークは、暗黙のモデルを生成するための効率的なボリューム レンダリング手法を提供し、トレーニングと推論の速度を大幅に加速します。

<<:  メタは世界最速となる可能性のあるAIスーパーコンピュータを開発

>>:  デジタルツインがグローバルサプライチェーンの悪夢からの脱出にどのように役立つか

ブログ    
ブログ    
ブログ    

推薦する

...

AIベースでデータプラットフォームの実装を加速

[51CTO.comより引用]データミドルプラットフォームが確立される以前、企業はデータによっても...

人間はAIの課題にどう立ち向かうのか

経済学者が懸念している大きな問題は、人工知能が雇用にどのような影響を与えるかということです。人工知能...

人工知能、機械学習、データマイニング、データ分析の関係は何ですか?

人工知能は現在、注目されている分野です。すべてのインターネット企業や著名人が、人工知能はインターネッ...

このモデルはGAN、ETH超解像モデルSRFlowよりも想像能力が強い

最近、ETH チューリッヒのコンピューター ビジョン研究所の研究者が超解像度モデル SRFlow を...

炭素クレジット監査における人工知能の応用

カーボン クレジットとは、保有者に 1 トンの二酸化炭素またはその他の温室効果ガスに相当する排出権を...

...

LLM評価レビュー論文が出版され、3つの側面から包括的にまとめられ、データベースも掲載されている

大規模言語モデル (LLM) は、学界や産業界から幅広い注目を集めています。有用な LLM を開発す...

自動運転は本当に実現します!最初の発砲は全国7か所で行われた。

自動車市場の発展に伴い、さまざまないわゆる「ブラックテクノロジー」が自動車所有者の敏感な神経をますま...

2019 年の Web 開発のトレンド トップ 10

[[279047]] [51CTO.com クイック翻訳] 今日、さまざまな新しいトレンドの出現に...

...

逆転!清華大学の卒業生の死はグーグルのレイオフとは無関係、家庭内暴力の詳細が明らかに、男性は殺人罪で起訴された

地元警察は、ここ数日話題になっている「グーグルの人員削減により清華大学の夫婦が自殺」事件の詳細を発表...

新しい人工筋肉、応用シナリオの範囲が極めて広い!マイクロロボット:非常に必要

人工筋肉は科学界では常に重要な研究テーマとなっています。理想的には、人工筋肉は医療分野で患者の健康回...

機械学習の研究を再現するのは非常に難しい

[[223551]]はじめに:再現性と一貫性は計算科学研究の基本要件であり、機械学習も例外ではありま...