Leifeng.com 注: 上の画像は、Microsoft モデルによって生成された 3D ソファ、椅子、バスタブの画像です。 この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 Facebook や Nvidia などの企業の AI 研究室や、Threedy.AI のようなスタートアップ企業を含め、2D 画像を 3D 形式に変換する試みは数多く行われてきました。最近、マイクロソフトの研究チームも、構造化されていない 2D 画像に基づいて 3D 形状画像を生成する能力を実証するプレプリント論文を発表しました。 通常、このようなフレームワークをトレーニングするには、ラスタライズによる差分ステップ レンダリングを実行する必要があるため、この分野でのこれまでの取り組みでは、カスタム レンダリング モデルの開発に重点が置かれてきました。しかし、このようなモデルで処理された画像はリアルでも自然でもなく、ゲームやグラフィック業界向けの産業用レンダリングの生成には適していません。 マイクロソフトの研究者たちは今回、新たな躍進を遂げた。彼らは論文の中で、この分野で初めて使用される「スケーラブルな」トレーニング手法を使用するフレームワークを詳しく説明したのだ。研究者らは、2D 画像でトレーニングすると、フレームワークは既存のモデルよりも一貫して優れた 3D 形状を生成できると述べており、これは 3D モデルの作成経験が不足しているビデオ ゲーム開発者、e コマース企業、アニメーション企業にとっては朗報です。 具体的には、研究者らは、ディスプレイデータから画像を生成できる、完全に機能する産業用レンダラーを活用しようとしました。これを実現するために、研究者らは 3D 形状の生成モデルをトレーニングし、形状をレンダリングして 2D データセットの分布に一致する画像を生成するようにしました。ジェネレーター モデルは、ランダムな入力ベクトル (データセットの特徴を表す値) を受け取り、3D オブジェクトの連続ボクセル表現 (3D 空間のグリッド上の値) を生成します。次に、ボクセルは微分不可能なレンダリング プロセスに送られ、既存のレンダラーを使用してレンダリングする前に、離散値にしきい値が設定されます。 つまり、これは 3D 形状生成モデルによって生成された連続ボクセル グリッドを直接レンダリングする新しいプロキシ ニューラル レンダラーです。研究者らが説明しているように、3D メッシュ入力が与えられた場合、市販のレンダラーのレンダリング出力と一致するようにトレーニングする必要があります。 生成的敵対ネットワーク (GAN) は 2D 画像データの生成において優れた結果を示しており、ゲームなどの多くの視覚アプリケーションでは、画像だけでなく 3D モデルを入力として必要とします。ただし、既存の GAN モデルを 3D に直接拡張するには、3D トレーニング データを取得する必要があります。 Leifeng.com 注: 上の画像は、Microsoft モデルによって生成された 3D キノコ画像です。 実験中、研究チームは上記のジェネレーターに3D畳み込みGANアーキテクチャを採用しました(GANは2部構成のAIモデルで、分散サンプリングを使用してランダムノイズから合成例を生成し、これらの例をトレーニングデータセット内の実際の例と一緒に識別器に入力して、2つを区別しようとするジェネレーターが含まれます)。 3D モデルと実際のデータセットに基づいて生成されたデータセットは、さまざまなオブジェクト カテゴリからの画像を合成し、トレーニング プロセス全体を通じてさまざまな角度からレンダリングできます。 研究者らはまた、このフレームワークは画像から照明と陰影の情報も抽出し、各トレーニングサンプルからより意味のあるデータを抽出し、そのデータに基づいてより良い結果を生み出すことができると述べている。自然画像のデータセットでトレーニングした後、フレームワークは現実的なサンプルを生成できます。さらに、このフレームワークは、表面間の露出の違いを利用して凹面物体の内部構造を検出することができ、凹部や中空空間を正確に捉えることができます。 色、材質、照明などの情報をシステムに組み込むことで、将来的にはこの情報をより「通常の」現実世界のデータセットと一緒に使用できるようになります。 |
>>: 「ブラックスワン」の翼の下で:情報戦場におけるAIの光と影
車線は高レベルのセマンティクスを備えた交通標識であり、視覚ナビゲーション システムでは特に重要です。...
11月18日、高徳地図の新バージョンは革新的なADAS警告ナビゲーション機能をリリースしました。視覚...
ジョージタウン大学の科学者が率いる国際研究チームは、COVID-19パンデミックの原因ウイルスである...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
自動評価および安全性プラットフォームである Patronus AI は、大規模言語モデル (LLM)...
検索エンジン大手のGoogleは7月4日、プライバシーポリシーを更新し、インターネット上の公開情報を...
「Made in China」は世界で最も認知されているラベルの一つです。 「Made in Chi...
世界初の Vision Pro が店から持ち出された瞬間、会場全体が興奮に包まれました。この瞬間は歴...
LLM ロングコンテキスト モデルの究極のソリューションは何ですか?プリンストン大学とMeta AI...
人工知能 (AI) は、多くの保守および制御エンジニアにとって新しい概念ではありません。デジタル変革...
選択ソートの基本的な操作は、ソートするデータ要素から毎回最小(または最大)の要素を選択し、ソートする...