2D画像が3Dになる、マイクロソフトの新しいAIフレームワークはゲーム業界に恩恵をもたらすかもしれない

2D画像が3Dになる、マイクロソフトの新しいAIフレームワークはゲーム業界に恩恵をもたらすかもしれない

Leifeng.com 注: 上の画像は、Microsoft モデルによって生成された 3D ソファ、椅子、バスタブの画像です。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

Facebook や Nvidia などの企業の AI 研究室や、Threedy.AI のようなスタートアップ企業を含め、2D 画像を 3D 形式に変換する試みは数多く行われてきました。最近、マイクロソフトの研究チームも、構造化されていない 2D 画像に基づいて 3D 形状画像を生成する能力を実証するプレプリント論文を発表しました。

通常、このようなフレームワークをトレーニングするには、ラスタライズによる差分ステップ レンダリングを実行する必要があるため、この分野でのこれまでの取り組みでは、カスタム レンダリング モデルの開発に重点が置かれてきました。しかし、このようなモデルで処理された画像はリアルでも自然でもなく、ゲームやグラフィック業界向けの産業用レンダリングの生成には適していません。

マイクロソフトの研究者たちは今回、新たな躍進を遂げた。彼らは論文の中で、この分野で初めて使用される「スケーラブルな」トレーニング手法を使用するフレームワークを詳しく説明したのだ。研究者らは、2D 画像でトレーニングすると、フレームワークは既存のモデルよりも一貫して優れた 3D 形状を生成できると述べており、これは 3D モデルの作成経験が不足しているビデオ ゲーム開発者、e コマース企業、アニメーション企業にとっては朗報です。

具体的には、研究者らは、ディスプレイデータから画像を生成できる、完全に機能する産業用レンダラーを活用しようとしました。これを実現するために、研究者らは 3D 形状の生成モデルをトレーニングし、形状をレンダリングして 2D データセットの分布に一致する画像を生成するようにしました。ジェネレーター モデルは、ランダムな入力ベクトル (データセットの特徴を表す値) を受け取り、3D オブジェクトの連続ボクセル表現 (3D 空間のグリッド上の値) を生成します。次に、ボクセルは微分不可能なレンダリング プロセスに送られ、既存のレンダラーを使用してレンダリングする前に、離散値にしきい値が設定されます。

つまり、これは 3D 形状生成モデルによって生成された連続ボクセル グリッドを直接レンダリングする新しいプロキシ ニューラル レンダラーです。研究者らが説明しているように、3D メッシュ入力が与えられた場合、市販のレンダラーのレンダリング出力と一致するようにトレーニングする必要があります。

生成的敵対ネットワーク (GAN) は 2D 画像データの生成において優れた結果を示しており、ゲームなどの多くの視覚アプリケーションでは、画像だけでなく 3D モデルを入力として必要とします。ただし、既存の GAN モデルを 3D に直接拡張するには、3D トレーニング データを取得する必要があります。

Leifeng.com 注: 上の画像は、Microsoft モデルによって生成された 3D キノコ画像です。

実験中、研究チームは上記のジェネレーターに3D畳み込みGANアーキテクチャを採用しました(GANは2部構成のAIモデルで、分散サンプリングを使用してランダムノイズから合成例を生成し、これらの例をトレーニングデータセット内の実際の例と一緒に識別器に入力して、2つを区別しようとするジェネレーターが含まれます)。 3D モデルと実際のデータセットに基づいて生成されたデータセットは、さまざまなオブジェクト カテゴリからの画像を合成し、トレーニング プロセス全体を通じてさまざまな角度からレンダリングできます。

研究者らはまた、このフレームワークは画像から照明と陰影の情報も抽出し、各トレーニングサンプルからより意味のあるデータを抽出し、そのデータに基づいてより良い結果を生み出すことができると述べている。自然画像のデータセットでトレーニングした後、フレームワークは現実的なサンプルを生成できます。さらに、このフレームワークは、表面間の露出の違いを利用して凹面物体の内部構造を検出することができ、凹部や中空空間を正確に捉えることができます。

色、材質、照明などの情報をシステムに組み込むことで、将来的にはこの情報をより「通常の」現実世界のデータセットと一緒に使用できるようになります。

<<:  5分でトップ10の機械学習アルゴリズムを学ぶ

>>:  「ブラックスワン」の翼の下で:情報戦場におけるAIの光と影

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

フランスのヒューマノイド ロボット Reachy は、オープン ソース + モジュール式で、最も複雑な Raspberry Pi ロボットの 1 つです。

Raspberry Pi は、小さなおもちゃの車から産業用ロボットアームに至るまで、あらゆるものに...

英国最高裁:AIは「発明者」として記載できない

英国最高裁判所は12月21日、特許出願において人工知能(AI)を発明者として記載することはできないと...

...

余分な指などのバグを解決できる「人間のような」AI画像作成モデルをMetaがリリース

米国現地時間6月14日火曜日、Facebookの親会社Metaは、研究者に新しい「人間のような」人工...

テンセント、初のAI+医療製品「テンセントミイン」の発売を発表

テンセントは本日、初のAI医療支援診断・治療オープンプラットフォーム(以下、AI支援診断オープンプラ...

CVとNLPにおける対照学習の研究の進展

[[423166]]対照学習(CV)比較学習は何をするのでしょうか?教師ありトレーニングの典型的な問...

上場企業141社がAIに騙された! Googleは偶然共犯者になる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ApolloとCarSim/TruckSimの共同シミュレーション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

ハイパーオートメーションの旅を始めましょう: 仕事のやり方を変え、運用プロセスを簡素化しましょう

最近の調査によると、より複雑な作業をインテリジェントな自動化に任せることを計画している企業の数は、今...

エッジ AI ソフトウェア市場は 2023 年までに 11 億 5,000 万ドルに達する見込み

市場調査会社MarketsandMarketsによると、世界のエッジ人工知能(エッジAI)ソフトウェ...

自動運転チップの秘密を解明

インテリジェントコネクテッドビークル時代の到来により、自動運転技術が業界の注目を集めるようになりまし...

ディープ ニューラル ネットワークを構築するための 20 の「未熟な」ヒント

当社の機械学習ラボでは、数多くの高性能マシンで何万時間ものトレーニングを行って豊富な経験を蓄積してき...

...