2D画像が3Dになる、マイクロソフトの新しいAIフレームワークはゲーム業界に恩恵をもたらすかもしれない

2D画像が3Dになる、マイクロソフトの新しいAIフレームワークはゲーム業界に恩恵をもたらすかもしれない

Leifeng.com 注: 上の画像は、Microsoft モデルによって生成された 3D ソファ、椅子、バスタブの画像です。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

Facebook や Nvidia などの企業の AI 研究室や、Threedy.AI のようなスタートアップ企業を含め、2D 画像を 3D 形式に変換する試みは数多く行われてきました。最近、マイクロソフトの研究チームも、構造化されていない 2D 画像に基づいて 3D 形状画像を生成する能力を実証するプレプリント論文を発表しました。

通常、このようなフレームワークをトレーニングするには、ラスタライズによる差分ステップ レンダリングを実行する必要があるため、この分野でのこれまでの取り組みでは、カスタム レンダリング モデルの開発に重点が置かれてきました。しかし、このようなモデルで処理された画像はリアルでも自然でもなく、ゲームやグラフィック業界向けの産業用レンダリングの生成には適していません。

マイクロソフトの研究者たちは今回、新たな躍進を遂げた。彼らは論文の中で、この分野で初めて使用される「スケーラブルな」トレーニング手法を使用するフレームワークを詳しく説明したのだ。研究者らは、2D 画像でトレーニングすると、フレームワークは既存のモデルよりも一貫して優れた 3D 形状を生成できると述べており、これは 3D モデルの作成経験が不足しているビデオ ゲーム開発者、e コマース企業、アニメーション企業にとっては朗報です。

具体的には、研究者らは、ディスプレイデータから画像を生成できる、完全に機能する産業用レンダラーを活用しようとしました。これを実現するために、研究者らは 3D 形状の生成モデルをトレーニングし、形状をレンダリングして 2D データセットの分布に一致する画像を生成するようにしました。ジェネレーター モデルは、ランダムな入力ベクトル (データセットの特徴を表す値) を受け取り、3D オブジェクトの連続ボクセル表現 (3D 空間のグリッド上の値) を生成します。次に、ボクセルは微分不可能なレンダリング プロセスに送られ、既存のレンダラーを使用してレンダリングする前に、離散値にしきい値が設定されます。

つまり、これは 3D 形状生成モデルによって生成された連続ボクセル グリッドを直接レンダリングする新しいプロキシ ニューラル レンダラーです。研究者らが説明しているように、3D メッシュ入力が与えられた場合、市販のレンダラーのレンダリング出力と一致するようにトレーニングする必要があります。

生成的敵対ネットワーク (GAN) は 2D 画像データの生成において優れた結果を示しており、ゲームなどの多くの視覚アプリケーションでは、画像だけでなく 3D モデルを入力として必要とします。ただし、既存の GAN モデルを 3D に直接拡張するには、3D トレーニング データを取得する必要があります。

Leifeng.com 注: 上の画像は、Microsoft モデルによって生成された 3D キノコ画像です。

実験中、研究チームは上記のジェネレーターに3D畳み込みGANアーキテクチャを採用しました(GANは2部構成のAIモデルで、分散サンプリングを使用してランダムノイズから合成例を生成し、これらの例をトレーニングデータセット内の実際の例と一緒に識別器に入力して、2つを区別しようとするジェネレーターが含まれます)。 3D モデルと実際のデータセットに基づいて生成されたデータセットは、さまざまなオブジェクト カテゴリからの画像を合成し、トレーニング プロセス全体を通じてさまざまな角度からレンダリングできます。

研究者らはまた、このフレームワークは画像から照明と陰影の情報も抽出し、各トレーニングサンプルからより意味のあるデータを抽出し、そのデータに基づいてより良い結果を生み出すことができると述べている。自然画像のデータセットでトレーニングした後、フレームワークは現実的なサンプルを生成できます。さらに、このフレームワークは、表面間の露出の違いを利用して凹面物体の内部構造を検出することができ、凹部や中空空間を正確に捉えることができます。

色、材質、照明などの情報をシステムに組み込むことで、将来的にはこの情報をより「通常の」現実世界のデータセットと一緒に使用できるようになります。

<<:  5分でトップ10の機械学習アルゴリズムを学ぶ

>>:  「ブラックスワン」の翼の下で:情報戦場におけるAIの光と影

ブログ    
ブログ    
ブログ    

推薦する

...

GPT-4 Turbo が Microsoft Copilot に搭載されるようになりました。アクセス可能かどうかを確認する方法は次のとおりです。

開発者、ライター、または AI 愛好家であれば、ChatGPT の開発元である OpenAI の最新...

IoT生体認証は職場でより大きな役割を果たす

組織はセンサーや監視を通じて職場のセキュリティと従業員の安全性を向上させるために生体認証を使用できま...

...

オープンソースツール | データサイエンスのための Python 入門

[[248716]]データ サイエンスの力を活用するために高価なツールは必要ありません。これらのオー...

地球は思考しており、人間は単なるニューロンです。科学者は初めて「惑星知性」を提唱した

生態圏が進化すると、地球は独自の生命を獲得しました。惑星が独自の生命を持つことができるなら、独自の知...

Upscayl、最先端のAI画像拡大技術

デジタル時代では、画像はどこにでもあります。ソーシャル メディアで写真を共有する場合でも、ビジネスの...

もう学べないの? MIT CSおよびEEオンラインコースが利用可能になりました

[[320783]]流行病のため、MIT学長は3月初旬に残りの授業をすべてオンラインに移行するという...

量子コンピューティング + 人工知能 - これが未来のテクノロジーの最大のホットスポットです!

[[219586]] 1990年代初頭、ウィチタ州立大学の物理学教授エリザベス・バーマンが量子物理...

GAN は教師なし表現学習に使われており、その効果は今でも驚くべきものです...

全能の GAN がまたひとつの丘を征服しました。近年、DeepMindが提案したBigGANなど、G...

...

人工知能の登場により、将来も仕事を見つけることができるのでしょうか?

そんな噂もあるんですね。ヘンリー・フォード2世(フォード・モーター社の創設者ヘンリー・フォードの孫)...

...

顔認識を使用してアバターにマスクとゴーグルを自動的に追加する方法

アバターにマスクとゴーグルを追加するプロジェクトアドレス: https://github.com/E...

エンジニアがソフトロボットを制御する空気圧式コンピュータメモリを開発

海外メディアの報道によると、カリフォルニア大学リバーサイド校のエンジニアらが、ソフトロボットの動きを...