AIコンテンツゼロ!純粋なランダム数学は現実的な3D世界を無限に生成する、プリンストン大学の中国人による研究

AIコンテンツゼロ!純粋なランダム数学は現実的な3D世界を無限に生成する、プリンストン大学の中国人による研究

画像や動画の生成には AI に頼らなければならないと誰が言ったのでしょうか?

プリンストン大学の新しいアーティファクトは、「AIなし」に特に重点を置いて、限りなくリアルな3D世界を生成できます。

この効果を見てみましょう:




生成されるのは単なるビデオだと思わないでください。実際は、モデリング ソフトウェア Blender に基づいて構築された完全な 3D アセット セットです。

この時点で、Blender ユーザーは全員私にこう言いました。「えっ?」

このように、パラメータを使用して詳細を制御できます。

または、対応するオプティカルフローマップ、3D シーンオプティカルフローマップ、深度マップ、パノラマセグメンテーションマップなどを取得し、さまざまな CV タスクを簡単に処理できます。

最も重要なのは、無料かつオープンソースであることです。

お母さんは、私が AI に与えるための高品質の 3D データを見つけられないことをもう心配する必要はありません...

100%ランダムな数学ベースの3Dデータジェネレータ

AI は急速に発展しているにもかかわらず、CV 分野の多くのタスクでは、特に 3D の高品質データがまだ不足しています。

解決策の 1 つは、合成データを使用することです。このタイプのデータでトレーニングされたモデルは、ゼロショットの実際の画像でも優れたパフォーマンスを発揮することがわかりました。

問題は、既存の無料の 3D 合成データ ツールのほとんどが、自動運転関連または屋内環境にある人工物のいずれか 1 つのシナリオに限定されていることです。

そこで、特に現実世界の自然シーンを対象に範囲を広げるために、ランダムな数学的ルールに基づいてさまざまなシーンを無限に生成できるBlenderをベースにしたInfinigenを作者は作成した。

Infinigen は主に Blender の「プリミティブ」 (またはプリミティブ)を使用してプログラム ルール ライブラリを設計し、コーディングを通じて実際の自然シーン内のさまざまなオブジェクトの生成を完了します。

この論文では、主に以下の内容を含む Infinigen プログラム システムを紹介しています。

  • Node Transpilerは、Blender ノード グラフを Python コードに自動的に変換し、プログラマー以外のユーザーでも Infinigen を簡単に使用できるようにします。

下の図に示すように、生成されるコードはより一般的なものとなり、入力パラメータとグラフ構造の両方をランダム化できるようになります。

  • ジェネレーター サブシステム、Infinigen のジェネレーターは確率ベースのプログラムであり、それぞれがサブオブジェクト(山や魚など)の生成に専念しています。各オブジェクトには、一連の高レベル パラメーター(山の合計高度など)があり、ユーザーは Python API を使用してこれを調整し、データ生成を細かく制御できます。
  • マテリアル ジェネレーターは合計 50 個あり、それぞれが色と反射率を指定するランダム シェーダーと、対応する細かい幾何学的詳細を生成するローカル ジオメトリ ジェネレーターで構成されています。

下の図に示すように、非常にリアルな幾何学的詳細を確保できます。


  • 以下に示すように、地形ジェネレーターは、Blender の組み込みプラグインを使用して、押し出しを繰り返して岩や小さな岩を生成できます。

また、Infinigen が FLIP を使用して動的流体をシミュレートし、Blender のパーティクル システムを使用して天候をシミュレートするのを支援しました。

  • 植物と水中オブジェクト ジェネレーター。ランダム ウォークなどのアルゴリズムを使用して木の成長をモデル化し、さまざまな木、低木、さらにはサボテンで覆われた 3D の世界を実現します。

または、微分成長、ラプラス成長、反応拡散を使用してさまざまなサンゴを作成し、幾何学的ノード グラフを使用して葉、花、海藻、昆布、軟体動物、クラゲを生成します。

他にも様々なサブジェネレータ(生物ジェネレータなど)がありますが、一つ一つ紹介することはしません。

これらに加えて、Infinigen には画像レンダリングおよびグラウンド トゥルース抽出プログラムも含まれており、主に以下に示すタイプの画像を生成するために使用されます。

前者の場合、システムは Blender の自然ベースのパス トレーシング レンダラー Cycles を使用して画像をレンダリングします。

著者は、Infinigen の手続き型ルールは Blender を使用して開発されたが、手続き型生成の大部分は Blender の外部で行われたと説明しています。

さらに、Infinigen の構築には膨大な量のソフトウェア エンジニアリングが必要であり、そのコード ベースのメイン ブランチだけでも40,485 行のコードが含まれているとも述べています。

最後に、Infinigen は 2 つの Intel Xeon Silver 4114 @ 2.20GHz CPU と 1 つの NVidia GPU でベンチマークされ、1080p 画像のペアを生成するのに3.5 時間ウォールタイムがかかりました。

次の表は、既存の合成データセットまたはジェネレータと比較したものです。

著者は、このことから、Infinigen の最大の利点は、外部参照リソース ライブラリなしで無制限の自然な 3D データを手順的に生成できることであり、他にはできないことであると述べています。

チームについて

Infinigen は今週水曜日の CVPR カンファレンスでポスター形式でその成果を発表する予定です。

著者は全員、プリンストン大学の Vision & Learning Lab 所属です。

3人の共同筆頭著者のうちの1人は、プリンストン大学の博士課程3年生で、2020年に清華大学で電子工学の学士号を取得した馬澤宇氏です。

責任著者は、プリンストン大学コンピューターサイエンス学部の准教授である Jia Dengです。

現在、Infinigen のコードは GitHub で公開されており、わずか 2 日間で 850 個のスターを獲得しています。

論文の宛先:
https://arxiv.org/abs/2306.09310プロジェクトのホームページ:
https://infinigen.org/
GitHub アドレス:
https://github.com/princeton-vl/infinigen

<<:  すべてのオープンソースモデルを超え、クロードとバードを破り、プログラミングタスク専用の大規模モデルが登場

>>:  AI人材の世界的な需要が急増、一部の職種では年間40万ドル近くを稼ぐ

ブログ    
ブログ    
ブログ    

推薦する

AI陣営を理解するためのチャート: AIを学んで間違った側に立つと自滅につながる可能性がある

AIにはさまざまな手法があります。私たちがよく知っている「5大流派」に加え、この記事の著者はAIのさ...

Transformerの本質的欠陥を解決する:復旦大学らが提案した線形複雑性SOFT

[[437909]] Visual Transformer (ViT) は、パッチ単位の画像トーク...

DeepMindがニューラルネットワークと強化学習ライブラリをリリース、ネットユーザー:JAXの開発を促進

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

将来の戦争において、AIは最も危険な兵器となるのでしょうか?

AI兵器は歴史の流れとともに進化し、今日では危険な一歩となっている。 [[406883]] AIは...

...

5G、自動運転、人工知能はどの段階にあるのでしょうか?一枚の写真でわかる

世界で最も権威のあるIT市場調査・コンサルティング会社であるガートナーは8月29日、新技術の2019...

口の中に124個のセンサーを埋め込み、Google Glassの創設者の新プロジェクト:舌でメッセージを送信

不運なGoogle Glassはスマートデバイスの波の中で大きなインパクトを与えることはできなかった...

ドローンのインターネット: IoT がさまざまな業界のユースケースをサポートする方法

ドローンは長い間、高価な軍事用途に関連付けられてきましたが、現在では商業分野でも使用されることが増え...

あるいは人間の目よりも鮮明です!世界初の3D人工眼球が発売され、何百万人もの人々が視力を取り戻す

[[327384]] 5月24日、メディアの報道によると、香港科技大学の研究者らがネイチャー誌に発表...

縮小版のOpenAIの新しいテキスト生成画像モデルGLIDEは、DALL-Eに匹敵する35億のパラメータを持つ。

[[441688]]モデルのパラメータサイズはそれほど大きくする必要はありません。今年初めにOpe...

2日間で星の数が1,000を突破:OpenAIのWhisperの蒸留後、音声認識が数倍高速化

少し前に、「テイラー・スウィフトが中国語を披露」する動画がさまざまなソーシャルメディアプラットフォー...

...

モジュラー大型モデルが登場! IBMがWatsonXコアアーキテクチャの技術的詳細を公開

大規模言語モデル (LLM) は強力なパフォーマンスを備えていますが、既存のモデルのトレーニングと展...

現在のディープニューラルネットワークモデルの圧縮と加速方法の概要

[[208162]]大規模なニューラル ネットワークには多数のレイヤーとノードがあるため、特にオンラ...

化粧品は顔認識技術を騙せるのか?

[[424943]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...