ネオは、自分が住んでいる世界が現実ではなく、綿密に設計されたシミュレーションであることを発見します。 私たちが住んでいる世界はシミュレートされたマトリックスの世界であると思った瞬間があったでしょうか? そして今、マトリックスが正式にオープンしました。 人類が長きにわたり暮らしてきたこの地球も、自然界のすべても幻想に過ぎないということを冷静に感じてください。 北極の氷河の上に太陽が昇ります。水中の世界には、さまざまな珍しい魚や色とりどりのサンゴ礁が満ちています。 山々には雪が降り、広大な空には鷲が舞い上がっています。灼熱の砂漠では、危険なヘビが自由に歩き回っています。 川沿いの小さな木々が燃えて煙が充満していた。 海や川は透き通っていて、ビーチでは亀がのんびりと日光浴をし、たくさんのトンボが空中で遊んでいます。 洞窟内の光と影の遊び。 雨粒が落ち、紅葉が風に舞い、時間が突然止まりました。 あなたが目にするものはすべて人工知能によって設計されています。彼らのシミュレーションは非常にリアルなので、誰もがそれを現実そのものと勘違いします。 このマトリックスのドアを開けたチームはプリンストン出身で、彼らの研究はインターネット上で瞬く間に騒動を引き起こした。 ネットユーザーたちは、私たちはマトリックスの中で生きていることが判明したと言っています。 論文の中で研究者らは、「Infinigen」と呼ばれる自然界のリアルな 3D シーン プロシージャル ジェネレーターを紹介しました。 Infinigen は、形状からテクスチャまで、すべてランダムな数学的ルールによってゼロから生成され、完全に手続き型です。 自然界の植物、動物、地形、火、雲、雨、雪などの自然現象まで、無限に変化することができます。 最新の論文がCVPR 2023に採択されました。 論文アドレス: https://arxiv.org/pdf/2306.09310.pdf Infinigen は、同じくオープンソースである無料のオープンソース グラフィック ツール Blender 上に構築されています。 1080p の画像 2 枚を生成するのにかかる時間はわずか 3.5 時間だということは注目に値します。 無制限の履歴書データジェネレータープリンストン大学が提案した Infinigen は、さまざまな特定のタスクに対して現実的なシナリオを生成するように簡単にカスタマイズできます。 以下のように、自然界に見られる多様性をシミュレートします。 その最も重要な機能は、幅広いコンピューター ビジョン タスク用の無制限のトレーニング データを生成するジェネレーターとして機能することです。 これらには、オブジェクト検出、セマンティックセグメンテーション、ポーズ推定、3D 再構築、ビュー合成、ビデオ生成が含まれます。 さらに、物理ロボットや仮想具現化エージェントをトレーニングするためのシミュレーション環境の構築にも使用できます。 もちろん、3D プリント、ゲーム開発、バーチャル リアリティ、映画制作、一般的なコンテンツ作成もすべて利用可能です。 次に、Infinigen システムがどのように設計されたかを見てみましょう。 Blender のプレビュー。 研究者らは、さまざまなプリミティブとユーティリティを提供するオープンソースの 3D モデリング ソフトウェアである Blender を主に使用して手順ルールを開発しました。 Blender は、配置されたオブジェクトの階層としてシーンを表します。 ユーザーは、オブジェクトを変換したり、プリミティブを追加したり、メッシュを編集したりすることで、この表現を変更します。 Blender は、最も一般的な 3D ファイル形式のインポート/エクスポートを提供します。 最後に、Blender のすべては、Python API を介して、またはオープン ソース コードを調べることによって自動的に実行できます。 ノードトランスパイラ。 Infinigen の一環として、研究者は手順モデリングを加速するための新しいツールセットを開発しました。 注目すべき例の 1 つは、図に示すように、ノード グラフを Python コードに自動的に変換する研究者のノード コンバーターです。 結果として得られるコードはより汎用的であり、研究者は入力パラメータだけでなくグラフ構造をランダム化することができます。 このツールにより、ノード グラフの表現力が高まり、Python または C++ で直接開発された他の手続き型ルールとの統合が容易になります。 また、ノード グラフを作成することで、プログラマー以外のユーザーも Infinigen に Python コードを提供できるようになります。 ジェネレータサブシステム。 Infinigen は、確率的プログラムであるジェネレーターで構成されており、各ジェネレーターは、資産の 1 つのサブクラス (山や魚など) を生成することに特化したものです。 各ジェネレータには、ユーザーが制御できる外部の自由度を反映する一連の高レベル パラメーター (山の全体の高さなど) があります。 デフォルトでは、研究者はユーザーからの入力なしに、自然界を反映するように調整された分布に基づいてこれらのパラメータをランダムにサンプリングします。 ただし、ユーザーは研究者の Python API を使用して任意のパラメータをオーバーライドし、データ生成を細かく制御することもできます。 下の画像は地形のみを含むランダムなシーンです。研究者たちは、さまざまな自然風景の画像 13 枚を選択しました。 これらは、山、上昇する川、雪山、海岸の日の出、水中、北極の氷山、砂漠、洞窟、峡谷、浮島です。 下の画像は、煙、滝、火山の噴火シーンなど、シミュレートされた火災をランダムに生成した画像です。 葉、花、キノコ、松ぼっくり。 木、サボテン、低木。 海洋生物。 さまざまなタイプの表面。 下の図は生物の発生を示しています。 研究者らは、さまざまなゲノム(a)、体の部分(b)、体の部分のスプライシング(c)、髪(d)、体の形(e)を自動的に生成しました。 画像の右側には、研究者によってランダムに生成された肉食動物、草食動物、鳥類、甲虫類、魚類が表示されています。 下の図では、研究者がプログラムによってランダムなシーンレイアウトを作成しています (a)。 研究者らは、必要なすべての画像コンテンツ(b、各メッシュ面の色を表示するために使用)を生成し、適用されたマテリアルと変位を適用しました(c)。 最後に実画像がレンダリングされます(d)。 次の図は、動的な解像度のスケーリングを示しています。 研究者たちは、異なるカメラ距離で同じコンテンツのクローズアップメッシュ視覚化を 3 つ示しました。 メッシュ解像度が異なっていても、最終画像には変化は見られません。 実験結果Infinigen を評価するために、研究者らは修正ステレオマッチング用のグラウンドトゥルースを含む 30,000 枚の画像ペアを作成しました。 研究者たちはこれらの画像でRAFTStereoのトレーニングを開始し、ミドルベリー検証セットとテストセットの結果を比較しました。 この研究コードは今日リリースされたばかりですが、すでに 99 個の星を獲得しています。 「ウエストワールド」のデジャブNvidia の科学者 Jim Fan 氏は、現実には適切なトレーニング データがない場合、シミュレーションが次の「金鉱」になると述べています。 ここで、Infinigen は、3D ビジョン用のオープンソースで、手順的に生成されたリアルなデータセットです。品質は素晴らしいです!二つとして同じ世界はありません。 ▸ 花びらの折り目まで、あらゆる細部がランダムかつカスタマイズ可能です。 ▸ 自然界からのさまざまなオブジェクトとシーン:植物、動物、地形、火、雲、雨、雪。 ▸ グラウンドトゥルースの自動注釈: オプティカルフロー、3D シーンフロー、深度、表面法線、パノプティックセグメンテーション、閉じた境界。 ▸ Blender で書かれています。 一部のネットユーザーは、これは本当に目を開かせてくれるものだと言っていました。 Blender で 3D ワールドを手順的に生成します。 AIを使わずに、想像できるあらゆる世界を創造することができます。 このようなツールを組み合わせて世界を作成し、Daz3D などのツールでキャラクターを作成し、Blockade Labs でスカイボックスを作成し、Convai で NPC を作成します。 インフィニゲンは人工知能のコンピュータービジョン研究で役割を果たすだろうと言う人もいます。 彼は将来、人工知能があらゆることを処理するようになると信じている。 たとえば、霧の森の中に滝のある村を作りたいとします。 AI に森林の詳細な説明を書くように指示し、それを 3D ワールド ジェネレーターに送信します。 世界が生成されると、村にキャラクターを追加できます。これらの人々は人工知能によって制御され、相互作用、会話、記憶を持つようになります。 ウエストワールドのような感じ。 また、インターネット上の誰かが、手続き型生成は 20 年ほど前から存在していると主張していました (私は 15 年ほどこれをやっています)。 「No Man's Sky」は5年前の技術の良い例です。 Infinigen のハイライトは、ラベル付きデータを生成することです。このデータは AI のトレーニングに使用できます。それはおかしい。 一部のネットユーザーは、近い将来、ゲームがクレイジーになるだろうと想像しています...「独立系」ゲーム開発者がクレイジーなハイエンドコンテンツをリリースできるようになるでしょう。 Infinigen で生成された画像は非常にリアルなので、Unreal Engine で生成されたのではないかと思った人もいました。 著者についてアレクサンダー・ライストリック Alexander Raistrick 氏は、プリンストン大学コンピューターサイエンス学部の博士課程 2 年目で、指導教官は Jia Deng 氏です。 ラハフ・リプソン ラハフ・リプソンはプリンストン大学の博士課程3年生です。 彼の研究は、エピポーラ幾何学に関する強力な仮定を活用して、より優れた一般化とテスト精度を実現する 3D ビジョン用のディープ ネットワークの構築に重点を置いています。 ゼユ・マ Zeyu Ma は、プリンストン大学のビジョンと学習研究室の 3 年目の博士課程の学生です。彼は2020年に清華大学で電子工学の学士号を取得しました。現在の研究は、マルチビュー 3D 再構築と手続き型データ生成に焦点を当てています。 |
<<: 史上最大のチューリングテスト実験が完了! 150万人が1000万回の会話に参加し、相手が人間かAIかを判断した。
[[414012]] 「顔認識技術を用いた個人情報処理に関する民事訴訟における法律適用の若干の問題に...
最も先進的な AI テクノロジーは、最も広く使用されているモバイル チップに使用されています。最近、...
人工知能は、車の運転、バーでのミキシング、戦争など、驚くべきことを行っていますが、ロボットマスクが脚...
現在のディープラーニング フレームワークに関しては、TensorFlow と PyTorch を避け...
アルゴリズム1: クイックソートアルゴリズムクイックソートは、Tony Hall によって開発された...
楽しいボードゲームとして誕生してから 100 年経った今、数独はどのようにして計算研究の焦点となった...
黄金の3月と銀の4月の採用シーズンが再び到来しました。 [[324006]]疫病の影響を受け、キャン...
1. マルチモーダル大規模モデルの歴史的発展上の写真は、1956年にアメリカのダートマス大学で開催さ...
[[405993]]画像ソース: https://pixabay.com/images/id-449...
[[198915]]エンコーダー/デコーダー アーキテクチャは、多くの分野で最先端のパフォーマンスを...
大規模な事前トレーニング済み言語モデルと画像拡散モデル (Satble Diffusion など) ...
PyTorch でディープラーニング モデルをトレーニングする場合、モデルのトレーニングを高速化す...