2023年は人工知能が爆発的に成長する年となるでしょう。 赤は人工知能、青は機械学習を表す マイクロソフト、グーグル、メタなどのテクノロジー大手が、今年の研究結果をレビューしました。 Nvidia はコンピューティングパワーの販売により世界的な GPU リーダーとなったが、AI 研究でも劣ってはいない。 この点に関して、ジム・ファン氏自身が、2023 年の Nvidia の研究におけるトップ 10 のハイライトをまとめました。 トピックの主な分布: 具現化された AI (ロボット、仮想キャラクター) に関するものが 3 つ、3D 生成モデルに関するものが 2 つ、グラフィックス処理に関するものが 2 つ、画像生成に関するものが 2 つ、ビデオ生成研究に関するものが 1 つ。 TOP 1: 「神経質なアンジェロ」が16世紀にダビデ像を蘇らせたNvidia とジョンズ・ホプキンス大学の研究者が提案した新しい AI モデルは、ニューラル ネットワークを使用して 3D オブジェクトを再構築します。最新の研究はCVPR 2023にも採択されました。 論文アドレス: https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf 特に、Neuralangelo は携帯電話のビデオやドローンで撮影されたビデオから「高忠実度の大規模シーン」を再構築できます。 ニューラランジェロの研究は、TIME誌の「2023年のベスト発明200」の1つに選ばれました。 これまでの AI モデルでは、3D シーンを再構築する際に、反復的なテクスチャ パターン、均一な色、強い色の変化を正確にキャプチャすることが困難な場合がよくありました。 この目的のために、チームは、マルチ解像度 3D ハッシュ グリッドとニューラル サーフェス レンダリングの表現機能を組み合わせた、Neuralangelo と呼ばれる新しい方法を提案しました。 昨年、Nvidia の研究者は、写真を簡単に 3D オブジェクトに変換できる新しいツール「3D MoMa」を開発しました。 NeuralAngelo はこの概念に基づいて構築されており、より大きく詳細な空間やオブジェクトのインポートを可能にします。特別なのは、繰り返されるテクスチャパターン、均一な色、強い色の変化を正確に捉えることができることです。 NVIDIA Instant NeRF テクノロジの中核である「リアルタイム ニューラル グラフィックス プリミティブ」を使用することで、Neuralangelo はより微妙な詳細をキャプチャできます。 チームのアプローチは、2 つの重要な要素に依存しています。 (1)平滑化演算のための数値勾配として高次導関数を計算するために使用される。 (2)粗から細への最適化は、異なる詳細レベルを制御するハッシュグリッド上で実行される。 補助深度がなくても、NeuralAngelo は、従来の方法を大幅に上回る忠実度で、マルチビュー画像から高密度の 3D 表面構造を効果的に復元し、RGB ビデオ キャプチャから詳細な大規模シーンを再構築できます。 たとえば、Neuralangelo は、大理石のディテールと質感を生き生きと再現した、有名なダビデ像の 3D バージョンを「再現」しました。 フィレンツェ美術アカデミーに収蔵されているダビデ像は、高さがわずか 3.96 メートル、台座を含めると 5.5 メートルであることを知っておく必要があります。 屋根瓦やガラス板など、あらゆる細部に至るまで、建物の内装や外装を再現することもできます。 TOP 2: DreamFusionと比較すると、NVIDIAの3Dモデル生成速度は速いMagic3D は、テキストの説明から 3D モデルを生成できる AI モデルです。 論文アドレス: https://arxiv.org/pdf/2211.10440.pdf 「睡蓮の上に止まっている青いヤドクガエル」などのプロンプトを入力すると、Magic3D は約 40 分で色付きテクスチャを備えた 3D メッシュ モデルを生成しました。 Magic3D では、3D メッシュをヒントに基づいてリアルタイムで編集することもできます。生成されたモデルを変更する場合は、テキスト プロンプトを変更するだけで、新しいモデルがすぐに生成されます。 Google DreamFusion と同様に、Magic3D も低解像度で生成された粗いモデルを高解像度の細かいモデルに最適化します。結果として、Magic3D メソッドは DreamFusion よりも高速に 3D ターゲットを生成できます。 上記の Magic3D アーキテクチャ図からわかるように、Magic3D は入力テキスト プロンプトから「粗いものから細かいものへ」という方法で高解像度の 3 次元コンテンツを生成します。 生成プロセス全体は 2 つの段階に分かれています。 最初の段階では、研究チームは低解像度のテキスト画像拡散事前分布として eDiff-I を使用しました。初期の 3D 表現は、Instant NGP を最適化することによって得られます。 次に、低解像度の画像を繰り返しサンプリングしてレンダリングし、スコア蒸留サンプリングの損失を継続的に計算することで、Instant NGP をトレーニングします。 最適化後、DMTet を使用して、Instant NGP から粗いモデルが抽出され、ハッシュ グリッドとスパース アクセラレーション構造を使用して高速化されます。 この拡散事前分布は、64×64 の低解像度画像でレンダリングされた画像に定義された損失に従ってモデル化されたシーンの勾配を計算するために使用されます。 第 2 フェーズでは、研究チームは高解像度の潜在拡散モデル (LDM) を使用して、第 1 フェーズの大まかなモデルを継続的にサンプリングしてレンダリングしました。 インタラクティブ レンダラーは、512×512 の高解像度のレンダリング イメージを生成するように最適化されています。 TOP 3: 非常にリアルなヘアシミュレーション最近の技術の進歩にもかかわらず、髪の毛や毛皮のシミュレーションはアニメーションスタジオにとって依然として課題となっています。重力、風、相互作用を考慮することは計算集約的なタスクであり、リアルタイムで正確に実行することはできません。 NVIDIA の研究者は、GPU 上で髪のシミュレーションを計算する新しい方法である ADMM を実装し、その論文が SIGGRAPH 2023 で発表されました。 論文アドレス: https://research.nvidia.com/publication/2023-08_interactive-hair-simulation-gpu-using-admm 全体として、この研究は、AI を使用して現実世界での髪の毛の挙動を予測することを示しています。 以前の方法と比較して、パフォーマンスがより強力になり、下の図に示すように、髪の毛の複雑さに応じてインタラクティブなフレーム レートでシミュレーションを計算することもできます。 論文の研究者であるジル・ダヴィエ氏は、さまざまなシーンでテストした結果、髪の毛のシミュレーションには1フレームあたり0.18〜8秒かかったと説明した。 つまり、毛の数や長さ、衝突の処理方法など、さまざまな要因に応じて平均計算時間が長くなります。 メモリに関しては、シーンに応じて、シミュレーションに必要なメモリは 1 GB から 2 × 9.5 GB (デュアル GPU セットアップの場合) まで異なります。 この高速ヘアシミュレーション技術は、さまざまな目的に使用できます。 物理ベースの編集ツールを使用すると、弾力性と自己衝突の制約を維持しながら既存のヘアスタイルを調整できます。 彼が作成したデモ ツールは、「髪の長さや曲率を均一に拡大縮小したり、カット面に沿って髪の束をトリミングしたり、バネのような力を使って選択半径内の髪束を直接操作したり」することができます。 TOP 4: GPT-4 は AI エージェントに複雑なタスクの完了能力を与えるNVIDIA、ペンシルバニア大学、カリフォルニア工科大学、テキサス大学オースティン校などの専門家が、超人的なロボットの器用さを実現するために設計された報酬機能を備えたオープン インテリジェント エージェントであるオープン エージェント Eureka を提案しました。 論文リンク: https://arxiv.org/pdf/2310.12931.pdf NVIDIA などの研究機関の研究者が開発した Eureka システムにより、GPT-4 はロボットに基本的な動作を完了させる方法を直接教えることができます。 たとえば、ペン回しのテクニックなどです。 具体的には、GPT-4 の優れたゼロサンプル生成、コード生成、コンテキスト学習機能を最大限に活用した、GPT-4 を活用した報酬設計アルゴリズムです。生成された報酬は、強化学習を通じてロボットが複雑で特定のスキルを習得できるようにするために使用できます。 タスク固有のヒントや事前定義された報酬テンプレートがなくても、Eureka によって生成される報酬関数の品質は、すでに人間の専門家によって設計された報酬を上回っています。 具体的には、Eureka は 3 つの主要コンポーネントを含むコンテキスト内で報酬関数を開発することで、人間レベルの報酬設計を実現します。 - シミュレータ環境コードは、初期の「シード」報酬関数をすばやく開始するためのコンテキストとして機能します。 - GPU 上の超並列 RL により、多数の候補報酬を迅速に評価できます。 - 報酬反射は、状況に応じて標的を絞った報酬変異を生み出す可能性があります。 TOP 5: LDM を使用した高解像度ビデオ生成この論文では、潜在拡散モデル (LDM) を高解像度ビデオ生成タスクに適用する方法について説明します。 LDM は、低次元潜在空間で拡散モデルをトレーニングすることにより、高品質の画像合成を実現し、過度の計算要件を回避します。 論文アドレス: https://arxiv.org/pdf/2304.08818.pdf 研究者らは、LDM をビデオ生成に適用して微調整し、512 x 1024 解像度の運転ビデオで優れたパフォーマンスを達成しました。 さらに、研究者らは既存のテキストから画像への LDM モデルを効率的で正確なテキストからビデオへのモデルに変換し、パーソナライズされたテキストからビデオへの生成の結果を実証しました。 具体的には、このモデル生成の全体的なプロセスは次のようになります。まずキーフレームを生成し、次に拡散モデルを使用してフレームを補間し、隣接するフレームの潜在値を補間フラグメントの両端として保持し、中央に挿入するフレームの潜在値をノイズで初期化します。 次にデコーダーを通過してビデオが生成され、超解像度モジュールが使用されます。 長いビデオと補間フレームを生成する場合、マスク条件法が使用されます。これは、特定のコンテキスト フレーム潜在情報を与えることで、バイナリ マスクを使用してマスクされたフレーム潜在情報を予測するものです。長いビデオは反復法によって生成できます。 結果として得られるビデオの解像度は 1280 x 2048 ピクセルで、113 フレームで構成され、24 fps でレンダリングされ、長さ 4.7 秒のクリップになります。 テキストからビデオを生成するための当社のビデオ LDM は、安定した拡散に基づいており、クリップテキスト エンコーダーを除くすべてのコンポーネントを含む合計 41 億個のパラメーターを備えています。 これらのパラメータのうち、ビデオを使用してトレーニングされたのは 27 億のみです。 特定のユースケースでは、たとえば、マルチモーダル運転シナリオ予測を実行できます。 関連する可能性のある別のアプリケーションとして、研究者は同じ開始フレームを取得して、複数の妥当なロールアウトを生成できます。以下の 2 つのビデオ セットでは、合成は同じ初期フレームから始まります。 TOP 6: テキストプロンプトでマテリアルを生成し、あらゆる表面にシームレスにマテリアルをコピーします プロジェクト紹介: https://blogs.nvidia.com/blog/siggraph-research-generative-ai-materials-3d-scenes/ NVIDIA の研究者は、アーティストが 3D シーンを迅速に反復処理するのに役立つ生成 AI モデルのデモンストレーションにより、SIGGRAPH ライブ イベントで Best of Show 賞を受賞しました。 デモンストレーションでは、Nvidia の研究者がリビングルームのシナリオでこれを実演しました。 研究者たちは OpenUSD を使用して、レンガの質感の壁を追加し、ソファやクッションの生地オプションを作成および変更し、壁の特定の領域に抽象的な動物のデザインを組み込みました。 建築、ゲーム開発、インテリアデザインなどのクリエイティブ業界では、これらの機能により、アーティストはアイデアを素早く検討し、さまざまな美学を試して、シーンの複数のバージョンを作成できます。 この完全に物理ベースのマテリアル生成機能は、NVIDIA の Picasso ベース モデル プラットフォームを通じて提供されます。 NVIDIA Picasso ベース モデル プラットフォームを使用すると、エンタープライズ開発者、ソフトウェア作成者、サービス プロバイダーは、画像、ビデオ、3D、360 HDRi のベース モデルをトレーニング、微調整、最適化、推論して、ビジュアル デザインのニーズを満たすことができます。 TOP 7: CALM - 操作可能な仮想キャラクターを訓練して物理シミュレーションでアクションを実行させる方法プロジェクトアドレス: https://research.nvidia.com/labs/par/calm/ CALM は、ユーザーが制御するインタラクティブな仮想キャラクターに対して、多様で指示可能な動作を生成する方法です。 CALM は模倣学習を通じて、人間の動きの複雑さと多様性を捉える動きの表現を学習し、キャラクターの動きを直接制御できるようにします。 このアプローチでは、制御ポリシーとモーション エンコーダーを共同で学習し、特定のモーションを単にコピーするのではなく、その主要な特徴を再構築できます。 結果は、CALM が、より高レベルのタスク トレーニングのために生成されたモーションとスタイルの調整の制御を可能にする意味的なモーション表現を学習することを示しています。 CALM は 3 つの部分で構成されています。 低レベルのトレーニング中に、CALM はエンコーダーとデコーダーを学習します。エンコーダーは、モーション参照データセットからモーションジョイント位置の時系列を取得し、それを低次元の潜在表現にマッピングします。 さらに、CALM はデコーダーも共同で学習します。デコーダーは、シミュレータと対話し、参照データセットに類似したモーションを生成する低レベルのポリシーです。 第2段階: 方向制御 研究者らは、動きの方向を制御するために、潜在変数を選択するための高レベルのタスク駆動型ポリシーをトレーニングしました。 これらの潜在変数は、要求されたアクションを生成する低レベルのポリシーに入力されます。 ここで、学習された動作表現は、何らかの形のスタイル調整を実現できます。これを実現するために、モーション エンコーダーを使用して、要求されたモーションの潜在表現を取得します。 次に、選択された潜在変数と要求されたスタイルを表す潜在変数間のコサイン距離に比例する追加の報酬を提供することにより、高レベルのポリシーは、望ましい行動スタイルを採用するように誘導されます。 ステージ3: 推論 最後に、以前にトレーニングされたモデル (低レベルのポリシーとステアリング コントローラー) を組み合わせて、追加のトレーニングなしで複雑なアクションを構成します。 これを行うには、ユーザーは標準のルールとコマンドを含む有限状態マシン (FSM) を生成します。ユーザーがビデオゲームのキャラクターを制御する方法と同様に、実行されるアクションを決定します。 たとえば、開発者は (a)「しゃがんでターゲットに向かって歩き、距離が 1 メートル未満になる」、次に (b)「キック」、最後に (c)「祝う」といった FSM を構築できます。 TOP 8: ゲーム動画を通じて仮想キャラクターにテニスのスキルを学ばせるプロジェクトアドレス: https://research.nvidia.com/labs/toronto-ai/vid2player3d/ Nvidia の研究者は、放送ビデオから収集されたテニスの試合のデモンストレーションの大規模なコレクションから、物理的にシミュレートされたさまざまなテニスのスキルを学習できるシステムを発表しました。 彼らのアプローチは、低レベルの模倣戦略と高レベルのモーション プランニング戦略を組み合わせた階層モデルに基づいており、放送ビデオから学習したモーション埋め込み内でキャラクターを誘導します。 研究者の手法は、現実世界のテニスの試合の多数の例を含む大規模なビデオコレクションに大規模に展開すると、複雑なテニスのショットの仕組みを学習し、ショットの種類の明示的な注釈なしで、単純な報酬のみを使用して、複数のショットを現実的にリンクして拡張された試合にすることができます。 放送ビデオから抽出された低品質の動きに対処するために、研究者は物理ベースの模倣によって推定された動きを修正し、学習した動きの埋め込みの誤った側面を高レベルのポリシーによって予測された修正で上書きするハイブリッド制御戦略を使用します。 このシステムは、ラケットとボールのダイナミクスをシミュレートすることで、物理的にシミュレートされた 2 人のキャラクターを合成し、長時間のテニス ゲームをプレイできます。 このシステムは 4 つの段階で構成されています。まず、研究者らは、2D および 3D のプレーヤーのポーズとグローバル ルート軌道を推定してモーション データセットを作成しました。 次に、低レベルの模倣ポリシーをトレーニングして、モーション データを模倣し、シミュレートされたキャラクターの低レベルの動作を制御し、物理的に修正されたモーション データセットを生成します。 次に、研究者らは条件付き変分オートエンコーダー(VAE)を修正されたモーションデータセットに適合させ、人間のようなテニスの動きを生み出す低次元のモーション埋め込みを学習します。 最後に、モーション埋め込みによって出力された体の動きと、キャラクターの手首の動きに対する予測された修正を組み合わせて、ターゲットのモーションポーズを生成するように、高レベルのモーション計画ポリシーがトレーニングされます。 このターゲット アクションは、低レベルのポリシーによって模倣され、物理的にシミュレートされたキャラクターを制御して、目的のタスクを実行します。 TOP 9: 効率的で高品質なメッシュ最適化手法 - FlexiCubesプロジェクトアドレス: https://research.nvidia.com/labs/toronto-ai/flexicubes/ この研究は勾配ベースのメッシュ最適化に関するものです。研究者らは、写真測量、生成モデリング、逆物理学などのアプリケーションでますます一般的になりつつあるパラダイムであるスカラー場の等値面として表現することにより、3D サーフェス メッシュを反復的に最適化しました。 既存の実装では、従来の等値面抽出アルゴリズムが使用されています。これらの手法は、固定された既知のフィールドからメッシュを抽出するように設計されており、最適化設定では、高品質の特徴保持メッシュを表現するための自由度が不足していたり、数値的不安定性に悩まされたりします。 研究者らは、幾何学的、視覚的、さらには物理的な目的に関して未知のメッシュを最適化するために特別に設計された等値面表現である FlexiCubes を提案しています。 研究者らは、慎重に選択された追加のパラメータを表現に導入し、抽出されたメッシュの形状と接続性をローカルかつ柔軟に調整できるようにしました。 下流のタスクを最適化する場合、これらのパラメータは、自動微分によって基礎となるスカラー フィールドとともに更新されます。この抽出方式は、トポロジ特性を改善するためのデュアルマーチングキューブに基づいており、四面体および階層的適応メッシュを選択的に生成するための拡張が提案されています。 研究者らは広範囲にわたる実験を通じて、合成ベンチマークと実際のアプリケーションで FlexiCube を検証し、メッシュ品質と幾何学的忠実度が大幅に向上することを示しました。 具体的には、FlexiCubes は、幅広いアプリケーションでシンプルかつ効率的で高品質のメッシュ最適化を可能にする 2 つの大きな利点を提供します。 漸進的最適化: グリッド導関数は明確に定義されており、勾配ベースの最適化は実際には効率的に収束します。 柔軟性: メッシュの頂点を個別にローカルに調整して表面の特徴に適応させ、要素数が少ない高品質のメッシュを見つけることができます。 微分可能レンダリングによる写真測量 微分可能等値面技術 DMTet は、画像の形状、材質、照明を共同で最適化する最近の研究 nvdiffrec の中核をなしています。 トポロジー最適化ステップで DMTet を FlexiCube に置き換えるだけで、パイプラインの残りの部分は変更せずに、三角形の数が同じでもジオメトリの再構築が改善されることがわかります。 3Dメッシュ生成 最近の 3D 生成モデル GET3D は、3D 表現を 2D 画像に差分レンダリングし、生成的敵対フレームワークを活用して、2D 画像の監視のみを使用して 3D コンテンツを合成します。 FlexiCubes は、3D 生成モデルでプラグアンドプレイの微分可能なメッシュ抽出モジュールとして機能し、メッシュの品質を大幅に向上させます。 微分可能な物理シミュレーションに四面体メッシュを使用する FlexiCube は四面体メッシュを差分的に抽出できます。均一テッセレーションにより、微分可能な物理シミュレーション フレームワーク (gradSim) および微分可能なレンダリング パイプライン (nvdiffrast) と組み合わせて、マルチビュー ビデオから 3D 形状と物理パラメータを共同で復元できます。 ここで研究者らは予備的な結果を提示しています。変形する物体のビデオシーケンスが与えられると、静止姿勢の四面体メッシュと、シミュレーションで動きを再現する材料パラメータを復元できます。 アニメーションオブジェクトのメッシュの簡素化 FlexiCubes では、単一のメッシュを基準ポーズに合わせるのではなく、既成のスキニング ツールを使用してメッシュをさまざまな方法でスキニングおよび変形し、同時にアニメーション シーケンス全体に対して最適化することができます。 アニメーション全体のエンドツーエンドの最適化により、三角形の密度を再分配してメッシュの伸縮を回避できます。 グリッド正規化の追加 FlexiCubes 表現は柔軟性が高く、抽出されたメッシュ自体に依存する目的関数と正規化子を自動微分によって直接評価し、勾配ベースの最適化に組み込むことができます。 研究者らは、パネルの製造可能性を高めるために、抽出されたメッシュに展開可能性の条件を適用しました。 トップ 10: エキスパート デノイザー コレクションを使用したテキストから画像への拡散プロジェクトアドレス: https://research.nvidia.com/labs/dir/eDiff-I/ Nvidia の研究者は、テキストに基づいて画像を合成するための拡散モデルである eDiff-I を提案しました。 拡散モデルの動作はサンプリング段階によって異なるという経験的観察に着想を得て、研究者らは、それぞれが特定のノイズ間隔に特化した一連の専門的なノイズ除去ネットワークをトレーニングします。 T5 テキスト埋め込み、CLIP 画像埋め込み、CLIP テキスト埋め込みを条件として、モデルは任意の入力テキスト プロンプトに対応するリアルな画像を生成できます。 テキストから画像への合成に加えて、次の 2 つの追加機能も提供しています。 (1)スタイル転送、参照スタイル画像を使用して生成されたサンプルのスタイルを制御することを可能にする (2)「Painting with Text」は、キャンバス上にセグメンテーションパターンを描くことで画像を生成できるアプリケーションで、希望する画像を作成するのに非常に便利です。 モデルのワークフローは、3 つの拡散モデルのカスケードから構成されます。 64x64 解像度のサンプルを合成する基本モデルと、画像をそれぞれ 256x256 と 1024x1024 の解像度に段階的にアップサンプリングする 2 つの超解像度スタック。 モデルは入力タイトルを受け取り、最初に T5 XXL 埋め込みとテキスト埋め込みを計算します。オプションとして、参照画像から計算された CLIP 画像エンコーディングを使用することもできます。これらの画像の埋め込みはスタイル ベクトルとして使用できます。 これらの埋め込みは、1024 x 1024 の解像度の画像を段階的に生成するカスケード拡散モデルに送られます。 拡散モデルでは、ランダムノイズから徐々に画像を生成する反復的なノイズ除去プロセスを通じて画像合成が実行されます。 下の図に示すように、モデルは完全にランダムなノイズから始まり、複数のステップで徐々にノイズを除去し、最終的に自転車に乗っているパンダの画像を生成します。 従来の拡散モデルのトレーニングでは、単一のモデルをトレーニングして、ノイズ分布全体のノイズを除去します。このフレームワークでは、研究者らは、生成プロセスのさまざまな間隔でノイズ除去に特化したエキスパートデノイザーのセットをトレーニングし、それによって合成機能を向上させました。 eDiff-Iと安定拡散の比較 スタイル転送関数 |
<<: Fei-Fei Li DeepMind の新しい「コード チェーン」が CoT を圧倒! Pythonコード推論を使用することで、大規模モデルのパフォーマンスが12%向上しました。
>>: AppleがAI研究成果を公開、マルチモーダルLLMモデルFerretをリリース
現在、Twitter アカウントにログインしないと、Twitter コンテンツの Web バージョン...
GAN を使用して作品を制作することは新しいことではないようです。 2019年、NVIDIAはGT...
インテリジェントエージェントは未来です!最近、別の AI エージェント プロジェクト MetaGPT...
[[422760]] [51CTO.com クイック翻訳]事実によれば、ロボティック プロセス オー...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ディープラーニングは、データから段階的に優れた高度な洞察を抽出するために複数の処理層を活用する人工ニ...
1956 年のダートマス会議で AI が提案されて以来、AI 研究はいくつかの浮き沈みを経験してきま...
フロー制御は、複雑なシステムでは必ず考慮しなければならない問題です。この記事では、さまざまなフロー制...
近年、飛行制御、ナビゲーション、通信などの技術の継続的な発展に伴い、ドローン産業は急速な成長を遂げて...
k-means アルゴリズムは比較的単純です。 k-means アルゴリズムでは、クラスターはクラ...
海外メディアの報道によると、 AdobeはPhotoshopにAIを搭載した空の置き換えツールを追加...
ああ、2020年!世界的なヘルスケア問題から、テクノロジーの採用と再利用の方法の革命まで、今年はこれ...