NVIDIA が 2023 年のトップ 10 研究プロジェクトを公式に発表しました。「Neuro Angelo」はAIを使って3D仮想世界を作り出し、数秒で本物そっくりのダビデ像に変身する

2023年は人工知能が爆発的に成長する年となるでしょう。

赤は人工知能、青は機械学習を表す

マイクロソフト、グーグル、メタなどのテクノロジー大手が、今年の研究結果をレビューしました。 Nvidia はコンピューティングパワーの販売により世界的な GPU リーダーとなったが、AI 研究でも劣ってはいない。

この点に関して、ジム・ファン氏自身が、2023 年の Nvidia の研究におけるトップ 10 のハイライトをまとめました。

トピックの主な分布: 具現化された AI (ロボット、仮想キャラクター) に関するものが 3 つ、3D 生成モデルに関するものが 2 つ、グラフィックス処理に関するものが 2 つ、画像生成に関するものが 2 つ、ビデオ生成研究に関するものが 1 つ。

TOP 1: 「神経質なアンジェロ」が16世紀にダビデ像を蘇らせた

Nvidia とジョンズ・ホプキンス大学の研究者が提案した新しい AI モデルは、ニューラルネットワークを使用して 3D オブジェクトを再構築します。最新の研究はCVPR 2023にも採択されました。

論文アドレス: https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf

特に、Neuralangelo は携帯電話のビデオやドローンで撮影されたビデオから「高忠実度の大規模シーン」を再構築できます。

ニューラランジェロの研究は、TIME誌の「2023年のベスト発明200」の1つに選ばれました。

これまでの AI モデルでは、3D シーンを再構築する際に、反復的なテクスチャパターン、均一な色、強い色の変化を正確にキャプチャすることが困難な場合がよくありました。

この目的のために、チームは、マルチ解像度 3D ハッシュグリッドとニューラルサーフェスレンダリングの表現機能を組み合わせた、Neuralangelo と呼ばれる新しい方法を提案しました。

昨年、Nvidia の研究者は、写真を簡単に 3D オブジェクトに変換できる新しいツール「3D MoMa」を開発しました。

NeuralAngelo はこの概念に基づいて構築されており、より大きく詳細な空間やオブジェクトのインポートを可能にします。特別なのは、繰り返されるテクスチャパターン、均一な色、強い色の変化を正確に捉えることができることです。

NVIDIA Instant NeRF テクノロジの中核である「リアルタイムニューラルグラフィックスプリミティブ」を使用することで、Neuralangelo はより微妙な詳細をキャプチャできます。

チームのアプローチは、2 つの重要な要素に依存しています。

（１）平滑化演算のための数値勾配として高次導関数を計算するために使用される。

（２）粗から細への最適化は、異なる詳細レベルを制御するハッシュグリッド上で実行される。

補助深度がなくても、NeuralAngelo は、従来の方法を大幅に上回る忠実度で、マルチビュー画像から高密度の 3D 表面構造を効果的に復元し、RGB ビデオキャプチャから詳細な大規模シーンを再構築できます。

たとえば、Neuralangelo は、大理石のディテールと質感を生き生きと再現した、有名なダビデ像の 3D バージョンを「再現」しました。

フィレンツェ美術アカデミーに収蔵されているダビデ像は、高さがわずか 3.96 メートル、台座を含めると 5.5 メートルであることを知っておく必要があります。

屋根瓦やガラス板など、あらゆる細部に至るまで、建物の内装や外装を再現することもできます。

TOP 2: DreamFusionと比較すると、NVIDIAの3Dモデル生成速度は速い

Magic3D は、テキストの説明から 3D モデルを生成できる AI モデルです。

論文アドレス: https://arxiv.org/pdf/2211.10440.pdf

「睡蓮の上に止まっている青いヤドクガエル」などのプロンプトを入力すると、Magic3D は約 40 分で色付きテクスチャを備えた 3D メッシュモデルを生成しました。

Magic3D では、3D メッシュをヒントに基づいてリアルタイムで編集することもできます。生成されたモデルを変更する場合は、テキストプロンプトを変更するだけで、新しいモデルがすぐに生成されます。

Google DreamFusion と同様に、Magic3D も低解像度で生成された粗いモデルを高解像度の細かいモデルに最適化します。結果として、Magic3D メソッドは DreamFusion よりも高速に 3D ターゲットを生成できます。

上記の Magic3D アーキテクチャ図からわかるように、Magic3D は入力テキストプロンプトから「粗いものから細かいものへ」という方法で高解像度の 3 次元コンテンツを生成します。

生成プロセス全体は 2 つの段階に分かれています。

最初の段階では、研究チームは低解像度のテキスト画像拡散事前分布として eDiff-I を使用しました。初期の 3D 表現は、Instant NGP を最適化することによって得られます。

次に、低解像度の画像を繰り返しサンプリングしてレンダリングし、スコア蒸留サンプリングの損失を継続的に計算することで、Instant NGP をトレーニングします。

最適化後、DMTet を使用して、Instant NGP から粗いモデルが抽出され、ハッシュグリッドとスパースアクセラレーション構造を使用して高速化されます。

この拡散事前分布は、64×64 の低解像度画像でレンダリングされた画像に定義された損失に従ってモデル化されたシーンの勾配を計算するために使用されます。

第 2 フェーズでは、研究チームは高解像度の潜在拡散モデル (LDM) を使用して、第 1 フェーズの大まかなモデルを継続的にサンプリングしてレンダリングしました。

インタラクティブレンダラーは、512×512 の高解像度のレンダリングイメージを生成するように最適化されています。

TOP 3: 非常にリアルなヘアシミュレーション

最近の技術の進歩にもかかわらず、髪の毛や毛皮のシミュレーションはアニメーションスタジオにとって依然として課題となっています。重力、風、相互作用を考慮することは計算集約的なタスクであり、リアルタイムで正確に実行することはできません。

NVIDIA の研究者は、GPU 上で髪のシミュレーションを計算する新しい方法である ADMM を実装し、その論文が SIGGRAPH 2023 で発表されました。

論文アドレス: https://research.nvidia.com/publication/2023-08_interactive-hair-simulation-gpu-using-admm

全体として、この研究は、AI を使用して現実世界での髪の毛の挙動を予測することを示しています。

以前の方法と比較して、パフォーマンスがより強力になり、下の図に示すように、髪の毛の複雑さに応じてインタラクティブなフレームレートでシミュレーションを計算することもできます。

論文の研究者であるジル・ダヴィエ氏は、さまざまなシーンでテストした結果、髪の毛のシミュレーションには1フレームあたり0.18〜8秒かかったと説明した。

つまり、毛の数や長さ、衝突の処理方法など、さまざまな要因に応じて平均計算時間が長くなります。

メモリに関しては、シーンに応じて、シミュレーションに必要なメモリは 1 GB から 2 × 9.5 GB (デュアル GPU セットアップの場合) まで異なります。

この高速ヘアシミュレーション技術は、さまざまな目的に使用できます。

物理ベースの編集ツールを使用すると、弾力性と自己衝突の制約を維持しながら既存のヘアスタイルを調整できます。

彼が作成したデモツールは、「髪の長さや曲率を均一に拡大縮小したり、カット面に沿って髪の束をトリミングしたり、バネのような力を使って選択半径内の髪束を直接操作したり」することができます。

TOP 4: GPT-4 は AI エージェントに複雑なタスクの完了能力を与える

NVIDIA、ペンシルバニア大学、カリフォルニア工科大学、テキサス大学オースティン校などの専門家が、超人的なロボットの器用さを実現するために設計された報酬機能を備えたオープンインテリジェントエージェントであるオープンエージェント Eureka を提案しました。

論文リンク: https://arxiv.org/pdf/2310.12931.pdf

NVIDIA などの研究機関の研究者が開発した Eureka システムにより、GPT-4 はロボットに基本的な動作を完了させる方法を直接教えることができます。

たとえば、ペン回しのテクニックなどです。

具体的には、GPT-4 の優れたゼロサンプル生成、コード生成、コンテキスト学習機能を最大限に活用した、GPT-4 を活用した報酬設計アルゴリズムです。生成された報酬は、強化学習を通じてロボットが複雑で特定のスキルを習得できるようにするために使用できます。

タスク固有のヒントや事前定義された報酬テンプレートがなくても、Eureka によって生成される報酬関数の品質は、すでに人間の専門家によって設計された報酬を上回っています。

具体的には、Eureka は 3 つの主要コンポーネントを含むコンテキスト内で報酬関数を開発することで、人間レベルの報酬設計を実現します。

- シミュレータ環境コードは、初期の「シード」報酬関数をすばやく開始するためのコンテキストとして機能します。

- GPU 上の超並列 RL により、多数の候補報酬を迅速に評価できます。

- 報酬反射は、状況に応じて標的を絞った報酬変異を生み出す可能性があります。

TOP 5: LDM を使用した高解像度ビデオ生成

この論文では、潜在拡散モデル (LDM) を高解像度ビデオ生成タスクに適用する方法について説明します。

LDM は、低次元潜在空間で拡散モデルをトレーニングすることにより、高品質の画像合成を実現し、過度の計算要件を回避します。

論文アドレス: https://arxiv.org/pdf/2304.08818.pdf

研究者らは、LDM をビデオ生成に適用して微調整し、512 x 1024 解像度の運転ビデオで優れたパフォーマンスを達成しました。

さらに、研究者らは既存のテキストから画像への LDM モデルを効率的で正確なテキストからビデオへのモデルに変換し、パーソナライズされたテキストからビデオへの生成の結果を実証しました。

具体的には、このモデル生成の全体的なプロセスは次のようになります。まずキーフレームを生成し、次に拡散モデルを使用してフレームを補間し、隣接するフレームの潜在値を補間フラグメントの両端として保持し、中央に挿入するフレームの潜在値をノイズで初期化します。

次にデコーダーを通過してビデオが生成され、超解像度モジュールが使用されます。

長いビデオと補間フレームを生成する場合、マスク条件法が使用されます。これは、特定のコンテキストフレーム潜在情報を与えることで、バイナリマスクを使用してマスクされたフレーム潜在情報を予測するものです。長いビデオは反復法によって生成できます。

結果として得られるビデオの解像度は 1280 x 2048 ピクセルで、113 フレームで構成され、24 fps でレンダリングされ、長さ 4.7 秒のクリップになります。

テキストからビデオを生成するための当社のビデオ LDM は、安定した拡散に基づいており、クリップテキストエンコーダーを除くすべてのコンポーネントを含む合計 41 億個のパラメーターを備えています。

これらのパラメータのうち、ビデオを使用してトレーニングされたのは 27 億のみです。

特定のユースケースでは、たとえば、マルチモーダル運転シナリオ予測を実行できます。

関連する可能性のある別のアプリケーションとして、研究者は同じ開始フレームを取得して、複数の妥当なロールアウトを生成できます。以下の 2 つのビデオセットでは、合成は同じ初期フレームから始まります。

TOP 6: テキストプロンプトでマテリアルを生成し、あらゆる表面にシームレスにマテリアルをコピーします

プロジェクト紹介: https://blogs.nvidia.com/blog/siggraph-research-generative-ai-materials-3d-scenes/

NVIDIA の研究者は、アーティストが 3D シーンを迅速に反復処理するのに役立つ生成 AI モデルのデモンストレーションにより、SIGGRAPH ライブイベントで Best of Show 賞を受賞しました。

デモンストレーションでは、Nvidia の研究者がリビングルームのシナリオでこれを実演しました。

研究者たちは OpenUSD を使用して、レンガの質感の壁を追加し、ソファやクッションの生地オプションを作成および変更し、壁の特定の領域に抽象的な動物のデザインを組み込みました。

建築、ゲーム開発、インテリアデザインなどのクリエイティブ業界では、これらの機能により、アーティストはアイデアを素早く検討し、さまざまな美学を試して、シーンの複数のバージョンを作成できます。

この完全に物理ベースのマテリアル生成機能は、NVIDIA の Picasso ベースモデルプラットフォームを通じて提供されます。

NVIDIA Picasso ベースモデルプラットフォームを使用すると、エンタープライズ開発者、ソフトウェア作成者、サービスプロバイダーは、画像、ビデオ、3D、360 HDRi のベースモデルをトレーニング、微調整、最適化、推論して、ビジュアルデザインのニーズを満たすことができます。

TOP 7: CALM - 操作可能な仮想キャラクターを訓練して物理シミュレーションでアクションを実行させる方法

プロジェクトアドレス: https://research.nvidia.com/labs/par/calm/

CALM は、ユーザーが制御するインタラクティブな仮想キャラクターに対して、多様で指示可能な動作を生成する方法です。

CALM は模倣学習を通じて、人間の動きの複雑さと多様性を捉える動きの表現を学習し、キャラクターの動きを直接制御できるようにします。

このアプローチでは、制御ポリシーとモーションエンコーダーを共同で学習し、特定のモーションを単にコピーするのではなく、その主要な特徴を再構築できます。

結果は、CALM が、より高レベルのタスクトレーニングのために生成されたモーションとスタイルの調整の制御を可能にする意味的なモーション表現を学習することを示しています。

CALM は 3 つの部分で構成されています。

低レベルのトレーニング中に、CALM はエンコーダーとデコーダーを学習します。エンコーダーは、モーション参照データセットからモーションジョイント位置の時系列を取得し、それを低次元の潜在表現にマッピングします。

さらに、CALM はデコーダーも共同で学習します。デコーダーは、シミュレータと対話し、参照データセットに類似したモーションを生成する低レベルのポリシーです。

第2段階: 方向制御

研究者らは、動きの方向を制御するために、潜在変数を選択するための高レベルのタスク駆動型ポリシーをトレーニングしました。

これらの潜在変数は、要求されたアクションを生成する低レベルのポリシーに入力されます。

ここで、学習された動作表現は、何らかの形のスタイル調整を実現できます。これを実現するために、モーションエンコーダーを使用して、要求されたモーションの潜在表現を取得します。

次に、選択された潜在変数と要求されたスタイルを表す潜在変数間のコサイン距離に比例する追加の報酬を提供することにより、高レベルのポリシーは、望ましい行動スタイルを採用するように誘導されます。

ステージ3: 推論

最後に、以前にトレーニングされたモデル (低レベルのポリシーとステアリングコントローラー) を組み合わせて、追加のトレーニングなしで複雑なアクションを構成します。

これを行うには、ユーザーは標準のルールとコマンドを含む有限状態マシン (FSM) を生成します。ユーザーがビデオゲームのキャラクターを制御する方法と同様に、実行されるアクションを決定します。

たとえば、開発者は (a)「しゃがんでターゲットに向かって歩き、距離が 1 メートル未満になる」、次に (b)「キック」、最後に (c)「祝う」といった FSM を構築できます。

TOP 8: ゲーム動画を通じて仮想キャラクターにテニスのスキルを学ばせる

プロジェクトアドレス: https://research.nvidia.com/labs/toronto-ai/vid2player3d/

Nvidia の研究者は、放送ビデオから収集されたテニスの試合のデモンストレーションの大規模なコレクションから、物理的にシミュレートされたさまざまなテニスのスキルを学習できるシステムを発表しました。

彼らのアプローチは、低レベルの模倣戦略と高レベルのモーションプランニング戦略を組み合わせた階層モデルに基づいており、放送ビデオから学習したモーション埋め込み内でキャラクターを誘導します。

研究者の手法は、現実世界のテニスの試合の多数の例を含む大規模なビデオコレクションに大規模に展開すると、複雑なテニスのショットの仕組みを学習し、ショットの種類の明示的な注釈なしで、単純な報酬のみを使用して、複数のショットを現実的にリンクして拡張された試合にすることができます。

放送ビデオから抽出された低品質の動きに対処するために、研究者は物理ベースの模倣によって推定された動きを修正し、学習した動きの埋め込みの誤った側面を高レベルのポリシーによって予測された修正で上書きするハイブリッド制御戦略を使用します。

このシステムは、ラケットとボールのダイナミクスをシミュレートすることで、物理的にシミュレートされた 2 人のキャラクターを合成し、長時間のテニスゲームをプレイできます。

このシステムは 4 つの段階で構成されています。まず、研究者らは、2D および 3D のプレーヤーのポーズとグローバルルート軌道を推定してモーションデータセットを作成しました。

次に、低レベルの模倣ポリシーをトレーニングして、モーションデータを模倣し、シミュレートされたキャラクターの低レベルの動作を制御し、物理的に修正されたモーションデータセットを生成します。

次に、研究者らは条件付き変分オートエンコーダー（VAE）を修正されたモーションデータセットに適合させ、人間のようなテニスの動きを生み出す低次元のモーション埋め込みを学習します。

最後に、モーション埋め込みによって出力された体の動きと、キャラクターの手首の動きに対する予測された修正を組み合わせて、ターゲットのモーションポーズを生成するように、高レベルのモーション計画ポリシーがトレーニングされます。

このターゲットアクションは、低レベルのポリシーによって模倣され、物理的にシミュレートされたキャラクターを制御して、目的のタスクを実行します。

TOP 9: 効率的で高品質なメッシュ最適化手法 - FlexiCubes

プロジェクトアドレス: https://research.nvidia.com/labs/toronto-ai/flexicubes/

この研究は勾配ベースのメッシュ最適化に関するものです。研究者らは、写真測量、生成モデリング、逆物理学などのアプリケーションでますます一般的になりつつあるパラダイムであるスカラー場の等値面として表現することにより、3D サーフェスメッシュを反復的に最適化しました。

既存の実装では、従来の等値面抽出アルゴリズムが使用されています。これらの手法は、固定された既知のフィールドからメッシュを抽出するように設計されており、最適化設定では、高品質の特徴保持メッシュを表現するための自由度が不足していたり、数値的不安定性に悩まされたりします。

研究者らは、幾何学的、視覚的、さらには物理的な目的に関して未知のメッシュを最適化するために特別に設計された等値面表現である FlexiCubes を提案しています。

研究者らは、慎重に選択された追加のパラメータを表現に導入し、抽出されたメッシュの形状と接続性をローカルかつ柔軟に調整できるようにしました。

下流のタスクを最適化する場合、これらのパラメータは、自動微分によって基礎となるスカラーフィールドとともに更新されます。この抽出方式は、トポロジ特性を改善するためのデュアルマーチングキューブに基づいており、四面体および階層的適応メッシュを選択的に生成するための拡張が提案されています。

研究者らは広範囲にわたる実験を通じて、合成ベンチマークと実際のアプリケーションで FlexiCube を検証し、メッシュ品質と幾何学的忠実度が大幅に向上することを示しました。

具体的には、FlexiCubes は、幅広いアプリケーションでシンプルかつ効率的で高品質のメッシュ最適化を可能にする 2 つの大きな利点を提供します。

漸進的最適化: グリッド導関数は明確に定義されており、勾配ベースの最適化は実際には効率的に収束します。

柔軟性: メッシュの頂点を個別にローカルに調整して表面の特徴に適応させ、要素数が少ない高品質のメッシュを見つけることができます。

微分可能レンダリングによる写真測量

微分可能等値面技術 DMTet は、画像の形状、材質、照明を共同で最適化する最近の研究 nvdiffrec の中核をなしています。

トポロジー最適化ステップで DMTet を FlexiCube に置き換えるだけで、パイプラインの残りの部分は変更せずに、三角形の数が同じでもジオメトリの再構築が改善されることがわかります。

3Dメッシュ生成

最近の 3D 生成モデル GET3D は、3D 表現を 2D 画像に差分レンダリングし、生成的敵対フレームワークを活用して、2D 画像の監視のみを使用して 3D コンテンツを合成します。

FlexiCubes は、3D 生成モデルでプラグアンドプレイの微分可能なメッシュ抽出モジュールとして機能し、メッシュの品質を大幅に向上させます。

微分可能な物理シミュレーションに四面体メッシュを使用する

FlexiCube は四面体メッシュを差分的に抽出できます。均一テッセレーションにより、微分可能な物理シミュレーションフレームワーク (gradSim) および微分可能なレンダリングパイプライン (nvdiffrast) と組み合わせて、マルチビュービデオから 3D 形状と物理パラメータを共同で復元できます。

ここで研究者らは予備的な結果を提示しています。変形する物体のビデオシーケンスが与えられると、静止姿勢の四面体メッシュと、シミュレーションで動きを再現する材料パラメータを復元できます。

アニメーションオブジェクトのメッシュの簡素化

FlexiCubes では、単一のメッシュを基準ポーズに合わせるのではなく、既成のスキニングツールを使用してメッシュをさまざまな方法でスキニングおよび変形し、同時にアニメーションシーケンス全体に対して最適化することができます。

アニメーション全体のエンドツーエンドの最適化により、三角形の密度を再分配してメッシュの伸縮を回避できます。

グリッド正規化の追加

FlexiCubes 表現は柔軟性が高く、抽出されたメッシュ自体に依存する目的関数と正規化子を自動微分によって直接評価し、勾配ベースの最適化に組み込むことができます。

研究者らは、パネルの製造可能性を高めるために、抽出されたメッシュに展開可能性の条件を適用しました。

トップ 10: エキスパートデノイザーコレクションを使用したテキストから画像への拡散

プロジェクトアドレス: https://research.nvidia.com/labs/dir/eDiff-I/

Nvidia の研究者は、テキストに基づいて画像を合成するための拡散モデルである eDiff-I を提案しました。

拡散モデルの動作はサンプリング段階によって異なるという経験的観察に着想を得て、研究者らは、それぞれが特定のノイズ間隔に特化した一連の専門的なノイズ除去ネットワークをトレーニングします。

T5 テキスト埋め込み、CLIP 画像埋め込み、CLIP テキスト埋め込みを条件として、モデルは任意の入力テキストプロンプトに対応するリアルな画像を生成できます。

テキストから画像への合成に加えて、次の 2 つの追加機能も提供しています。

（１）スタイル転送、参照スタイル画像を使用して生成されたサンプルのスタイルを制御することを可能にする

（２）「Painting with Text」は、キャンバス上にセグメンテーションパターンを描くことで画像を生成できるアプリケーションで、希望する画像を作成するのに非常に便利です。

モデルのワークフローは、3 つの拡散モデルのカスケードから構成されます。

64x64 解像度のサンプルを合成する基本モデルと、画像をそれぞれ 256x256 と 1024x1024 の解像度に段階的にアップサンプリングする 2 つの超解像度スタック。

モデルは入力タイトルを受け取り、最初に T5 XXL 埋め込みとテキスト埋め込みを計算します。オプションとして、参照画像から計算された CLIP 画像エンコーディングを使用することもできます。これらの画像の埋め込みはスタイルベクトルとして使用できます。

これらの埋め込みは、1024 x 1024 の解像度の画像を段階的に生成するカスケード拡散モデルに送られます。

拡散モデルでは、ランダムノイズから徐々に画像を生成する反復的なノイズ除去プロセスを通じて画像合成が実行されます。

下の図に示すように、モデルは完全にランダムなノイズから始まり、複数のステップで徐々にノイズを除去し、最終的に自転車に乗っているパンダの画像を生成します。

従来の拡散モデルのトレーニングでは、単一のモデルをトレーニングして、ノイズ分布全体のノイズを除去します。このフレームワークでは、研究者らは、生成プロセスのさまざまな間隔でノイズ除去に特化したエキスパートデノイザーのセットをトレーニングし、それによって合成機能を向上させました。

eDiff-Iと安定拡散の比較

スタイル転送関数

<<: Fei-Fei Li DeepMind の新しい「コードチェーン」が CoT を圧倒! Pythonコード推論を使用することで、大規模モデルのパフォーマンスが12%向上しました。

>>: AppleがAI研究成果を公開、マルチモーダルLLMモデルFerretをリリース

人工知能：今優先すべき7つの役割

ブログ

AIはどんどん強くなってきていますが、人間は恐れるべきでしょうか？実は、ロボットに置き換えられるよりも大きな危機があるのです。

ブログ

NVIDIA が 2023 年のトップ 10 研究プロジェクトを公式に発表しました。「Neuro Angelo」はAIを使って3D仮想世界を作り出し、数秒で本物そっくりのダビデ像に変身する

TOP 1: 「神経質なアンジェロ」が16世紀にダビデ像を蘇らせた

TOP 2: DreamFusionと比較すると、NVIDIAの3Dモデル生成速度は速い

TOP 3: 非常にリアルなヘアシミュレーション

TOP 4: GPT-4 は AI エージェントに複雑なタスクの完了能力を与える

TOP 5: LDM を使用した高解像度ビデオ生成

TOP 7: CALM - 操作可能な仮想キャラクターを訓練して物理シミュレーションでアクションを実行させる方法

TOP 8: ゲーム動画を通じて仮想キャラクターにテニスのスキルを学ばせる

TOP 9: 効率的で高品質なメッシュ最適化手法 - FlexiCubes

トップ 10: エキスパートデノイザーコレクションを使用したテキストから画像への拡散

人工知能：今優先すべき7つの役割

AIはどんどん強くなってきていますが、人間は恐れるべきでしょうか？実は、ロボットに置き換えられるよりも大きな危機があるのです。

スマートビルディングにおけるAIの活用

QTNet: 最新のタイミング融合ソリューション!ポイントクラウド、画像、マルチモーダル検出器はすべて適用可能 (NeurIPS 2023)

とてもかっこいいですね！ Python で人工知能の最適化アルゴリズムを 5 分で理解する

ディープラーニングにも格闘技カンファレンスがある！ 8つのテクノロジーの巨人：私の学派はAGIを実現できる

スループットが約30倍に増加しました。田元東チームの最新論文は、大規模モデル展開の問題を解決している

AIとインフラストラクチャのゲームチェンジャーが市場で成熟しつつあります。

推薦する

ソフトウェア業界における破壊的革命: AIはすべてのものを食べるだけでなく、すべてそのものになる

インターネットの罪：Google がいかにして私たちを愚かにしているのか

OpenAI の組み込み検索は本当に便利ですか?定量的な評価により、より深い理解が得られます。

ディープラーニングを理解するには、より低い次元からアプローチするべきでしょうか、それともより高い次元で考えるべきでしょうか?

TimePillars: 200メートルを超える小さなターゲットの検出能力の向上

コンテンツ管理と AI – ContentOps の未来

馬はとても速いですね！上海AIラボ、人間の学習パラダイムを模倣した初の自動運転意思決定フレームワーク「DiLu」をリリース

ベースラインモデルから始めます。最初はモデルが醜く見えるかもしれませんが、心配しないでください。

スイスマイルは、立って都市部での配達に使用できる四足歩行の車輪付きロボットを披露した。

国境を越えた大企業よ、安易に「自社開発チップ」を主張しないでほしい

スマートビルにはスマートクリーニングが必要な理由

史上最大のAI著作権訴訟を徹底分析！ OpenAI は失敗する運命にあるのでしょうか、それともニューヨーク・タイムズが勝つ可能性はゼロなのでしょうか?

TOP 1: 「神経質なアンジェロ」が16世紀にダビデ像を蘇らせた

TOP 2: DreamFusionと比較すると、NVIDIAの3Dモデル生成速度は速い

TOP 3: 非常にリアルなヘアシミュレーション

TOP 4: GPT-4 は AI エージェントに複雑なタスクの完了能力を与える

TOP 5: LDM を使用した高解像度ビデオ生成

TOP 7: CALM - 操作可能な仮想キャラクターを訓練して物理シミュレーションでアクションを実行させる方法

TOP 8: ゲーム動画を通じて仮想キャラクターにテニスのスキルを学ばせる

TOP 9: 効率的で高品質なメッシュ最適化手法 - FlexiCubes

トップ 10: エキスパート デノイザー コレクションを使用したテキストから画像への拡散

推薦する

トップ 10: エキスパートデノイザーコレクションを使用したテキストから画像への拡散