GPT-4とMidjourneyに加えて、Tan Pingの起業家チームは3D基本モデルを構築したいと考えています。

GPT-4とMidjourneyに加えて、Tan Pingの起業家チームは3D基本モデルを構築したいと考えています。

少し前にOpenAIが驚くべき生成効果を持つグラフィックモデルDALL・E 3をリリースしました。たとえば、一度に数十個のオブジェクトを描画し、それらをすべてサーファーの背中に配置するように指示できます。

このように、DALL・E 3は、物体を十分に描写するだけでなく、大きなプレッシャーに直面しているサーファーの表情もしっかりと描写しています。

しかし、注意深いネットユーザーはいくつかの問題も発見した。写真に写っている鉛筆などの物体の比率が正常ではなく、モデルは日常の物体のサイズ比を理解していないようだ。

同様の問題は、DALL・E 3 などの 2 次元画像生成モデルに限ったことではありません。生成される次元が 3 次元に増えると、問題はさらに顕著になります。生成される動物には、複数の顔、複数の頭、または凸面ではなく凹面の顔がある場合があります。人間にとっては常識と思われるこれらのことを、モデルは学習していないようです。

香港科技大学電子・コンピュータ工学部のタン・ピン教授の見解では、これらの問題は、既存の基本モデルが 3D 次元の現実世界を完全に理解していないために生じているという。

「AIは究極的には現実世界の問題を解決する必要があるため、物理世界とつながっていなければなりません。そして、私たちの物理世界は3Dなので、当然、AIは物理世界を理解するために3Dを理解しなければなりません」とタン・ピン氏は指摘した。

コンピュータービジョンとコンピューターグラフィックスの分野で20年以上研究してきたベテラン学者であるTan Ping氏は、3Dは人間の視覚による世界の認識の基礎であり、モデルが現実世界を正確に理解するには3D情報が不可欠であると常に信じてきました。これまで広く利用されてきたテキスト情報を補完するものであり、探索されるのを待っている「豊かな鉱山」です。この「豊かな鉱山」を効果的に採掘するための3D基本モデルを作成できれば、AIは言語から物理学へ、文字から現実へと移行し、現実世界を深く理解する真の「普遍モデル」になることが期待されます。

Tan Ping 氏の Google Scholar ホームページを見ると、彼の論文の引用数が 5 桁に達していることが分かります。

このコンセプトに基づいて、彼が設立した AI テクノロジー企業 Light Illusions は、より正確な 3D 再構築やより優れた視覚的 3D 効果など、いくつかの基本的な技術的進歩を達成しました。

これらの成果は、ゲームや映画・テレビ番組制作などの業界に応用できるだけでなく、XRや身体化知能などの分野にも重要な影響を与えるでしょう。

しかし、3D データが深刻に不足しているため、これを実現するのは容易ではありません。 Synced は、同社の背景にあるテクノロジーと、これらのテクノロジーが生み出す社会的価値を理解するために、Tan Ping 博士と詳細な対話を行いました。

3D基本モデル:AIが現実になる唯一の方法

なぜ 3D ベース モデルを構築するのですか?この質問に答える際、Tan Ping 氏は、大規模な事前トレーニング モデルの本質から始めることを選択しました。

同氏は、事前トレーニングモデルは本質的にはデータ内の統計法則を学習し、データ内のさまざまなオブジェクト間の相関関係、つまり「知識」を発見することを目指していると述べた。人類の文明が何千年にもわたって蓄積してきたテキストには、論理、文学、歴史、政治といった抽象的な知識など、豊富な知識が含まれているため、GPT-4のような優れた大規模言語モデルを訓練することが可能です。

しかし、現実の世界には、空間構造、幾何学的形状、3D モーション、接触変形など、正確に記述することが難しい、あるいはありふれているために記述されることがほとんどない要素がまだ多く存在します。

「テキストの制限により、人々は家を買うときに、テキストの説明を読むだけでなく、間取り図を見たり、VRを使って家を見て部屋の空間構造を理解したりする必要があります。また、デザイナーは、ユーザーが新製品の外観を正確に理解できるように、3Dサンプルをユーザーに送る必要があります」とタン・ピン氏は例を挙げた。

そのため、タン・ピン氏は、汎用人工知能(AGI)を実現するには、2種類の基本モデルが必要だと考えています。1つは現在誰もがよく知っている大規模言語モデル(LLM)であり、もう1つは視覚モデルです。 2 つのモデルは異なるタイプの知識を学習し、互いに補完します。

ただし、現在の視覚モデル (Midjourney など) のほとんどは 2D 画像を使用してトレーニングされています。このようなデータの量は膨大であるため、モデルはさまざまなオブジェクトの特徴と特徴間の関係を学習でき、強力な一般化能力を備えています。ただし、唯一の欠点は、これらのデータは現実世界の 1 つの側面、つまり投影のみを記録するため、モデルの学習効率に重大な影響を及ぼし、複数の頭部や複数の顔などの前述の問題が発生することです。モデルのデータ理解を 3D 次元にまで高めれば、多くの問題が解決されます。

「実は自然界でも同じです。霊長類や猛禽類、獣類など、食物連鎖の頂点にいるすべての種は、目が前を向いています。目が前を向いているときだけ、いわゆる両眼視ができ、三次元情報をよりよく認識できるからです」とタン・ピン氏は例え話で述べた。

そのため、彼らは、機械が現実世界をより深く理解し、それを世界を変えるための基礎として利用できるようにするための 3D 基本モデルを構築したいと考えています。技術的な観点から見ると、このモデルは、機械が 3D オブジェクトと 3D 環境を認識し、形状、距離、空間位置関係などの要素を理解するのに役立つはずです。同時に、この 3D 世界が時間の経過とともにどのように進化するかを予測し、起こり得るイベントを推測する能力も必要です。 「例えば、ホームサービスロボットは、花瓶が地面に落ちると割れる可能性があることを知る必要があり、自動運転車は、壁の角の後ろに車や人がいる可能性があることを知る必要があります」とタン・ピン氏は例を挙げた。

「3D基本モデルは非常に野心的な目標です。これはAIが言語から物理へ、文字から現実へ移行する唯一の方法です。この目標が達成されると、機械は現実世界の仮想デジタルレプリカを構築し、このデジタルレプリカでさまざまな可能性をシミュレートおよびエミュレートし、最終的にはロボット技術を通じて現実世界を変革することができます。」これが、タン・ピンが率いる光と影のイメージングが実現したい究極のビジョンです。

技術的な面では、Tan Ping 氏は、3D 基本モデルもテキストと画像と一致する生成事前トレーニング方式を採用すると考えています。生成モデルは自己教師学習を使用してニューラル ネットワークをトレーニングするため、膨大な量のトレーニング データを非常に効率的に処理できます。しかし、その前に、3D データが極めて少ない場合に 3D 生成モデルをどのようにトレーニングするかという問題を解決する必要がありました。

3Dデータは現実世界を表現する希少な「金鉱」

事前トレーニング済みモデルの本質は、データから知識を抽出することです。この観点から、データの価値を 2 つの側面から検討することができます。1 つはデータに含まれる知識の豊富さ、もう 1 つはデータの規模です。 3D データは現実世界を高精度に表現したもので、経済的価値が極めて高い「豊かな鉱山」のように、間違いなく高度な知識の豊かさを備えています。しかし、データの規模という点では、3D データは非常に不足しています。これは、このタイプのデータは通常、アーティストによって手作業で作成されたり、専門的な機器でスキャンされたりするためであり、インターネット上のテキストや画像ほど普及していないためです。

3D データの希少性を直感的に理解してもらうために、Tan Ping 氏は一連の数字を挙げました。有名なテキスト画像モデル Stable Diffusion は、トレーニングに 50 億の画像とテキストのペア (LAION-5B) を含むデータセットを使用しましたが、比較すると、現在最大の 3D データセット Objaverse-XL のデータ量は数千万に過ぎず、品質の異なるデータも多数含まれています。クリーニング後、実際に利用可能なデータはテキスト画像とはまったく比較できません。この場合、3D ネイティブ データのみを使用してトレーニングを行うと、モデルが過剰適合しやすくなり、一般化のパフォーマンスに影響が及び、処理できるタスクが非常に制限されます。

3D 生成モデルの一般化機能の欠如の例。これらの例では、モデルは「ロケットに乗るコーギー」、「バックパックを背負った豚」、「ギターを弾くリス」を生成するように求められましたが、いくつかの要素が欠落していました。

「3Dデータはもともと2Dデータよりも高次元空間にあり、優れたモデルをトレーニングするにはさらに多くのデータが必要になる可能性があります。そのため、現在のデータは非常に不足しています。これは業界全体の課題であり、短期間で解決することは困難です」とタン・ピン氏は述べた。

この問題に対処するために、多くの研究では 2D データに基づいて生成モデルをトレーニングすることを選択しています。たとえば、一般的なアプローチとしては、まず 2D 生成モデルを使用して 2D 画像を生成し、次にこの生成された画像を使用して 3D モデルを最適化し、3D モデルによってレンダリングされた画像と生成モデルによって生成された 2D 画像が一致するまでこのプロセスを繰り返すというものがあります。この方法の利点は、トレーニング データを簡単に取得でき、生成モデルの一般化能力が強いことです。制限は、2D 生成モデルによって学習された 3D 事前知識が十分に包括的ではないため (たとえば、カメラの視点やオブジェクトの姿勢と幾何学的構造に関する情報が不足している)、生成された 3D 結果に複数の視点の不一致 (下図の乱れた幾何学的構造など) などの問題が発生することです。

したがって、光と影の画像化の目標は、3D データが乏しい客観的な条件下で、生成モデルの一般化能力と生成効果の実現可能なレベルを達成することです。この目標を達成するには、3D データの理解が鍵となります。

光と影のイメージング技術ルート:3Dデータを有効活用

2D データの量が豊富で、トレーニングされた生成モデルは強力な一般化能力を備えています。3D データの知識の豊富さは高く、トレーニングされた生成モデルは 3D の世界をよりよく理解します。そのため、Guangying Huanxiang は 3D モデルを作成する際に、マルチソース データに基づくモデル融合トレーニング戦略を先駆的に導入し、2D データと 3D データの両方を最大限に活用し、3D データの利用効率の向上に重点を置きました。

クマ生成タスクを例に挙げてみましょう。純粋に 2D 画像でトレーニングされたモデルは、多くの場合、複数の視点から見ると一貫性のない画像を生成します (以下を参照)。

いわゆるマルチビューの不整合は、幾何学的な不整合(複数の頭部など)と外観の不整合(複数の顔など)という 2 つの側面から理解できます。関連する研究で、光と影のイメージングは​​、マルチビューの不一致の問題のほとんどが幾何学的構造の不整合から生じることを発見しました。つまり、2D の結果を 3D の世界に昇格させると、2D 生成モデルは視点に依存しない事前知識 (異なる視点で同じ色やテクスチャなどの情報) のみを学習するため、複数の視点の不一致の問題が発生します。したがって、彼らの主な目標は、モデルの一般性を維持しながら、3D の一貫した幾何学的構造を生成できるように 2D 生成モデルを改良することです。

この目標を達成するために、研究チームは、まず拡散モデルを 2D 画像でトレーニングし、次に 2D 拡散モデルを 3D データと位置合わせする方法を提案しました。これにより、2D 拡散モデルは遠近感を持ち、標準座標マッピング (CCM) を生成して、2D から 3D への強化プロセス中に 3D 幾何学的構造と位置合わせされます。この方法を使用すると、光共鳴イメージングは​​比較的少量の 3D データのみを使用してより強力な結果を達成でき、マルチビューの不一致の問題が大幅に軽減されます。

さらに、このようにトレーニングされたモデルは、強力な一般化機能も維持し、より多様な創造性をサポートします (3D データのみでトレーニングされたモデルと比較して)。


さまざまなモデルが 3D 効果を生み出します。一番右は光と影のイメージングによるモデル生成効果です。

もちろん、Vincent 3D だけでなく、2D 画像を使用して 3D オブジェクトを再構築することも一般的な方向性です。 Guangyinghuanxiang チームは最近、より正確なカメラ姿勢推定を必要とする携帯電話の写真撮影を通じて高品質の 3D 再構築を実現できるソフトウェアを開発しました。

「私たちのチームは長年にわたり3Dビジョン技術を蓄積しており、カメラのポーズの問題を解決する経験も豊富であるため、より複雑なデータを処理することができます」とタン・ピン氏は語った。

これらの基本的な技術革新により、将来の光と影の画像化のための強力な 3D 基本モデルを構築するための基盤が築かれました。

Tan Ping: 3D基本モデルはまだ始まったばかり

技術的な問題を先に解決することで、転換点の到来を早めることができる

技術から始まった企業ではあるが、現在タン・ピン氏が明らかにした情報から判断すると、光英環翔は「閉鎖的」なやり方を主張しているわけではなく、すでに既存市場と増分市場を分けた上で事業化を模索し始めている。

既存の市場では、3D ビジョンは、ゲーム、映画やテレビ番組の制作、オブジェクトやシーンの 3 次元再構成などの ToB 分野で幅広い応用シナリオを持っています。これらの分野では大量の 3D アセットが必要ですが、アセットの制作サイクルが非常に長く、コストも非常に高いため、製品の反復と更新の速度が大幅に低下します。これは Tan Ping が観察した現象です。

「3Dアセットの作成を専門家に頼るのではなく、一部の海外企業(Minecraft、Robloxなどのゲーム会社など)は現在、オープン戦略を採用しており、ユーザーが自分で3Dコンテンツをすばやく作成できるようにしています。これにより、プレーヤーの創造性が大幅に引き出され、ゲームのプレイアビリティが向上します。ただし、ユーザーが作成したコンテンツの品質は現在比較的粗いです。当社の3D基本モデルには、より高品質のコンテンツ作成を実現する機会があります。」とTan Ping氏は紹介しました。

現在発表されている技術の進歩から、この点に関して Light and Shadow Imaging が行った努力もわかります。たとえば、Vincent 3D テクノロジーは、複数の生成タイプ (モデル、テクスチャ、空間レイアウト) と複数の 3 次元データ表現 (クラシック グリッド モデル、NeRF など) を実際にサポートしています。つまり、モデルを既存のレンダリング エンジンに統合したり、さまざまなアプリケーションに接続したりすることが容易になります。比較すると、今日の 3D モデルの多くは NeRF 表現に基づいて設計されており、ゲームやその他のアプリケーションに直接適用できない可能性がありますが、光と影のイメージング モデルはより柔軟性があります。

XR や具現化された知能などの最先端技術によって推進される漸進的な市場では、光と影の画像化も大きな可能性を秘めています。

例えば、3D生成モデルの開発過程で、生成モデルは機械の一般化能力を高め、機械がこれまで遭遇したことのないシーンの問題に対処するのに役立つことがわかりました。未知の物体の画像が与えられると、生成モデルはロボットが掴むのに適した物体上の点を生成し、3次元座標の深度情報を組み合わせて安定した掴み位置を形成し、ロボットを制御してこれまで見たことのない物体を掴むことで、機械の一般的な掴み能力が大幅に向上します。

もちろん、これは 3D 生成モデルをロボット研究に適用する方法のほんの一例です。具現化された知能のより広範な分野では、多くのタスク (物体の姿勢推定や操作シーケンスの生成など) を 3D 空間で完了する必要があり、3D 基本モデルの開発から恩恵を受けることができます。 「私たちは、次世代の消費者向けコンピューティング端末が最終的に登場し、サービスロボットが何千もの家庭に普及すると考えています。3D基本モデルによってもたらされる機能は、これらのスマートデバイスが実際の物理世界を理解し、さまざまなタスクをより適切に完了するのに役立ちます」とタン・ピンは述べています。

ただし、現在の 3D 基本モデルはまだ未熟であり、ChatGPT1.0 のレベルである可能性があることを認識する必要があります。しかし、テクノロジーの転換点がまだはっきりと見えています。チームの現在の研究開発計画によれば、光と影のイメージングは​​ 2 ~ 3 年以内に生産レベルの可用性に到達すると予想されています。したがって、タン・ピン氏は、現在の焦点は根本的な技術的問題の解決にあると考えています。短期的な商業化戦略はすべて、技術の反復と企業の自立した事業に役立つものでなければなりません。本当の商業化の爆発は、技術が成熟した後に起こります。

この目的のために、彼は強力な技術チームを結成しました。チームメンバーのほとんどは、Alibaba、ByteDance、Meituan などの大手インターネット企業出身です。同社は3Dビジョンの分野で長年の研究開発経験を持ち、2019年のKITTI Depth Completion Benchmarkで1位、2020年のMulti-view Stereo Benchmarkで1位、2022年のKITTI/NYU Depth Estimation Benchmarkで1位など、優れた成果を上げています。彼らが開発した基盤技術の一部は、外部でも広く利用されています。例えば、2022年のCVPRイメージマッチングチャレンジでは、上位6チームの半数が、彼らが画像マッ​​チングに提案したネットワークQTAを使用しました。

創業者として、タン・ピンは会社が選んだ方向性に確固たる信念を持っています。 20年以上前、彼は射影幾何学の優雅さとシンプルさ、そして3D視覚理論の厳密さと奥深さに魅了され、この分野に入りました。その後、企業環境で働いた経験から、3D は難しいものの、さまざまな用途があることに気づきました。自動運転、ロボット、AR/VR など、すべてのアプリケーションでは、機械が実際の物理世界を理解する必要があり、3D ビジョンと切り離すことはできません。これにより、3D 分野をさらに深く探求する自信が強まりました。

「私が引退するまでに行う仕事は、3次元視覚に関するものだけになるだろうと確信しています。それは間違いなく、自動運転、ロボット、AR/VRグラスに関連するものになるでしょう。おそらく、これ以外のことには触れたくないでしょう」とタン・ピンはかつて学生たちに語った。

現在、タン・ピン氏が率いる起業家チームは多くの投資家の支持を得ています。シードラウンドのリード投資家であるTsingzhi CapitalのパートナーであるZhang Yu氏は次のように述べた。

生成 AI は AI 開発における新たなマイルストーンです。その中で、3D生成はAIGCの発展にとって重要な方向性であると同時に、業界における難しい点でもあります。光と影の画像チームは、世界をリードする理論レベルと確かな実践スキルを備えており、基本モデルレベルから、生成モデルの幾何学的不整合やランダムな物体の適応把握など、業界の重要な問題を解決し、AIの実用化に向けた重要な一歩を踏み出しました。同時に、身体化された知能の商業化を大きく推進し、基礎理論の飛躍的進歩と巨大な産業価値を生み出しました。タン博士が率いる起業家チームは、精力的で革新的、そして困難な問題に果敢に取り組む若いチームです。短期間で、チームは理論研究、アルゴリズムフレームワーク、エンジニアリング実践、商業的実装などの面で画期的な成果を達成しました。初期段階の AI プロジェクトへの投資に重点を置くベンチャーキャピタルファンドとして、私たちはチームの将来の発展に大きな自信を持ち、チームが社会の発展と技術の進歩にさらに貢献することを期待しています。

<<:  ChatGPT パラメータが 200 億しかないとは思いませんでした。

>>:  GPT-4Vは小学生にも及ばない?最新のベンチマークテストではエラー率が最大90%に達し、信号機が間違っており、ピタゴラスの定理が不明である

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

出会い系アプリの女の子たちは実はStyleGANによって生成された偽の人物である

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

R言語におけるAprioriアルゴリズムの応用

[[193979]] I. コンセプト関連性分析は、大規模なデータセットに隠された意味のあるつながり...

機械学習プロジェクトの 87% が失敗する 10 の理由

機械学習は、最近ニュースでよく耳にする言葉ですが、さらに多くのことを実現する可能性を秘めた技術です。...

錬金速度×7! MacでもPyTorchトレーニングでGPUアクセラレーションを利用できます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ワイヤレス ネットワークと人工知能が出会うと何が起こるでしょうか?

人工知能(AI)は未来の技術ではなく、すでに存在している技術です。機械学習のイノベーションにより A...

Google Loon の AI が開発者を驚かせる理由

北京時間3月5日、人工知能を使ったアルゴリズムが予想外のトリックで問題を解決しようとしており、開発者...

...

人間の仕事が危機に瀕しているか?この時代にいかに目立つかが非常に重要です

序文「データ奴隷」現象は、AI時代の新たなエリート層を生み出したが、同時に、すでに強大な企業をさらに...

AIを活用した臨床モニタリングシステムの台頭

[[355709]]現在、医療システムもさまざまな方法で人工知能の利点を取り入れています。人工知能(...

...

プログラミングと数学の基礎が乏しい場合、人工知能を始めるにはどうすればよいでしょうか?

1. AI開発の現状1.1 コンセプトWikipedia によると、人工知能とは、人間や他の動物の...

SSDの寿命は短いですか?寿命を延ばすバランスアルゴリズム

ハードウェアによって掘られた穴は、本当にソフトウェアによって埋められるのでしょうか?実際、多くのハー...

リアルタイムの洞察を強化: コンピューター ビジョンとエッジ コンピューティングの相乗効果

今日の急速に変化する世界では、最先端技術のシームレスな統合がイノベーションの基盤となっています。その...