世界シミュレーターはAGIの最終成果、12の状況予測です!チーフエキスパートによる1万語の記事がソラのマイルストーンを専門的に解釈

世界シミュレーターはAGIの最終成果、12の状況予測です!チーフエキスパートによる1万語の記事がソラのマイルストーンを専門的に解釈

私はここ数日、Sora の技術レポートと Sora のさまざまな技術分析を読んできました。

基本的な視点は 3 つあります。強力な機能に驚嘆すること、Sora の (実装) 方法を分析し、大きな影響を評価することです。

影響という点では、映画やテレビ、短編動画、エンターテインメントなどの分野への影響に主眼が置かれています。

しかし、ソラの AI の認知モードの変化と「世界シミュレーター」への壮大な旅の始まりこそが、未来の嵐の本当の焦点です。世界シミュレーターは、AGI、具現化された知能、メタバースよりもはるかに爆発的な知能の未来です。

Sora の技術レポートの中で最も価値があり、曖昧で、さまざまな解釈につながる可能性が高いのは次の部分です。「ビデオ生成モデルを拡大することで、物理世界をシミュレートできる汎用シミュレーターを構築したいと考えています。これは間違いなく非常に有望な開発パスです。」

この記事で説明されている世界シミュレーターは、Sora が現在説明しているものや業界で理解されているものとは異なる場合があります。

Sora が誇張したのか、OpenAI が控えたのか、あるいは現在の技術的な制限によるものかは明らかです。

1. SORAは2Dビジョンと時空間表現の圧縮と拡散に過ぎず、物理エンジンや世界モデルではない

「現実はもう存在しない」という奇妙で誇張された表現に比べると、専門家の意見は客観的に見えますが、実際の乖離も大きいです。

Sora は、Nvidia の上級科学者 Jim Fan 氏が言うところのデータ駆動型物理エンジンでも、学習可能なシミュレーターでも、世界モデルでもなく、また、Zhou Hongyi 氏が言うように、1、2 年で AGI を迅速に実現できるものでもありません。

主な変更の核となるのは、LLM のテキスト トークン/ベクトル表現から、シミュレーターに向かっているがまだシミュレーターではない Patches 表現への変更です。

技術レポートは主要部分に関して非常に保守的で簡潔ですが、写真の 1 つがより重要です。ソラはトランスフォーマーをベースにしていますが、トランスフォーマーの強力な進化形であり、ディフュージョンと組み合わせるとパッチが鍵となります。

しかし、ソラがどう見ても、それはあくまでも圧縮された空間と時間の2次元的な視覚表現に過ぎません。パッチは画像コンテンツの関係情報であり、テキストが刻印されているだけであり、物理世界の法則を多次元的に表現したものではありません。ワールドシミュレーターの前に形容詞「2次元ビジュアルワールドシミュレーター」を追加する方が正確かもしれません。

3次元画像はデジタル世界の空間構成であり、2次元視覚は実際にはピクセルの動きと変化の組み合わせです。 3 次元ビデオも 2 次元ビデオも「物理的」に見えるかもしれませんが、実際には、パーティクル レンダリングや産業シミュレーションのように物理的なルールや固有の特性をデジタルで構築したものではなく、物理法則に適合した動きにすぎません。

その理由は、ビッグモデルが出力する答えやビッグモデルの計算原理はわかっているものの、ニューラルネットワーク/ディープラーニングの父であるジェフリー・ヒントン氏や、OpenAIの元主任科学者であるイリヤ・サツケバー氏と同様に、GPTが「何を考えているのか」は実際にはわからないからです。

パッチが持つピクセル、位置、時空間情報、および変化、動き、周囲のパッチとの関係は、Transform の注意メカニズムと Difussion の順方向および逆方向のノイズ処理を通じて、大規模なビデオ データでトレーニングされます。これらは、あらゆる 2 次元のビジョンを解体および再構築する能力を持ち、創発的に生成され、創造性にあふれ、物理法則に沿っているように見えます。しかし、その背後には、実際には、空間と時間の意味でのパッチ/ピクセルの変化、動き、位置の関係の数学的およびアルゴリズム的表現に対する Sora の「理解」があります。これらの変化と表現は、物理世界の特定の合理性に適合しています。 (パッチはピクセルではありません)

「理解」はアルゴリズムであり、「思考」はモデルです。

とても混乱していて、抽象的で、疲れますが、おそらくそれが真実です。

たとえば、Sora のエンジニアは、学習のために数千万、あるいは数億ものビデオを大規模モデルに入力したかもしれませんが、物理的特性のルールに関連するコードは 1 行も書いていないかもしれません。

たとえば、ソラは確かに3Dエンジンによって生成されたいくつかの素材を学習し、DOTA2のゲームバトルを通じてモデルを改良するのと同じように、モデル生成ビデオの物理的な動きのパフォーマンスを視覚的に修正するために3Dエンジンを導入した可能性がありますが、現在ソラに3Dエンジンが組み込まれていないことは100%確実です。

Sora は、ユーザーが Apple Vision Pro を装着して物理的な世界が見えると思うのと同じように、ユーザーに物理的な世界と物理法則を理解しているように思わせますが、実際には、画面上で絶えず変化する RGB カラー情報を伝える単眼の 3648 x 3144 ピクセルのさまざまな変化しか見えません。

実際、画像は連続的ではなく、1 秒あたり 90 ~ 96 回のフレーム レートで常に更新されます。これは人間の視覚の原理と一致しており、ユーザーにビデオが連続しているという錯覚を与えます。頭を素早く振ると、画像がぼやけてしまいます。熱心なゲーマーは、画面のティアリングを経験する可能性もあります。

ビデオが物理法則に準拠しているという事実は、ビデオの生成が物理法則に基づいていることを意味するものではなく、ビデオを生成する大規模なモデル自体がデータ駆動型の物理エンジンであることを意味するものでもありません。いわゆる物理学とは、ビデオ画像全体と局所、および前後のフレームのピクセルレベルの変更規則と表現関係のみを指します。

2. それでも、SoraはAIの新しいビジョンと、モデルの認知の大きなリブートへの扉を開く壮大なマイルストーンです。

SORAの原理に関するさまざまな推測の中で、中国のAI研究者である謝賽寧氏による分析が最も近い。しかし、フレームワーク分析が技術的な原則に限定され、柔軟性とスケーラビリティが重視されているため、Sora の突然変異の本質、つまりビッグ モデルの認知的再起動が明らかにされていません。

さらに、謝彩寧氏は、ソラの現在のパラメータが30億個しかないという推定は控えめすぎると直感的に考えている。

Sora は、Transformer をバックボーンとするハイブリッド拡散モデル DIT を採用すると考えられており、DIT = VAE エンコーダー + VIT + DDPM + VAE デコーダーです。

さらに、Sora は、さまざまな解像度、期間、アスペクト比に適応するために、Google の Patch n'Pack (NaVit) に似たテクノロジーを使用する場合があります。

Sora は、ビデオ注釈やプロンプトの単語を詳細な指示に変換するという点で、詳細で強力なテキストカラーに満ちていますが、本質的には、完全に視覚に基づいており、視覚を重視し、画像を使用して世界を理解する大規模なモデルです。

これは、これまでの GPT の「テキストデータ要素」(ニューロンではない)という意味でのトークンとは大きく異なります。パッチは、フラグメント、パッチ、基本単位という意味での「視覚情報要素」(ニューロンではない)です。Sora におけるテキストは、人と機械、機械と動画の間の「翻訳機」や「取扱説明書」にすぎません。

画像や動画に含まれる情報量は、実際にはテキストに含まれる情報量よりもはるかに多く、これは視覚の世界で表現される現実世界の場合にはさらに当てはまります。膨大な量のビデオサンプルにより、ソラは視覚世界におけるマクロ/ミクロの空間と時間の変化の基本的な動的関係を「理解」することができました。

Sora が世界中のロボット、スマートカー、MR ヘッドセット、スマートフォンなどのデバイスに接続され、デジタル インテリジェンスの目を活用することで、この大型モデルは次のことが可能になります。

  1. 人間がシステムに入力した限られたテキストデータだけに頼るのではなく、自分の目で世界を見て、学び、理解することで、膨大な知識と情報の「新たな地平」への扉が開かれます。
  2. Sora+GPT に接続されたスマート デバイスは、現実をリアルタイムで認識することができ、これは具現化された知能の強力な強化です。ロボットやその他のスマート デバイスは、人間の現実認識と同様の視覚および判断能力を獲得することが期待されています。見ることは学習であり、判断することは意味です。当初は人間の知覚能力との間にまだ大きなギャップがありますが、従来のコンピュータービジョンに匹敵するものでもありません。
  3. さらに、Sora スタイルの大規模モデルの入出力は完全にテキスト化できるため、機械が認識する視覚世界と人間の自然言語インタラクション/身体感覚インタラクションの間に問題が生じる心配はありません。これは、機械が視覚の「意味」を認識する理解プロセスです。

ソラの登場の最大の意義は、複数のショットと統一された主題を持つ60秒のビデオを生成できることではなく、大きなモデルが「目を開いて」世界を見ることができるようになったことです。これはAIの初の認知的再起動であり、人間の認知的再起動に劣らず、これだけではありません。

3. 認知の再起動は「フォースの覚醒」を意味するワールドシミュレーターにつながる:大きなモデルの母体モデル、未来の根源的な技術

Sora はまだ世界シミュレーターではありませんが、世界シミュレーターになる可能性を示しています。最終的な答えは出ませんが、漠然と実現可能な方向性がどこにあるかを業界に伝えます。

Sora はまだ普遍的な世界シミュレーターには程遠いですが、Token (1.0) と Patch (2.0) に続いて、物理世界の X (3.0) 表現が実現可能であることを証明しています。テキストセマンティクス、ビジョンから物理学まで、ビッグモデルの原理には3つの飛躍があり、それはまた、真に普遍的な世界シミュレーター(実際には最初に多分野の専門シミュレーターに基づく)への高度な道でもあります。

Sora はまだ物理エンジンではありませんが、将来的には物理エンジンに一般化される可能性があります。

パッチはまだ、((x,y,z), t)、関係、色、コンテンツ情報という意味での単なる視覚情報要素であり、ニューロンではありませんが、将来的にはデジタルニューロンに進化する可能性があります。 Transformer モデルは人間の脳と同じ量子能力を持つことは決してありませんが、高次元のグローバル アテンション メカニズムは量子状態をローカルに適合させる可能性を秘めています。

AI の知能特性の根底にあるロジックは数学的であるため、人間の脳の直感的、漠然とした、ランダムな、潜在意識的な特性と比較すると、大規模なモデルは機械的でトランス状態のようなものになります。しかし、判断精度が0、30%、50%、80%、そして90%以上に向上したように、原理は継続的にアップグレードされ、時間と空間は継続的に変換されてきました。AGIへの進化は、高可用性に絶えず近づき、人間の知能に近づき、さらにはそれを超えるという段階的なプロセスとして現れています。

しかし、AGI は最終目的ではなく、聖杯でもありません。世界シミュレーターこそが最終目的です。

ソラは AGI の実現に貢献しますが、ソラが始めた長い旅の主な目的は AGI ではなく、世界シミュレーターです。 AGI には多くの定義があります。古典的な意味では、AGI は、データ、コンピューティング能力、アルゴリズムが一定のレベルまで進化した後、知識、コンテンツ、プログラムなどの作業と創造の面で人間の知能を部分的に上回る能力を発揮する GPT のようなシステムです。

AGI は依然として具現化された知能をサポートできるツールではありますが、具現化された知能ではありません。 AGI は本質的に自律的な能力を備えているわけではなく、多くの場合、人間が使用するツールにすぎません。

この時点で、知能開発のさまざまな形態と段階を明確にする必要があります。そうすることで、GPT4、Sora、AGI、世界シミュレータの生態学的位置と時空ノードが明確にわかります。

知能について話すとき、実際には同時に 3 種類の知能が存在します。スマートという意味での機能的知能、これまでのAIの意味での計算知覚知能、つまり弱い知能(AI1.0)、そして2020年以降(特に2023年が正式な始まりとみなされている)の認知知能という意味での強い知能(AI2.0)。

厳密に言えば、現在の自動運転やロボットなどの知能レベルはAI 1.0レベルであり、弱い知能の範疇です。強力なインテリジェンス(AI2.0)によるスマートカーやロボットなどのスマートデバイスの二次的エンパワーメントは、新たなトレンドとなっています。

これは、中国で人工知能が急速に発展しているにもかかわらず、実際には世代間のギャップが存在する理由でもあります。一方が強く、もう一方が弱いという事実に耐えられない一部の人々は、「自分たちも悪くない」と叫び、GPTが脅威論を作り出していると信じました。実際、強がる必要はなく、常に何事においても面子を保つように努めるべきです。現実的になって、全体の状況を明確に把握し、重要なポイントを把握して、追いついてください。

Sora/GPT に対する私たちの見方の背後には、もう 1 つの本質があります。戦略的な優位性、技術リーダー、知性の聖杯、変化の原動力、そして嵐の目がどこにあるか、ご存知ですか?強い AI は戦略的な優位性、科学のための AI は技術的なリーダー、AGI は手元にある知性の聖杯、さまざまな分野の一般モデルと専門モデルは変化の原動力、そして世界シミュレーターは未来の嵐の中心です。

上記の 3 つのタイプの知能は形態学的なレベルのみであり、知能の発達段階を区別するものではありません。私は知能の発達を、計算機能知能、計算知覚知能、認知知能、内因性知能(EI)、自律知能(II)の5つの段階に分類しています。

いつの日か、知能が「人工的」ではなくなるため、AI 人工知能という用語は無視されるようになることに注意してください。人工 AGI は当然ながら終わりではなく、知能は AGI に対する私たちの期待を超えて進化するでしょう。この点については「第二のカーブに向けて」で詳しく分析したので、ここでは繰り返さないことにする。

知能化の核心は超知能であり、超知能の具現化はAGIです。AGIはAI 2.0と認知知能の高度な形式です(ただし、主に人工的に供給され、人工的に強化された知能です)。AGIは現段階ではAIの高度な形式ですが、EI内因性知能やII自律知能ではありません。 AGI は、一部の人が言うように 1 年か 2 年で達成されるものではなく、GPT6 程度になると推定されます。以降の段階は、内因性知能(EI)、自律知能(II)、世界シミュレーターに属します。ワールド シミュレーターは EI の基礎であり、II のベンチマークです。

スーパーインテリジェンスは世界の頭脳であり、スーパーインテリジェンスの母は世界シミュレーターです。世界シミュレータは、ビッグモデルの中のマザーモデルであり、未来技術の中のルート技術です。

産業シミュレーション、環境気候、物質予測、タンパク質分析、分子薬物、遺伝子研究などの分野で開花したビッグモデルの力強いスタートを見ると、Sora とそれらが同じ目的地に向かっていることがわかります。つまり、世界シミュレーターは将来、主に楽しみのために使用されるのではなく、メタバースの概念に関する推測でもなく、むしろ科学技術の生産性の爆発点であり、インテリジェントな未来の真の爆発点です。

世界シミュレータは、科学技術の母体技術であり、さまざまな分野のAIサイエンスの核心ツールです。あらゆる分野で相互作用、理解、再現、予測を行うことができます。未来世界の「CAE」シミュレーションは、その基本的な特徴の1つにすぎません。ワールドシミュレーターは、インテリジェントマトリックスに最も近いものです。

ワールド シミュレーターは「フォースの覚醒」を意味し、革新の源、テクノロジー主導、そして失うことのできない戦略的優位性を意味します。

4. 世界シミュレーターへの長い道のりはどのような段階を経るのでしょうか?

ソラが公開したすべてのビデオの中で、最も詳しく調べる価値があるのは、実はカップが倒れるビデオです。

Sora は現実にどのように適合するのか、物理エンジンなのか、物理的特性に適合するエンジンになるにはどうすればよいのか、将来的には世界シミュレーターになるにはどうすればよいのか。これから答えが漠然と見えてきます。

CV 開発の初期段階では、コンピュータにできることは、カップの縁の輪郭の特徴を抽出して再現することくらいでした (Neocognitron など)。その後、コンピュータはそれが水の入ったカップであることを認識できるようになりました (初期の ImageNet など)。その後、コンピュータは水とカップの関係を「理解」できるようになりました (CNN と RNN)。現在では、コンピュータはカップに水を注ぐプロセスを学習して再現し始めています (Transformer/Sora)。次にどのように発展するかは、おそらく大規模モデル技術の専門家だけが知っているか、まだ模索中で結論が出ていないのかもしれません。

私はユーザーの視点からブラックボックス分析を行っているだけです。スーパーインテリジェンスは次のステップを達成できるでしょうか?

  1. 傾けたコップの水の流れ特性は、現在の明らかな欠陥がなく、物理的特性と完全に一致する可能性がありますか?流体力学等に対応
  2. コップの水がひっくり返った後、動画のように氷が水中で徐々に溶けていくようにすることは可能ですか(ハンバーガーの噛み跡のほうが気になるのですが)?熱力学等に対応
  3. コップの水がひっくり返ってテーブルトップとテーブルクロスが濡れたとき、水滴の染みや光、影、水蒸気の色の変化が見えるでしょうか(なので、キャンバス上の筆遣いにもっと興味があります)。光物理学等に対応
  4. コップに水を注ぐという動作で、単なる効果音ではなく、実際のシーンにマッチした音を生成できますか?音響物理学等に対応
  5. 傾けたコップの水の角度と力をランダムに制御して、破損、飛び散り、蒸発などのさまざまな現象を発生させることはできますか?上記と凝縮物質物理学を組み合わせたもの。
  6. 転倒したカップの周囲に電源や危険な化学物質がある場合、シーン予測やシナリオプレビューを行うことは可能ですか?電磁気物理学、物理化学等に相当します。

上記は物理的な観点からの単純な拡張に過ぎません。世界シミュレータは、数十の主要な学問分野でさえまだ網羅されていない、現実世界の科学分野や複雑な現象に対応する必要があります。したがって、プロセスや分野に関係なく、それは長い旅です。しかし、ここは星の海です。

対応するステップバイステップの質問は次のとおりです。

  1. Sora は、3D エンジンによって生成された 2D ビデオではなく、3D 画像から学習するようにトレーニングできますか?
  2. ソラは、ミクロとマクロの統一されたスケールから、3次元オブジェクトの固有の特性を学習し、トレーニングできるでしょうか?
  3. Soraは、モデル原理、ニューラルネットワーク、ノードレベルでX(3.0)の意味で物理世界の3D時空運動を表現し、世界仮想化の4つの要素である相互作用、理解、再生、予測に基づいてXをニューロンに進化させることができるでしょうか?

世界の仮想化の進化は、これらの問題やこれらの側面だけにとどまりません...

一般的に、ソラは「視覚の法則」に部分的に適合していますが、「物理的な世界」をまだ完全に理解していません。現在、Sora は本質的にはまだビジュアル コンテンツの世界に存在しており、ビデオ、ゲーム、エンターテイメントなどに関連しています。しかし、それはSORA型の大型モデルが次のステップに進み、ロボットやスマートカーなどの主要なスマートデバイスに参入し、世界のシミュレーターになることを妨げるものではありません。

AI For Science は世界シミュレーターの重要な着陸シナリオであり、 AI For Science の意味での X (3.0) は物理世界と視覚世界の分岐点であり、Patch (2.0) はテキスト世界 Token (1.0) と視覚世界の分岐点です。

データ、学習、生成、予測は、より強力な情報コンテンツ感覚を持つ AGI の 4 つの要素です。共感、理解、再現、予測は世界シミュレーターの 4 つの要素であり、マトリックスはより強い具現感覚で現実を認識します。世界シミュレータの入力と出力は、実際には主に機械知能システムによって自律的に完了します。機械知能システムは、自己強化と自律的な行動機能を備えた知能です。ワールド シミュレーターの旅は長く、必ず EI と II につながるでしょう。

5. 次に何が起こるでしょうか? 12のシナリオ予測

状況 1: Sora モデルを複製することは不可能ではありません。

OpenAI が短期間で (すぐにではないが) Sora を世界中のユーザーに公式にリリースしない場合、他の競合他社も同様の製品を独自にリリースするでしょう。Patches は長い間これを行っており、独自の秘密兵器ではありません。

OpenAI、Google、Meta の間には時間差しかありません。しかし、データ、リソース、コンピューティング能力の不足によって生じる中小規模のチームの競争上の不利は、原則をアップグレードすることによってのみ補うことができます。ピカとランウェイがソラを原理レベルで超えられなければ、たとえソラに追いつくことはできたとしても、将来が心配だ。さらに、同様の原理が同じ効果を意味するわけではなく、わずかな違いが大きな間違いにつながる可能性があります。

状況 2: 原則の追求 > コンピューティング パワーの追求。モデル原則のアップグレードは機能の飛躍の鍵ですが、コンピューティング パワーは不可欠であり、需要は急増し続けています。

単一のプロンプト応答および出力プロセスに対する Sora の計算電力消費は、GPT4.0 をはるかに超えるはずですが、これは重要ではありません。 Sora は、コンピューティング能力で競争するよりも、原則で競争することの重要性がはるかに大きいことを再び証明しました。コンピューティング能力として何が重要か (コンピューティング能力ではなく) が違いを決定します。

原理によって起こる変化のパターンは、瞬間的に起こることが多く、将来的には何度も変化します。しかし、計算する必要があるのはもはやテキスト/トークンだけではなく、ビジョン/パッチによって計算能力の需要が急増するため、全体的な計算能力の需要は依然として爆発的な成長を示しています。

将来的には、物理​​エンジンや世界シミュレーターのさまざまなセンサーのアクセスニーズとコンピューティング需要により、コンピューティング能力がさらに圧迫されることになります。線形的に見ても、高品質の大量データは少量データより常に優れており、大きなパラメータは小さなパラメータより常に優れており、深く多段階かつ繰り返し考えるモデルは単一段階より常に優れており、高解像度と高精度は低精度より常に大幅に優れているため、コンピューティング能力に対する需要は依然として指数関数的な成長を示しています。しかし、全体として、コンピューティング能力は必要条件にすぎません。

トレンド 3: Transformer に基づく大規模モデルは依然として主要な進化の方向であり、大きな可能性を秘めています。

セルフアテンションメカニズムは、電子コンピューティングのレベルで量子状態をシミュレートし(精神的にのみ)、情報要素間の距離制限とCNNのフィールド障壁を排除します。量子コンピューティングが利用可能になる前は、数学と電子コンピューティングに基づく最も脳に特徴的なインテリジェンスでした。

状況 4: 軽いものと重いもの、大きいものと小さいもの、単独と混合は、常に 2 つの並列ロジックです。

コンピュータビジョンモデルが大型モデルへ、そして世界シミュレータへと向かう長い道のりの中で、動画では「合理的」に見えるソラは、より軽い近道をとったため、その操縦性、立体感、前後の拡張性は当然ながら理想的とは言えません。

3D モデリング、パーティクル レンダリング、レイ トレーシングは、計算能力、設備、労力の面で大きくて重い処理ですが、本質に近いため、より強い制御感が得られます。自動運転のための 2 つのコンピューター ビジョン ルートと同様に、1 つは CMOS 画像データに依存し、もう 1 つはレーダーに依存して物理空間のポイント クラウド モデリングを実行します。

現時点では、映画業界にはもう一つ選択肢があると言うことしかできませんが、それは古いものや腐ったものを完全に破壊するほど大げさなことではありません。したがって、マイクロムービーや短編ビデオは無限の可能性を生み出しました。

状況 5: 機能上の欠陥は問題ではなく、ワールド シミュレーターに近づくほど、ビデオ生成におけるこれらの小さな問題の重要性は低くなります。

タイムラインの前後への拡張、被写体の融合トランジション、シーンの置き換え、連続性、3D カメラ移動、複数のショット、ハンバーガー バイツ、これらは現在の機能にすぎず、Sora の使いやすさは将来的に期待を超えるものになるでしょう。

現時点では、左右の足のテレポート、複数の指と足の指、キャラクターの消失、モーションの変形、人が柵を通り抜けるなど、多くのバグがありますが、メリットがデメリットを上回っており、トレーニングの規模が大きくなり、モデルが継続的に微調整され、最適化されるにつれて、これらの問題は解決されるでしょう。

状況 6: Sora と Vision Pro は確かに想像力豊かな組み合わせですが、ヘルメットをかぶって詠唱したり話したりできると思っている人のほとんどは失望するでしょう。

また、VRはMRに向かって前進し、ARはMRに向かって後退しています。将来、VRはMRの機能のみになります。MRは現時点で産業技術が到達できる交差点です。最も突破が難しいARが、将来的には主流になるでしょう。

状況 7: OpenAI 自体の可能性 4 つと不可能性 6 つ。

可能性: 主流の AI 開発プラットフォームになり、最大のストアになり、数十億のユーザーを持つエコシステムを形成し、インテリジェント機能を部分的に具体化します。

不可能と思われる側面:チップ製造に7兆ドル、モデル原則の継続的なリード、オープンソース、産業チェーンの垂直および水平統合、具現化された知能/内因性知能/自律知能になり、揺るぎなくスタートアップのコンセプトを堅持し、...

特に、多くの人を騙した7兆ドル規模のAIチップ製造に関する奇怪な情報。いわゆる情報源を引用したのは、ウルトラマン本人ではなく、WSJだった。レインの株式に投資していたサウジのファンドは、米国に撤退を説得され、中東の政府系ファンドと共同で、米国での大規模チップ製造に数兆ドルを投資していた? Green Moneyが参加しない場合、AIチップを作るために10年以上の米ドルの「ベンチャーキャピタル+IPO」の合計額に相当する十分な資金を見つけることは、狂気のコンセプト、常識の欠如、または数学の欠如のいずれかです。さらに重要なのは、製造業が AI コンピューティングのブレークスルーの焦点では​​ないということです。

状況 8: エコシステム全体の変革が始まっています。AI は主な推進力ですが、化学反応全体ではありません。

6つの要素:知覚(インタラクション)、コンピューティング(データ)、インテリジェンス(AI)、接続(ネットワーク)、合意(関係)、エネルギー(エネルギー)など。

状況 9: 変化は非線形です。

ディープラーニングのプレイヤーは、コンピューティング能力の向上に注力しているだけでなく、コンピューティングアーキテクチャの変更も計画しています。変更は直線的ではありません。業界関係者が語る未来は、次元アップグレード後の未来ではなく、実は現在の未来である可能性があります。次のステップでは、モデルの原理、コンピューティング アーキテクチャ、さらにはチップも大きな変化を遂げ続けるでしょう。

状況 10: AI のパワーは最下層にあり、アプリケーションは需要の牽引役にすぎません。

国内のチームがアプリケーションの開発を始めるのに適しているのは事実ですが、状況があまりにも早く凍結してしまい、目覚めたら建物が崩壊していたということも起こり得ます。ハードウェア基盤を含む根本的な変更に焦点を合わせる人が必要です。誰かが厳しい戦いに挑むか、少なくともついて行くでしょう。

状況11:クラウド、エッジ、大中小、PPPのハイブリッドAIでなければ戦場は展開できないが、AIだけに焦点を当てるわけにはいかない。センシング、コンピューティング、インテリジェンス、ソフトウェアとハ​​ードウェアの連携、形態革新などの次元の織り交ぜが完全な視点であり、価値発展の鍵となる。

AIをコンピューティングパワーとアルゴリズムの意味で絞り込み、シーンのニーズという意味でのアプリケーションの意味で軽量化すれば、インターネットの考え方と変わりません。初日に人気が出ることしかできず、店頭にあるGTPやAPPに過ぎず、インターネット時代の「非常に強力な」APPと同じです。これは力で勝つ3次元の戦いであり、最も排除する必要があるのはインターネットの考え方です。すべてを軽くしようとすると、重い責任を負えなくなります。すべてを簡素化しようとすると、多くの側面を処理できなくなります。エコシステム全体とシステム全体の変革にとって、アプリケーションだけでは触媒として不十分であり、コンピューティングパワー、アルゴリズム、データモデルという意味でのAIだけでは推進として不十分です。

状況12: 圧力が急激に上昇します。

古い問題、AIをめぐる中国と米国の論争、ジョセフ・ニーダム氏の質問と銭学森氏の質問に戻ります。正直に言うと、GPT3.5とGPT4.0がリリースされたとき、プレッシャーはそれほど大きくありませんでした。結局のところ、それらはまだテキスト、コード、画像の次元にあったので、何か追いつくべきものがあると常に感じていました。しかし、ソラが現れると、プレッシャーは劇的に増加しました。次元の進歩はあなたが思っているよりも速いです。競争と発展は二次元的でも直線的でもない。現実の物理世界シミュレーターはすでに漠然と匂いを嗅ぎ分けることができ、原理も漠然と見ることができます。ここが、将来の AI 競争とビッグモデルが勝利を決定する爆発的なポイントです。

友人がかつてよく言ったものです。Alpha Go/zero が人間の囲碁を打ち負かした後、跡形もなく消え去ったのです。しかし 1 年後、Alpha Fold が誕生し、タンパク質構造に対する人間の理解と予測を一変させました。これこそが偉大なプロジェクトです。同じことは、あなたがそれを60秒のビデオ生成ツールとみなすなら、それは「外国人の奇妙なトリック」と批判され、それは「チェスのおもちゃ」としての外の世界の理解に幾分似ていると言えます。

しかし、大きなモデルが目を開いているという観点から世界を見ると、AI認知の再起動、および世界シミュレーターの潜在的な開発方向性が、これは明らかに力の目覚めです。企業がトレンドを無視し、この壮大な旅で遅れをとった場合、それは次元削減攻撃に見舞われ、それ自体の母親でさえそれを認識することはできません。

AI認知は再起動され、スーパーインテリジェンスは数十億の機械の心を照らし、世界のバーチャイザーはルートテクノロジーの母モデルではなく、時代の前奏曲です。

それで、AI認知は再開されましたが、人間の認知は再開されましたか?

著者について

Hu Yanpingは、FutureLabsのチーフ専門家であり、Information Society 50 ForumのメンバーであるDCCI Future Think Tankの創設者です。彼は「Global Innovation Frontier Technology Map」および関連する研究プロジェクトのリーダーであり、テクノロジーのベストセラー「Black Technology」(2017)の共著者兼プロデューサーです。

彼は、インターネットウィークリーの編集長や、中国のインターネット協会のコミュニケーションおよび開発センターのディレクターを含む、さまざまなメディアとNGOの役職に就いています。

1997年以来、彼は多くの科学的モノグラフを発表しています。 「The Age of Pentium(Silicon Valley)」(1997)、「Digital Blue Book」(2000)、「Digital Divide」、「The 2番目の近代化」、および「2002年)の著者、および「Google Will Dowing」の翻訳者の1人。

<<:  なぜSoraはOpenAIから生まれたのでしょうか?最前線で働く従業員の勤務と休息のタイムラインの秘密:私たちは

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

金融ビジネスイノベーションを実現する自社開発グラフデータベースに基づくナレッジグラフ実装

人工知能の急速な発展に伴い、ナレッジグラフの実装と商業化の可能性は継続的に強化され、社内のデータ分析...

AIと遊ぶ4つの簡単な方法

適切なプロンプトを作成する技術を習得することが、ChatGPT のような AI ベースのプロンプト ...

AIが従業員のオンボーディングを自動化する5つの方法

ますます激化する労働市場で人材獲得競争に勝つための新たな可能性を模索するビジネスリーダーや人事マネー...

ICLR 2022|スピードこそすべて!完全なバイナリ化 BiBERT による超圧縮

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

不動産の持続可能な開発を推進する4つのテクノロジートレンド

不動産業界は、エネルギー需要の 22% を占めていることから、変化する環境の中で持続可能性を確保する...

...

今年上半期の世界的なベンチャーキャピタル投資はほぼ半減し、AIスタートアップには400億ドル以上が流入した。

調査会社ピッチブックが7月6日に発表したデータによると、世界のベンチャーキャピタルファンドは2023...

主要なソートアルゴリズムのパフォーマンス比較とデモンストレーション例

ソートとは、もともと無秩序だったシーケンスを、順序のあるシーケンスに並べ替えることを意味します。ソー...

PaddlePaddle ディープラーニング実践 - 英語-フランス語翻訳マシン

自然言語処理[1]は、コンピュータサイエンスと人工知能の分野におけるもう一つの重要な方向性です。重要...

メタ副社長:生成AIはまだ愚かなので、リスクを心配する必要はありません

メタの副社長兼国際問題担当会長で元英国副首相のニック・クレッグ氏は、BBCとの最近のインタビューで、...

...

...

IoTセキュリティ戦略における機械学習の重要性

機械学習は、自動化と異常な動作の検出を通じて、よりスケーラブルかつ効率的に IoT デバイスを保護す...