ソラの影に隠れ、不安を抱える中国AI

「ついていけない人は排除されるかもしれない」ソラのデモ動画を見て、10年以上の経験を持つアニメプロデューサーの黄斌さんは、この結論に至った。

映画・テレビ業界で失業の声が上がる中、SORAの誕生は中国のAI業界にも大きな不安をもたらしている。

360グループの創設者である周紅一氏は、Soraモデルは中国の現在の類似製品を上回る性能と技術レベルを示したと考えています。これは、Soraが汎用人工知能（AGI）を実現するまでのスケジュールだけでなく、実際の応用効果とイノベーション能力にも反映されています。

さらに、ネット上では「ソラの誕生はニュートンの瞬間」であり、ソラは新たな産業革命の勃興を象徴しているという言い伝えもある。

実際、中国は「100モデル戦争」以降、テキストモデルで目覚ましい成果を上げており、GPT-3.5のレベルに到達または上回り、GPT-4に追いつくために懸命に取り組んでいます。

しかし、Soraの誕生は、単一のテキストフィールドではなくマルチモーダルモデルにおけるOpenAIの画期的な進歩を示しており、国内のAIメーカーがOpenAIに追いつくこと、さらには追い抜くことはほぼ不可能となっている。

その結果、多くのネットユーザーが中国のAIに疑問を呈した。

ソラはなぜ中国で生まれなかったのですか？中国とアメリカのAI格差はどんどん広がっています。SORAは中国に10年遅れているというのは本当でしょうか？常に追いつこうとしているのに、なぜ独創性がないのでしょうか?

こうした内省的な疑問が渦巻く中、中国のAIメーカーは一斉に沈黙した。

では、SORA のような大規模なマルチモーダルモデルでは、中国と米国のギャップはどれほど大きいのでしょうか?追いつくのが難しいのはなぜですか?こうしたあらゆる制限の下で、中国には独自の利点があるのでしょうか?

1.中国とアメリカのAI格差はどのくらいですか？

OpenAI は、Sora はまだ開発の初期段階にあり、さらなる改善が必要であることを認めていますが、業界では、Sora のリリースが生成型人工知能の分野における重要なマイルストーンとなるというコンセンサスに達しています。

これは、Sora が単なるビデオ制作ツールではなく、AGI への実現可能な技術的ルートを検証する AGI の重要なノードでもあるためです。

以前の GPT-3 と同様に、Sora はスケーリング法則がこの技術的方向性の出現を達成する上で役割を果たし続けることができることを再度検証しました。

その背後には、驚異的な資本と計算能力のサポートの結果だけでなく、数え切れないほどのエンジニアリング実験と試行、そして強力な技術サポートの結果もあります。

多くの人々は、OpenAI はすでに基本的に完成したマルチモーダル GPT-5 を持っており、反対者を攻撃したり世論を誘導したりするために必要に応じていつでもその一部をリリースできると推測しています。

360グループの創設者である周紅一氏は、SORAの登場はAGI（人工汎用知能）の実現が10年から1年に短縮されることを意味するとさえ直接主張した。

実際、Soraの前では、Pika、Runwayなどの既存のトップAIモデルも、マルチモーダルAIに投資してきた国内メーカーも、基本的に「負けている」のです。

これは、AI技術の研究開発と資源投資の深さにおける中国と米国の格差を間接的に反映している。

まず第一に、閾値は計算能力から生じます。

一部の学者は、Sora はおよそ 30 億のパラメータを持つモデルに過ぎず、トレーニングコストは想像ほど高くないと考えていますが、ビデオデータ自体の処理とラベル付けのコスト、さらに推論段階で長いビデオが消費することになる膨大な数のトークンと計算パワーの消費は、どの企業にとっても耐え難い課題であることは明らかです。

たとえ Sora に実際に 30 億個のパラメータしかなかったとしても、ビデオ分析の計算電力消費量は 1000 億個のモデルよりもはるかに多くなるはずです。国内の GPU ボトルネックの後、コンピューティング能力は大きな課題です。

2番目は、高品質なデータです。

OpenAIが発表した技術レポートによると、Soraの強力な機能は2つの点に起因している。1つはTransformerベースの拡散モデルの使用であり、もう1つはさまざまな種類の視覚データを統一された形式であるピクセルブロック（パッチ）に変換することで、大量の高品質でコスト効率の高いデータを活用できることである。

業界関係者は、データの質と量における大きな優位性が、Sora の成功にとって最も重要な要素の 1 つになる可能性が高いと考えています。

コンピューティング能力の面では、OpenAI が Sora モデルのトレーニングに使用した GPU カードの数は達成不可能なものではないものの、十分なハードウェアリソースがある場合、他の企業が OpenAI の成功を再現することは依然として困難です。主なボトルネックとなるのは、大規模で高品質のビデオデータをどのように取得して処理するかです。

2022年、OpenAIは革新的な方法を使用してAIモデルをトレーニングし、大量のデータにラベルを付けるトレーニングプロセスを排除すると発表しました。

OpenAIが公開したビデオ事前トレーニングモデル（VPT）により、AIが『Minecraft』内で石のツルハシをゼロから作ることを学習できるようになったと報じられている。

研究者らはまず、外部委託したゲーマーからビデオやキーボードとマウスの操作記録など、大量のデータを収集した。

次に、このデータを使用して逆ダイナミクスモデル (IDM) を作成し、ビデオの各ステップでキーボードとマウスがどのように動くかを推測します。この方法により、目標を達成するために必要なデータは以前よりもはるかに少なくなります。

この研究は2022年6月に発表され、記事ではこの作業が1年間続いていたことも指摘されており、つまりOpenAIは少なくとも2021年からこの研究を実施していたことになる。

Logenic AIの共同創設者であるLi Bojie氏は、OpenAIの先行者利益が初期のデータ障壁を決定づけ、それが後から市場に参入する企業の追いつきを困難にしたと考えている。

「世界最大のデータ量を保有するグーグルのような企業でさえ、大規模モデルをトレーニングする際には、OpenAIよりも優れたトレーニングデータを持っていない可能性がある」とリー・ボージエ氏は述べた。

一方、国内企業もデータの蓄積と活用において一定のギャップを抱えている。一方では、政策変更やその他の制限により、後発企業はこれまで入手できた重要なデータの一部を入手できなくなる可能性がある。他方では、AI生成コンテンツがインターネットに溢れるにつれ、元の現実世界のデータが「汚染」され、高品質で偏りのないトレーニングデータを入手することがより困難になっている。

最後に、革新的なトレーニング方法があります。

Sora は、Transformer モデルと拡散モデルを組み合わせることでイノベーションを実現しました。まず、さまざまな種類の視覚データを統一された視覚データ表現 (視覚パッチ) に変換し、次に元のビデオを低次元の潜在空間に圧縮し、視覚表現を時空間パッチ (Transformer トークンに相当) に分解することで、Sora をこの潜在空間でトレーニングし、ビデオを生成できるようにします。

次にノイズ除去を行います。ノイズパッチを入力した後、Sora は元の「クリーン」なパッチを予測してビデオを生成します。

OpenAIは、トレーニング計算量が増えるほど、サンプルの品質が高くなることを発見しました。特に、大規模なトレーニングの後、Soraは現実世界の特定の特性をシミュレートする「出現」能力を示しました。

一般的に、Sora は優れたアーキテクチャ + 優れたデータであり、モデルを拡張することで量的変化から質的変化を実現します。

Sora の設計ソリューションのほとんどは既存のテクノロジーに基づいていますが、驚くべき結果を生み出すことができるのは Sora だけです。これは、トレーニングプロセス中に解決すべきトレーニングスキルの問題が多数あることも示しています。

2. 中国の AI 企業は OpenAI に追いつくことができるか?

ソラの技術的躍進により中国ではAIに対する不安が広がっているが、中国のAIは完全に無防備というわけではない。

Soraが登場して世間の注目を集める以前から、中国の多くの上場企業はマルチモーダルAIの分野ですでに展開を始めていました。

2023年12月18日、東方証券は調査レポートの中で、Hikvision、Dahua Technology、EZVIZなど国内の大手ビデオ分析業界メーカーが、マルチモーダル大規模モデルの研究と業界アプリケーションの実装に投資していると述べた。

同時に、百度、アリババ、テンセント、ファーウェイ、バイトダンスなどの大手企業もマルチモーダル基本モデルを導入している。

不完全な統計によると、2023年12月から現在までの3か月間で、Wondershare Technology、Bohui Technology、Yidian Tianxia、Digital Video、Hanwang Technology、Danghong Technology、Oriental Fortuneなど10社以上のA株企業が投資家交流プラットフォーム上でビデオ生成モデル分野での事業状況を開示した。

国内メーカーが発表した「Vinciビデオ」の効果はSoraに比べるとはるかに劣るものの、中国にはすでにSoraが使用するコアインフラストラクチャがあり、その中には基本モデルLLM、VinciグラフモデルDALL·E 3、大規模ビデオデータセット、AIコンピューティングパワーシステム、大規模モデル開発ツールスタックなどが含まれています。

例えば、Wenxin Yiyan、iFlytek Spark、BAICHUANなどの元来の基本大規模言語モデル、およびWenxin Yige、Tencent Hunyuanなどの文学グラフモデル、さらに過去1年間の大規模モデルインフラストラクチャの急速な発展は、中国のAIが成功を収め、ビデオ生成トラックで同様のChatGPTスタイルの成功を再現することをサポートする能力と条件を備えています。

テンセント研究所の上級専門家である王鵬氏は、Soraのリリースにより、DiT（=VAEエンコーダー+ ViT + DDPM + VAEデコーダー）がマルチモーダルAIの実現可能な方向性であることがさらに明確になり、中国の大手AI企業が既存のリソースで約1年でSoraの現在のレベルに近づくことはまだ可能であると考えています。

3. 中国におけるAIの機会

実際のところ、テクノロジーの世代間ギャップは想像していたほど大きくないだけでなく、ビデオ世代モデルが業界に参入するための長い競争は始まったばかりです。大型モデルの価値は商品化を通じて証明される必要があり、Sora も例外ではありません。

まず、「誰でも使える」大規模な言語モデルと比較すると、ビデオ生成モデルの適用閾値は高く、対象者層も小さくなります。現在、OpenAI は ChatGPT のように一般公開されておらず、クリエイターのみに公開されています。

ビデオ生成モデルの研究開発から実装までのプロセス全体が遅くなり、その応用可能性と商業的輸出がまだ探求されていないことは容易に想像できます。

第二に、ソラは強力ですが、コストが実際の問題です。

Sora で動画を生成するコストは数ドルから数十ドルと見積もる人もいますが、一般向けに普及するには、コストを現在の 1% にまで下げないと受け入れられません。

コストを削減しながら生成品質と論理的一貫性を向上させることは、取り組む必要がある重要な課題です。

同時に、「幻覚」の問題が解決できないことを考慮すると、本当に制御可能で使用可能なビデオを生成するには、短期的には非常にコストがかかります。

こうした制限により、中国の AI 業界と学界には追いつくための長いチャンスが残されている。

現時点では、Sora がどの程度の商業的価値を発揮できるかは不明ですが、大規模なモデルを使用してアプリケーションシナリオを見つけることは、中国市場の強みです。

中国には豊富な産業とシナリオがあります。中国の AI メーカーが垂直産業のユーザー向けの特定のシナリオ問題を解決し、ツールを磨き、ビデオ生成モデルのプロンプトワードをうまく設計して、専門分野以外の多くの業界ユーザーが始められるようにすれば、特定の分野で GPT-4 や GPT-5 を上回る可能性は非常に高くなります。

それだけでなく、中国のAIメーカーは、Soraのような大型モデルをベースに、さらなる応用革新を行うこともできる。例えば、Soraを基盤として、より複雑なビデオ編集機能を提供したり、医療教育やシミュレーショントレーニングを革新したりすることで、商業化への道を模索する先頭に立つことができる。