10年後の市場規模は1.3兆ドル。「モデル電源時代」到来

半年以上にわたる大規模なモデル嵐の後、AIGC 市場には新たな変化が起こり始めました。

クールな技術デモは、完全な製品体験に置き換えられています。

たとえば、OpenAI の最新の AI ペイントモデル DALL·E 3 はデビューするとすぐに ChatGPT と連携し、ChatGPT Plus で最も期待されていた新しい生産性向上ツールになりました。

△DALL・E3はテキスト入力の細部まで正確に復元します

たとえば、Microsoft が GPT-4 に基づいて構築した Copilot は、Win11 に完全に統合され、オペレーティングシステムの新世代 AI アシスタントとして Cortana に正式に取って代わりました。

△Copilotを使ってワンクリックでブログ記事を要約する

例えば、Jiyue 01などの国産車はコックピットに大型モデルを正式に搭載しており、完全にオフラインになっています...

「ビッグモデルがすべてを作り変える」というのは、2023年3月にテクノロジーの先駆者たちが立てた楽観的な予測に過ぎませんでしたが、今日では、何百ものモデルによる依然として激しい戦いと実際の応用の進歩により、この見解は業界内外でますます共感を呼んでいます。

つまり、インターネット全体の生産方式からあらゆる自動車のスマートコックピットまで、ビッグモデルを技術基盤として活用し、何千もの業界で自己革新を推進する時代が到来しているのです。

蒸気時代や電気時代の命名方法に倣って、「模型動力時代」と名付けられるかもしれません。

「モデルパワー時代」において、最も注目されるシナリオの一つはスマート端末です。

その理由は簡単です。スマートフォン、PC、スマートカー、さらにはXRデバイスに代表されるスマート端末産業は、現代人の生活に最も密接に関係するテクノロジー産業の1つであり、当然ながら最先端技術の成熟度をテストするためのゴールドスタンダードとなっています。

それでは、テクノロジーブームによってもたらされた最初の誇大宣伝の波が徐々に冷めていくとき、スマート端末シナリオをアンカーとして、「モデルパワー時代」の新たな機会と課題をどのように見て、解釈すればよいのでしょうか。

さて、それを分解して整理する時が来ました。

スマート端末、大型モデルの新たな戦場

課題と機会を詳細に分析する前に、重要な質問に戻りましょう。大規模モデルで表される生成 AI がなぜ「第 4 次産業革命」とさえ考えられるほど人気があるのでしょうか。

この現象に対応して、多くの機関が研究を実施し、セコイア・キャピタルの「Generative AI: A Creative New World」など、さまざまなシナリオにおける生成 AI の発展パターンを予測または要約しようとしています。

その中には、自社の経験に基づいて、特定の業界における生成AIの実装シナリオと潜在的な変化の方向性を分析している業界をリードする企業も数多くあります。

例えば、端末AIの代表的なプレーヤーであるQualcommは最近、「ハイブリッドAIはAIの未来」と題した生成AI開発の現状と動向に関するホワイトペーパーを発表しました。

このことから、生成 AI が業界で非常に人気がある 3 つの主な理由を解釈できるかもしれません。

まず第一に、テクノロジー自体は十分にハードコアです。

知能から生み出される大きなモデルであれ、リアルな品質を生み出す AI 絵画であれ、結果がそれを物語っています。テキスト、画像、ビデオ、自動化に関連するほぼすべての作業領域で、従来のワークフローを覆す驚くべき能力が実証されています。

第二に、潜在的な応用シナリオが豊富にあります。ビッグモデルによってもたらされた AI の世代的ブレークスルーは、最初から人々に無限の想像力を与えました。最初期の経験者グループは、生成 AI が仕事にもたらすメリットをすぐに認識しました。

ChatGPTなどの代表的なアプリケーションのユーザー増加率からも、ユーザー側の需要の大きさが伺えます。

△ChatGPTが1億人以上のユーザーを登録した人気アプリケーションの速度記録を破る、出典：セコイア・キャピタル

初期のインターネット検索、プログラミング、オフィスから、現在の文化観光、法律、医療、産業、交通などのシナリオアプリケーションまで、生成AIの波に乗って台頭してきたのは、基本的な大規模モデルを提供できる企業だけにとどまらず、多数のスタートアップ企業がこのトレンドに沿って繁栄し、成長しています。

多くの業界の専門家は、起業家にとって、大規模なモデルはアプリケーション層でより大きな機会をもたらすと考えています。

最下層では技術の世代的ブレークスルーが起こり、最上層ではアプリケーション需要が爆発的に増加し、それがエコロジカル効果を刺激します。

ブルームバーグ・インテリジェンスによれば、生成AIの市場規模は、インフラ、基本モデル、開発者ツール、アプリケーション製品、端末製品など、エコシステムのすべての参加者をカバーし、2032年までに400億ドルから1.3兆ドルに爆発的に増加すると予想されています。

このエコロジカルチェーンの形成により、業界に新たな変化がもたらされ、AIがさらに生産性の基盤となることが期待されます。

このような背景を踏まえて、スマート業界で現在何が起こっているのか見てみましょう。

一方、大規模モデルによって表される AIGC アプリケーションストームは、数日単位の反復リズムでクラウドからターミナルへと急速に移行しています。

ChatGPT は、モバイルデバイス上の「オーディオビジュアル」のマルチモーダル機能を初めてアップデートしました。ユーザーは写真をアップロードし、写真の内容について ChatGPT と会話することができます。

たとえば、「自転車のサドルの高さを調整する方法」

△GPT-4に話しかけると数秒で5つの提案が返ってくる

Qualcomm はまた、数十億のパラメータを持つ Stable Diffusion および ControlNet 大規模モデルを端末側で迅速に実装し、携帯電話で高品質の AI 画像を生成するのにわずか十数秒しかかかりません。

多くの携帯電話メーカーも、自社の音声アシスタントにこの大型モデルを「頭脳」として搭載することを発表している。

携帯電話だけではありません。

上海モーターショー、成都モーターショー、ミュンヘンモーターショーなど国内外の主要展示会では、基本モデルメーカーと自動車メーカーの協力がますます一般的になり、自動車への大型モデルの「搭載」がスマートコックピットの分野で新たな競争点となっている。

△ たった一言で、自動車モデルがアプリに食材を追加し、自宅で食事を作ることができる

一方、アプリケーションの爆発的な増加により、コンピューティング能力の需要と供給の不均衡の状況が悪化しています。

毎日のアクティブユーザー数とその使用頻度の増加に伴い、モデルの推論コストが増加することが予測されます。クラウドコンピューティングのパワーだけに頼るだけでは、生成 AI の規模を迅速に推進するには不十分です。

これは、あらゆる業界が端末側の AI コンピューティングパワーに注目を強めていることからもわかります。

例えば、端末AI分野のプレーヤーであるQualcommは、PCチップの性能を向上させるため、新世代のPCコンピューティングプラットフォームを発表しました。これは、Qualcommが自社開発したOryon CPU、特に搭載されているNPUを使用し、生成AIにさらに強力なパフォーマンスを提供します。これはSnapdragon Xシリーズプラットフォームと名付けられています。

この新しいコンピューティングプラットフォームは、2023 年の Snapdragon Summit でリリースされる予定です。

明らかに、アプリケーションの観点から見ても、コンピューティング能力の観点から見ても、スマート端末は AIGC の実装にとって最も大きな可能性を秘めたシナリオの 1 つとなっています。

AIGC は潮流の下でサンゴ礁を形成する

物事には通常2つの側面があり、大規模なモデルの迅速な開発と実装についても同様です。

生成 AI が今日まで急成長を続ける中、スマート端末業界の大きな可能性の背後にある本当のボトルネックが表面化してきました。

最も大きな制約の 1 つは、基盤となるハードウェアです。

セコイアの投資家であるソニー・フアン氏とパット・グレイディ氏による最新の生成 AI 分析記事「生成 AI の第 2 幕」で述べられているように、AIGC は急速に発展していますが、予想されるボトルネックは顧客の需要ではなく、供給側の計算能力にあります。

ここでのコンピューティング能力は主に AI および機械学習のハードウェアアクセラレータを指し、展開シナリオに基づいて 5 つのカテゴリに分類できます。

データセンターレベルのシステム、サーバーレベルのアクセラレータ、運転支援および自動運転シナリオ向けのアクセラレータ、エッジコンピューティング、超低電力アクセラレータ。

△5種類のAIアクセラレータ、出典：MIT論文「AI and ML Accelerator Survey and Trends」

ChatGPTの爆発的な増加により、大規模モデルがAIGC現象を牽引し、データセンターやサーバーレベルのプロセッサなどの「クラウドコンピューティングパワー」が短期的に大きな注目を集め、供給が需要を上回る状況にまで至っています。

しかし、生成 AI が第 2 フェーズに入るにつれて、コンピューティング能力に関するいくつかの問題がますます顕著になってきています。

最初のそして最大の問題はコストです。クアルコムのホワイトペーパー「ハイブリッドAIはAIの未来」に述べられているように、すでに半年以上が経過し、ビッグモデルが技術追求から応用実装へと移行するにつれ、各社の基礎モデルトレーニングは徐々に落ち着き、コンピューティングパワーの大部分がビッグモデルの推論に集中するようになった。

短期的には推論のコストはまだ許容範囲内ですが、大規模モデルのアプリ数が増加し、アプリケーションシナリオが広範囲になるにつれて、サーバーやその他のアクセラレータでの推論コストが大幅に増加し、最終的には大規模モデル自体のトレーニングよりも大規模モデルの呼び出しコストが高くなることになります。

つまり、大規模モデルが第 2 段階に入った後、推論のためのコンピューティングパワーに対する長期的な需要は、単一のトレーニングの需要よりもはるかに高くなります。データセンターとサーバーレベルのプロセッサで構成される「クラウドコンピューティングパワー」だけに頼るだけでは、推論のコストをユーザーが許容できるレベルまで下げることはまったく不十分です。

クアルコムのホワイトペーパーの統計によると、大規模モデルを搭載した検索エンジンを例にとると、検索クエリごとのコストは従来の方法の10倍になる可能性があり、この点だけでも年間支出が数十億ドル増加する可能性がある。

これは、大規模モデルの実装における重要な制約となるはずです。

これに伴い、遅延、プライバシー、パーソナライゼーションの問題も発生します。クアルコムは「ハイブリッドAIはAIの未来」の中で、大規模なモデルをクラウドに直接展開する場合、ユーザー数の急増によるサーバーの計算能力不足や「使用待ち」などのバグのほか、ユーザーのプライバシーやパーソナライゼーションの問題も解決する必要があると言及した。

ユーザーがクラウドにデータをアップロードしたくない場合は、オフィス、スマートアシスタントなどのビッグモデルの使用シナリオに多くの制限が課され、これらのシナリオのほとんどは端末側で配布されます。また、ビッグモデルを自分用にカスタマイズするなど、さらに優れた結果を追求する必要がある場合は、個人情報を直接ビッグモデルのトレーニングに使用する必要があります。

さまざまな要因により、推論の役割を果たすことができる「端末コンピューティングパワー」、つまり、自動運転や運転支援、エッジコンピューティング（組み込み）、超低電力アクセラレータなど、いくつかの主要なカテゴリのプロセッサが人々の視野に入り始めています。

端末には膨大な計算能力が備わっています。 IDC の予測によると、2025 年には世界中の IoT デバイスの数が 400 億を超え、約 80ZB のデータが生成され、そのデータの半分以上は端末またはエッジコンピューティングパワーに依存して処理される必要があります。

しかし、端末には、消費電力や放熱の制限により計算能力が制限されるなどの問題もあります。

この場合、端末に隠された膨大なコンピューティングパワーをどのように活用して、クラウドコンピューティングパワーの発展が直面するボトルネックを突破するかが、「モデルパワー時代」における最も一般的な技術課題の1つになりつつあります。

言うまでもなく、大規模モデルの実装では、計算能力に加えて、アルゴリズム、データ、市場競争などの課題にも直面します。

アルゴリズムについては、基礎となるモデルのアーキテクチャは不明のままです。 ChatGPT は確かに良い結果を達成しましたが、それが遵守している技術的なルートは、次世代モデルのアーキテクチャの方向性ではありません。

データに関しては、他社がChatGPTのような大規模なモデル成果を達成したいのであれば、高品質なデータが不可欠だが、「Generative AI's Act Two」では、現在のアプリケーション企業が生成するデータは実質的な障壁にはならないとも指摘している。

データに基づいて構築された利点は脆弱で持続不可能です。次世代の基本モデルは、この「壁」を直接破壊できる可能性があります。対照的に、継続的かつ安定したユーザーだけが、真の意味でデータソースを構築できます。

市場に関して言えば、現時点では大型模型製品にキラーアプリケーションはなく、どのようなシナリオに適しているかはまだ不明です。

この時代において、市場では、どのような種類の製品に使用でき、どのようなアプリケーションでその価値を最大化できるかについて、一連の方法論や標準的な答えがまだ提示されていません。

こうした一連の問題に対して、業界では現在、主に 2 つの解決アプローチを採用しています。

1 つは、モデルの「本質」を変えずに大規模モデル自体のアルゴリズムを改善し、そのサイズをさらに改善して、より多くのデバイスに展開する能力を高めることです。

Transformerアルゴリズムを例にとると、このようなパラメータ数の多いモデルを端末側で動かす場合には構造的な調整が必要となり、近年ではMobileViTのような軽量なアルゴリズムが数多く生まれています。

このタイプのアルゴリズムは、出力効果に影響を与えずに構造とパラメータの数を改善し、より小さなモデルでより多くのデバイス上で実行できるようにすることを目指しています。

もう1つは、ハードウェア自体のAI計算能力を向上させて、大規模なモデルを端末側でより適切に実装できるようにすることです。

このタイプの方法には、ハードウェア上のマルチコア設計とソフトウェアスタックの開発が含まれ、これによりハードウェアコンピューティングのパフォーマンスとさまざまなデバイス上のモデルの汎用性が向上し、端末側で大規模なモデルを実装できる可能性が高まります。

前者はソフトウェアのハードウェアへの適応と言え、後者は時代の流れに合わせたハードウェアメーカーの変化と言えます。しかし、どちらかの方向に単独で賭けると、追い抜かれるリスクが伴います。

「モデルパワー時代」では、テクノロジーは日々変化しており、ソフトウェアまたはハードウェアのいずれからも新たなブレークスルーが生まれる可能性があります。必要な技術的準備が不足していると、遅れをとる可能性があります。

では、私たちはこの技術の波の発展に盲目的に従うべきでしょうか、それとも単に見逃すべきでしょうか?そうではありません。

インターネット・AI時代に自らの価値を発見した企業は、AIGC時代にも、自らのシナリオと技術の蓄積をもとに、第3のソリューションを模索できる可能性がある。

ソフトウェアとハードウェアの両方の技術を持つ AI 企業である Qualcomm を例に挙げてみましょう。

さまざまなシナリオにおける大規模モデル技術の課題に直面した Qualcomm は、チップ企業としてのアイデンティティを超越し、早い段階で AIGC の波を受け入れました。

クアルコムは、端末チップのAIコンピューティング能力を継続的に向上させるだけでなく、基本的なAI技術も展開し、スマート端末業界全体がAIGCをイネーブリングカンパニーとして受け入れるペースを加速するよう努めています。

ただし、このアプローチにはさまざまな予測可能な困難もあります。

より大規模で複雑な AI モデルの場合、端末上でスムーズに実行しながらパフォーマンスを確保するにはどうすればよいでしょうか?

端末とクラウドの間でコンピューティング能力を最適に割り当てるために、異なるモデルをいつ使用すればよいでしょうか?

大規模モデルを端末側に展開する問題が解決したとしても、どの部分をクラウドに展開し、どの部分を端末に展開するか、また大規模モデルの異なる部分間の接続や機能に影響が及ばないようにするにはどうすればよいでしょうか。

端末側のパフォーマンス上の利点が十分でない場合はどうすればいいでしょうか? どのように解決すればよいでしょうか?

…

これらの問題は単一のケースで発生するものではなく、AIGC の影響を受けるあらゆる業界やシナリオにすでに存在しています。

ソリューションであれ、実際の実装経験であれ、答えは特定のシナリオと業界の事例からしか見つかりません。

「モデル大国時代」の霧をどう突破するか？

AIGC は第 2 フェーズに入りました。大型モデルの人気が高まっており、業界でもその導入方法を模索し始めています。

クアルコムのホワイトペーパー「ハイブリッドAIはAIの未来」では、スマートフォンやPCを例に挙げ、スマート端末業界の新たな戦場においてAIGCの実装シナリオの事例がすでに数多くあると言及されています。

現在、一部の企業では、メールの検索、返信メッセージの生成、カレンダーイベントの変更、ワンクリックナビゲーションなど、よりパーソナライズされた問題を処理するために、より小さな大きなモデルを端末側に展開しています。

たとえば、「お気に入りのレストランの席を予約する」などの機能の場合、大規模なモデルを使用して、ユーザーデータに基づいてお気に入りのレストランと空きスケジュールを分析し、スケジュールの推奨を行い、結果をカレンダーに追加することができます。

クアルコムは、端末に展開されている大規模モデルはパラメータが限られており、インターネットに接続されていないため、質問に答える際に「AI幻覚」が発生する可能性があると考えています。このとき、オーケストレーター技術に基づいて、大規模モデルに情報が不足している場合にガードレールを設定し、上記の問題の発生を防ぐことができます。

ビッグモデルによって生成されたコンテンツに満足できない場合は、ワンクリックで質問をクラウドに送信して実行し、ビッグモデルによって生成された結果をより良い回答とともに端末側にフィードバックすることができます。

これにより、クラウドで実行される大規模モデルの計算負荷を軽減し、ユーザーのプライバシーを最大限に確保しながらパーソナライズされた使用を実現できます。

端末側の計算能力やアルゴリズムに関して突破する必要のある技術的なボトルネックについては、一部のプレーヤーがすでに何らかの「ソリューション」を開発している。

Qualcomm はホワイトペーパーの中で、最近人気の高い投機的デコードを例に挙げ、現在広く使用されている新しいテクノロジーを紹介しました。

これは、GoogleとDeepMindが同時に発見した、大規模モデルの推論を高速化する手法です。より小さな大規模モデルを使用することで、大規模モデルの生成を高速化できます。

簡単に言えば、事前に大きなモデルのための「候補単語」のバッチを生成するように小さなモデルをトレーニングすることです。大きなモデルに「考えさせて」自分で生成させるのに比べて、大きなモデルは直接「選択」を行うことができます。

小型モデルの生成速度は大型モデルよりも数倍速いため、小型モデルにすでに存在する単語が使用可能であることが大型モデルで判明すると、再度ゆっくりと生成することなく、直接それらの単語を使用します。

この方法は主に、大規模モデルの推論速度は計算の複雑さの増加よりもメモリ帯域幅の影響を受けやすいという事実を利用します。

大規模なモデルには、キャッシュ容量をはるかに超える膨大な数のパラメータがあるため、推論中のコンピューティングハードウェアのパフォーマンスよりもメモリ帯域幅によって制限される可能性が高くなります。たとえば、GPT-3 が単語を生成するたびに、1,750 億個のパラメータすべてを 1 回読み取る必要があります。このプロセス中、コンピューティングハードウェアは DRAM からのメモリデータを待機している間、アイドル状態になることがよくあります。

つまり、モデルがバッチ推論を実行する場合、100 個のトークンを処理するのにかかる時間や、一度に 1 つのトークンを処理するのにかかる時間にほとんど違いはありません。

そのため、投機的サンプリングを利用することで、数百億のパラメータを持つ大規模モデルを容易に実行できるだけでなく、計算能力の一部を端末側に配置することも可能となり、大規模モデルの生成効果を保ちながら推論速度を確保することができます。

…

しかし、シナリオやテクノロジーに関係なく、ソフトウェアとハードウェアの関係が切り離せないのと同じように、最終的には、アプリケーションの価値を高めるために独自の適応ポイントを見つける必要があります。

スマート端末での応用シナリオを検討する場合、生成AIなどのソフトウェアアルゴリズムのブレークスルーは、必然的にQualcommなどのモバイルAIハードウェアとの組み合わせという技術的要件に直面することになります。

スマートフォン、PC、XR、自動車、モノのインターネットなど、スマート端末業界のさまざまなサブセクターは、AIGCホットスポットに基づいて独自の戦略と価値をどのように見つけることができるでしょうか。

企業はどのようにして時代の波を捉えて、この種の技術の応用価値を刺激し、業界全体の生産性変革の機会を逃さずにいられるのでしょうか?

Quantum位では、長期にわたる業界観察と技術発展の将来の方向性についての深い考察に基づき、ビッグモデルが主導する現在の業界のホットスポットを「モデルパワー時代」コラムのテーマとして取り上げ、基盤技術から上位レベルのアプリケーションまで、ビッグ言語モデルや生成AIに関する業界内外の人々の疑問や疑念に体系的に答えていきます。

新しいホットスポットによって提起された一連の新たな疑問については、このコラムの以降の内容でより詳しく回答します。

<<: 4kスター、AIが強化学習でポケモンをプレイ、2万ゲームを経て勝利に成功

>>: OpenAIの画像検出ツールが公開され、CTO: AI生成画像の99%を認識可能