AI アシスタントの人気が高まっていますが、次に購入するスマートフォンはなぜ電話なのでしょうか?

大きな模型ブームが到来し、アイアンマンのジャービスが最も忙しい「マーベルヒーロー」（手動の犬の頭）になるとは誰が想像したでしょうか。

理由は簡単です。スーパーアシスタントのコンセプトは非常に人気があり、携帯電話から PC、スマートコックピットまで、あらゆるところで言及されているからです。

ハードウェア自体の形状も新たな変化を遂げています。

例えば、国内外のソーシャルメディアで人気のAIピンは、「なぜ次に使う電話は携帯電話でなければならないのか？」ということが何を意味するのかを十分示しています。

このバッジのようなガジェットは、Qualcomm チップを搭載しており、ビッグモデル技術に基づくスマート音声アシスタントが組み込まれています。

画面やボタンがなくても、多数のセンサーとインテリジェントな「頭脳」を活用して、電話をかけたり、テキストメッセージを書き込んだり、電子メールを送信したり、世界を記録したりすることができます。

現在、AI Pinを開発するHumane社は2億3000万ドルの資金を調達しており、最新の評価額は8億5000万ドルに達している。

実際、大手携帯電話メーカーの記者会見で最も重要な場所を占めている大規模なインテリジェントアシスタントであれ、AI Pinなどのより徹底したハードウェアイノベーションであれ、現象を通じて本質を分析すると、核心的な変化は依然として次のとおりであることがわかります。

ビッグモデルとAIGC技術の普及により、インタラクション方法の変革への序章が不可逆的に開かれました。

イノベーションの機会の第一波はスマート端末に反映されています。

AIGC時代では、交流の仕方が変わった

本物の「Jarvis」が実現するまでにはまだ長い道のりがありますが、スマート端末業界では、大規模モデル技術の影響を受けて、インタラクションモードに2つの変化が起こりました。

最初のレベルは、人間と機械のやり取り方法の変化であり、2 番目のレベルは、機械間の相互接続に反映されます。

ChatGPT が世界を席巻し始めて以来、人間とコンピューターのインタラクションの変革はテクノロジーコミュニティで幅広い注目を集めています。

理由は簡単です。コマンドラインから GUI (グラフィカルユーザーインターフェイス)、そして純粋な自然言語による対話まで、最新テクノロジを使用するためのハードルはどんどん低くなっており、それはすべてのアプリケーション、さらにはデバイスが再構築されることも意味します。

モバイルインターネットがTikTokのような驚異的なアプリを生み出したのと同じように、 「復興」の裏では、新たな画期的なキラーアプリ、さらにはキラーデバイスの出現も可能となっている。

業界の動向を観察すると、現場のプレーヤーにとって、チャンスをつかむことがコンセンサスになっていることが分かる。

好まれたスーパーアシスタントの最初のプロトタイプは、インテリジェント音声アシスタントでした。

たとえば、Microsoft は、Windows システムのオリジナルの音声アシスタント Cortana を、大規模なモデル駆動型の Copilot に直接置き換えました。

大手携帯電話メーカーは言うまでもありません。ビッグモデル/AIGCテクノロジーで駆動するインテリジェント音声アシスタントは、スマートフォンの最新の「ホットスポット」として画像に取って代わり、主要な記者会見で新たなCポジションを獲得しました。

これまで盛んに議論され実践されてきた人間とコンピュータのインタラクションという新しいパラダイムに比べると、機械同士のインタラクション方法の変化についてはあまり言及されていません。しかし実際には、ビッグモデルである「マシンブレイン」も、モノのインターネット（IoT）に変化の嵐を巻き起こしています。

これまで、IoT シナリオの断片化により、「ケースバイケース」モデルが AI アルゴリズムの適用の進歩と有効性に大きな影響を与えてきました。

言い換えれば、さまざまな端末センサーには、全体の状況を真に調整できる「頭脳」が欠けているのです。

大型モデルにおけるインテリジェンスの出現により、このギャップが埋められ、他のスマート端末を「感覚」としてより適切にリンクできるようになります。

2023年のテクノロジー界におけるもう一つのホットな話題である「具現化された知能」は、実はビッグモデルとIoTデバイスの衝突の一例です。

△李菲菲チームのロボット研究により、ロボットは事前の訓練なしで複雑な指示を完了できるようになった

人間と機械の相互作用、機械同士の相互接続、そしてビッグモデルの時代、「Internet of Everything」は間違いなくより具体的な進歩を遂げてきました。

そこで疑問なのは、真のスーパーアシスタントになるために一歩近づき、新たな競争の波で優位に立つためには、他にどのような重要な情報に注意を払うべきなのかということです。

基盤となる技術がインタラクション方法の変化を加速させる

あらゆるテクノロジーの大規模な適用は、キャリアと実装パスという2 つの側面から観察できます。

スーパーアシスタントの場合、その担い手はスマート端末であり、ハードウェアのコンピューティングパワーとソフトウェアとハードウェアの連携技術が関わっています。実現の道筋について言えば、現在最も可能性が高く、最も有望な技術の1つは、大型モデルに代表されるAI技術であり、この道を辿る時代は現在「モデルパワー時代」とも呼ばれています。

まずはスマート端末を中核とするキャリアについて見てみましょう。

端末技術の観点から見ると、スーパーアシスタントにとってキャリアとして最も重要な2つの基準は、コンピューティングと接続です。

コンピューティング、つまりチップに代表される各デバイスの AI コンピューティング能力も、スーパーアシスタントを搭載できるかどうかの鍵となります。

現在、スマート端末の分野で支配的な地位を占めるクアルコムを例に挙げてみましょう。

最近では、エッジで数百億のモデルを実行できるクアルコムの能力が再び話題になっており、NvidiaのシニアAI科学者ジム・ファン氏も次のように述べている。

私たちは新しい時代に入りつつあります。現代では、モバイルチップのパフォーマンスは GHz ではなく、Llama 2 トークンが生成される速度で測定されます。 Big Language Models は新しいスマートフォンオペレーティングシステムです。

この AI コンピューティング機能は、具体的には携帯電話と PC の 2 つの側面に分けられます。

一方、第3世代のSnapdragon 8モバイルプラットフォームに代表されるチップは、携帯電話の生成AIを計算する能力をさらに強化しています。

たとえば、Qualcomm の AI エンジンの中核である Hexagon NPU は、新しいマイクロアーキテクチャをアップグレードして AI コンピューティングをより適切にサポートしています。パフォーマンスは前世代より 98% 高速化され、消費電力は 40% 削減され、より多くの Transformer ネットワークをサポートします。

さらに、クアルコムのAIエンジンやクアルコムセンサーハブなどの他の部分の最適化により、第3世代Snapdragon 8モバイルプラットフォームは、発売時に端末上で100億パラメータの大規模モデルを実行でき、1秒あたり20トークンを生成する速度で70億パラメータの大規模言語モデルを実行できました。

△端末大規模モデルテキスト生成機能

一方、Snapdragon X Eliteに代表されるチップは、携帯電話側から繰り出されるAIコンピューティングパワーをさらに拡大し、PC側にちょっとしたAIコンピューティングパワーショックをもたらすことになるだろう。

Snapdragon X Elite の Qualcomm AI エンジンの計算能力は 75 TOPS です。

コアのHexagon NPUだけでも45TOPSの計算能力を持っています。このため、QualcommはNPUに新しい電源システムを特別に追加し、ワークロードに応じて周波数を調整できるようにしました。同時に、Transformerネットワークなどの複雑なAIモデルを特に加速するために、マイクロスライス推論アーキテクチャも開発しました。

これにより、PC は 130 億を超えるパラメータを持つ生成 AI モデルを直接実行し、インターネットに接続することなく PPT の作成、要約、コピーの生成を行うことができます。

同時に、AI処理速度は4.5倍高速化し、ビデオ会議の背景ぼかし、ノイズ低減、ビデオ編集、写真フィルタリングなど、よりスムーズな機能を実現できます。

△ ビデオ編集、ワンクリックで不要な背景オブジェクトを削除

接続、つまりデバイス間のデータ転送のパフォーマンスは、スーパーアシスタントのインタラクティブ機能に根本から直接影響します。

端末機器においても、接続の需要には携帯電話やパソコンに代表されるヒューマン・コンピュータ・インタラクション分野と、モノのインターネットに代表されるマシン・ツー・マシンの相互接続分野の2つの側面があります。

ヒューマンコンピュータインタラクションの分野では、よりインテリジェントなネットワークパフォーマンス分析とより高い伝送効率を提供するために、接続ハードウェアが求められています。

Snapdragon X75 5.5GモデムとRFシステムを例にとると、このベースバンドには専用のハードウェアテンソルアクセラレータ、つまり第2世代のQualcomm 5G AIプロセッサが初めて統合されており、そのAIパフォーマンスは第1世代の2.5倍に向上しています。

これに基づいて、AI は信号の整合性と信号対雑音比を分析することで、無線帯域幅と遅延を改善し、ネットワークパフォーマンスをより効率的にし、データ転送をよりスマートにすることができます。

機械の相互接続の分野では、バッテリー寿命、コスト、サイズなど、接続ハードウェアにさまざまな制限があります。

Snapdragon X35 5G NR-LightモデムとRFシステムを例にとると、モバイルブロードバンドや極低帯域幅のNB-IoTと比較すると、このベースバンドは軽量の5G伝送性能と同等であり、バッテリー寿命が長く、コストが低く、小型のIoTデバイスへの適応性も優れています。

しかし、それを超えて、コンピューティングと接続性が連携する能力というもう 1 つの重要なポイントがあります。

クラウドで実行される一般的な大型モデルであれ、スーパーアシスタントを目標とした端末上の個人用大型モデルであれ、この2つを並行して実現するには、データ伝送の効率とユーザーエクスペリエンスを確保しながら、両側のモデルの安定した動作を確保するための5G + AIテクノロジーのデュアルドライブが必要になります。

Qualcomm は少なくとも 5 年間この道を歩んできました。

クアルコムは、スマート端末デバイスの位置付けから始めて、5G技術の接続機能を利用して、チャネルと水の関係のように、クラウドから端末までより多くのAI技術を拡張し、「もともとデータセンターでしか実現できなかったAI機能を、端末でも実現できるようになりました」。

携帯電話での写真撮影、画像、ビデオ処理から、自動車のスマートコックピットでの AI のデータ転送、XR でのジェスチャー認識などの AI 機能に必要な低遅延、今日のクラウドや端末での生成 AI の実行まで...

クアルコムは最新のAI技術を活用し、端末側の機能革新を急速にリードし続けており、各ステップは5Gデータ伝送の背後にある接続サポートと切り離せないものとなっています。

AI + 5G の連携機能があるからこそ、効率的な接続で AI の使用体験をさらに向上させ、同時に AI を使用して接続のパフォーマンスを強化し、最終的にユーザーと端末のやり取りの方法を変えることができます。

キャリアタイプの観点から見ると、このインタラクション方法の変更は、Qualcomm AI ソフトウェアスタックなどのツールを通じて、さまざまなタイプや機能の端末デバイスにシームレスに接続できます。

Qualcomm AI ソフトウェアスタックは、さまざまな主流の AI フレームワーク、さまざまなオペレーティングシステム、プログラミング言語を完全にサポートし、スマート端末上のさまざまな AI ソフトウェアの互換性を向上させます。

このツールキットをベースにすれば、携帯電話など1つのプラットフォーム上でのみ開発されたとしても、自動車、XR、PC、モノのインターネット上で実行できるため、インタラクション方法の変化のペースが大幅に加速します。

まとめると、あらゆる端末がつながる時代において、AI+5Gは欠かせない最も重要な基本機能であり、連携して機能する。クアルコムは両分野で主導的な立場にあり、端末側の技術開発をリードし続けている。

しかし、スーパーアシスタントにとって、スマート端末のコア技術がどれだけ速く発展しても、それは大規模な実装を準備するためのキャリアとしてしか機能しません。

スーパーアシスタントの最も重要な実装パスである AI テクノロジーから判断すると、私たちは最終目標からどれくらい離れているのでしょうか?

スーパーアシスタントになるまであとどれくらいでしょうか？

「アイアンマン」のジャービスのように、「モデルパワー時代」において、大衆が想像するスーパーアシスタントもまた、「すべてを調整する」AIパーソナルアシスタントです。

この点に関して、クアルコムの製品管理担当上級副社長兼 AI 責任者である Ziad Asghar 氏は、AI パーソナルアシスタントのビジョンを次のように説明しました。

あらゆる面から見ると、生産性アプリ、娯楽アプリなど、すべてのタスクを完了するには 1 つのアプリだけが必要になり、その後 AI パーソナルアシスタントを使用して「すべてを調整する」ことになります。これは非常に破壊的な変化です。

現在、AI技術は大規模モデルに代表される生成型AIの爆発的な成長段階に入っています。

クアルコムの社長兼CEOであるアモン氏は、インディペンデント紙との最近のインタビューで、端末に対する生成AIの重要性を強調した。

生成 AI により、ユーザーはファイルの検索効率を大幅に向上させ、直感的かつ効率的にビデオを作成および変更できるようになります。これらの処理機能を端末に導入することで、多数のアプリケーションシナリオが出現するでしょう。
スマートフォン業界に目を向けると、AIの発展が新たな成長サイクルの到来を告げると期待されています。強力な技術的変化だけが携帯電話市場の変化を推進することができます。私たちは、生成型 AI を一生に一度あるかないかのチャンスと捉えており、スマートフォンをベースにした新たなイノベーションの波は止められないものとなっています。

スーパーアシスタントを実現する可能性が最も高いと認められる道の一つとして、ビッグモデルには、そのようなスーパーアシスタントになるための3つの条件がまだあるかもしれません。

まず、考え方の変化、つまり自主的な学習能力の強化への進化です。

AlphaGo が人間を模倣するところから人間を超えるところまで進化したのと同じように、ここで重要なのは、AlphaGo に自己改善を教えるとともに、行動の目的を理解させることです。

さらに、ビッグモデルの思考方法も「システム 1」から「システム 2」に、つまり無思慮な予測から真にゆっくりとした合理的な思考に変わるはずです。

2 つ目は、機能強化です。単純なテキスト生成からマルチモーダル性、さらにはツールの使い方を学習する能力まで進化しています。

Ziad 氏は、この部分の鍵となるのは依然として適切なトレーニングデータの必要性であり、モデル自体のサイズはそれほど重要ではないと考えています。たとえば、OpenAI の GPT-3 には 1,750 億のパラメーターがありますが、LLaMA の 650 億のパラメーターで同じかそれ以上の結果を達成できます。

マルチモーダル性を例にとると、Stable Diffusion のテキストベースのグラフ機能は、ある意味ではすでにマルチモーダルですが、パラメータは数十億個しかありません。適切なデータが使用されている限り、大規模なモデルにモードを追加しても問題はなく、必ずしも「大規模」の方向に進む必要はありません。

3つ目はカスタマイズ機能です。つまり、端末上で専用の大型モデルをカスタマイズし、パーソナルスーパーアシスタント専用の技術を微調整することができます。

ジアド氏は、現在のビッグモデルを例に挙げ、たとえ一部の個人情報をクラウドビッグモデルに提供して「アシスタント」として計画を提供することができたとしても、最終的にはプライバシーやセキュリティ、さらには「記憶喪失」の問題に直面するだろうと述べた。

そのため、スーパーアシスタントを実現するためには、個人情報をクラウドにアップロードすることなく、ユーザーの安全を確保しながら、個人情報に基づいて微調整し、パーソナライズされたカスタマイズを実現できる大規模な端末モデルを作ることが、大きな道筋の一つとなる。

同時に、ユーザーの端末使用記録により、ビッグモデルは繰り返し「微調整」することでユーザーの意図をよりよく理解できるようになり、より「親密な」スーパーアシスタントになることができます。

クアルコムはすでに準備を進めている。第3世代Snapdragon 8のセンサーハブは、携帯電話の大規模なモデルのカスタマイズに役立ち、ユーザーの位置情報やアクティビティなどのパーソナライズされたデータをAIパーソナルアシスタントがより有効に活用できるようになります。

まとめると、将来のビッグモデルが主導するスーパーアシスタント形式は、新しいインテリジェントオペレーティングシステムになる可能性があります。

OpenAIの専門家Andrej Karpathy氏は、このようなオペレーティングシステムでは、ウィンドウと大規模モデルの埋め込みがメモリとハードディスクに相当し、コードインタープリター、マルチモーダル、ブラウザー、その他のAIアルゴリズムがシステム上のAPPであり、大規模モデル自体はCPUコアに相当し、すべてを調整およびスケジュールする役割を担っていると述べた。

したがって、スーパーアシスタントを実現するためには、大規模なモデルに加えて、より多くのシナリオでの環境認識とインタラクションの面で、より多くの AI テクノロジのサポートも必要です。

モバイル写真撮影を例にとると、AIGC生成機能に加えて、Snapdragon 8 Gen 3チップのコグニティブISPに導入されているセマンティックセグメンテーションや認識などの基本的な画像AIアルゴリズムをさらに強化することができ、計算能力を節約しながら携帯電話の環境認識機能も強化できます。

同時に、AI技術と組み合わせることで、音声制御による写真撮影、ビデオ編集、写真のシームレスな拡張などのアプリケーションも実現できます...

XR シナリオでは、最新の第 2 世代 Snapdragon XR2 と第 1 世代 Snapdragon AR1 プラットフォームは、平面検出、深度推定、3D 再構築、意味理解、オブジェクト認識、追跡などの AI アルゴリズムをデフォルトでサポートし、スマート端末のインタラクティブ機能をさらに強化します。

△第2世代Snapdragon XR 2をベースにしたワンクリックで部屋を「着せ替え」

モノのインターネットの分野では、第1世代のQualcomm S7およびS7 ProオーディオプラットフォームのAIパフォーマンスは、前世代の最大100倍まで向上できます。

これにより、ヘッドセットの AI アクティブノイズ低減機能が大幅に強化されるだけでなく、会議、ソーシャルネットワーキング、ゲームなど、さまざまなシナリオで異なるノイズ低減機能が得られます。

付属のセンサーデバイスもAIコンピューティング能力によって強化され、脈拍や耳の温度などの健康データをより安定して正確に測定し、インテリジェントな分析を実行できます。

自動車分野では、第4世代のSnapdragon Cockpit Extreme Platform （Snapdragon 8295）もAI技術を採用し、よりスマートなコックピット体験を実現しています。

Snapdragon 8295を搭載したJiyue 01を例にとると、搭載されているスマートコックピットは、車内知覚のオフライントレーニングをサポートし、車両側でのアルゴリズムの反復を実現できます。ユーザーは口を動かすだけで、コックピットは AI 理解アルゴリズムとマルチモーダル認識機能を組み合わせて、ニーズを正確に理解して対応できるようになります。

ジアド氏は、5年以内にAIが人と車の関わり方を完全に変えるだろうとさえ考えています。例えば、空港に行きたい、何かおいしいものを食べたい、コーヒーを買いたいと車に伝えると、車はこれら3つのニーズを正確に識別し、指定された場所までインテリジェントにナビゲートできるようになります。

明らかに、携帯電話、XR、モノのインターネット、自動車など、さまざまなスマート端末デバイスのインタラクション方法の変化は、それ自体のコンピューティング機能と接続機能の向上に加えて、最終的にはAI技術の発展に依存して実現される必要があります。

この道は、クアルコムが長年にわたり固執してきた統合 AI ルートでもあります。

クアルコムは、AIは最終的にはクラウドから端末、そしてクラウドと端末を接続するハイブリッドAI端末まで遍在し、新たなAI時代の到来を告げると考えています。

まさにこの一貫したルートに基づいて、クアルコムは「モデルパワー時代」で最初に成果を出し、さまざまな端末とコンピューティングアーキテクチャを AI で接続し、スーパーアシスタントという究極の目標に向けて一歩を踏み出すことができるのです。

究極のスーパーアシスタントがどのようなインタラクティブな形をとるかは誰にも予測できません。

しかし、予測できることは、AI技術を継続的に受け入れ、発展させることによってのみ、「モデルパワー時代」におけるインタラクション方法の変化をより迅速に推進し、スマート端末業界の発展をリードできるということです。

<<:

>>: GPT-4 に追いつく!李開復のYi-34Bの新しい結果が発表されました：勝率94.08％はLLaMA2などの主流の大型モデルを超えています