最近では、Android メーカーは大きなモデルなしで携帯電話の発表会を開催しようとはしません。 OPPOは音声アシスタントのビッグモデルをアップグレードしたばかりで、続いてvivoが自社開発の携帯電話AIビッグモデルを正式に発表した。 Xiaomiの記者会見では、大型モデルがその場で携帯電話システムに直接組み込まれました...競争はチップの初発売と同じくらい激しいです。 何が起こっているのか? その理由は、スマート端末がさまざまな AIGC アプリケーションの実装のための「新たな橋頭保」となっているからです。 まず、大規模な画像生成モデルが次々と携帯電話に詰め込まれ、数十億のパラメータを持つ安定拡散からゴールデンレトリバーの子犬が携帯電話上ですぐに生成されました。 △画像出典:Android Authority 15 億のパラメータを持つ ControlNet を携帯電話で実行して、制限された画像構造を持つ AI 風景写真をすばやく生成します。 その後、大手テキスト生成モデルも新しいモバイル アプリケーションを急いでリリースしました。 中国では文心易眼や知普青眼のアプリがあり、海外ではOpenAIのモバイル版ChatGPTがあり、Llama 2のモバイル版も鋭意準備中です。 現在、大型スマート端末ブームの波の中で、最も基本的なソフトウェアとハードウェアの技術の歯車が回り始めています。 Qualcomm から Apple まで、最新のチップメーカーの記者会見ではいずれも、機械学習と大規模モデルに対するソフトウェアとハードウェアのサポートが強調されています。 AppleのM3は「数十億のパラメータ」を持つ機械学習モデルを実行でき、QualcommのSnapdragon X EliteとSnapdragon 8 Gen 3はすでに、それぞれ130億と100億のパラメータモデルをコンピューターと携帯電話にロードできるようになっている。 そして、これは単に数値的なパラメータがサポートされたり、スムーズに実行されたりしたというだけではなく、実際に実用化できるレベルに達しています。 △クアルコムの現地デモと携帯電話の10億ドルモデルとの対話 数十億から数百億まで、より大きなパラメータを持つモバイル AI モデルは、より優れたエクスペリエンスを示唆しますが、より困難な課題も伴います。 チャンスと課題が共存するこの大型モデルの時代は、「モデルパワーの時代」とも言えるかもしれません。 「モデルパワー時代」において、チップメーカーは、大型モデルをスマート端末に移植する際に直面する計算能力、サイズ、消費電力の限界をどうやって打破できるのでしょうか。 さらに、ビッグモデルの登場により、基盤となるチップ設計にどのような変化がもたらされたのでしょうか? それを分解して慎重に分析する時が来ました。 「モデルパワー時代」ではAIを中心にハードウェアが誕生大規模なモデル化の嵐が始まって以来、コンピューティング能力はテクノロジー界でホットな話題となっています。 つい最近、OpenAI は、DevDay 後に「予想をはるかに超える」大規模なモデル呼び出しトラフィックが原因ですべての製品がダウンするという、史上最大の事故を経験しました。 クラウドと比較すると、モバイル端末の計算能力はより制限されています。大規模なモデルを携帯電話に搭載する場合、当然ながら計算能力が最初の課題となります。 コンピューティング ユニットに加えて、メモリ ユニットの制限は、大規模モデルが携帯電話に参入する際に直面する 2 番目のハードルです。大規模モデルの推論には、それをサポートする大量のコンピューティング リソースが必要です。同時に、メモリ サイズによって、データ処理速度の上限と推論の安定性が決まります。 さらに、携帯電話で大きなモデルを実行すると、バッテリーへの負担も大きくなります。したがって、チップのエネルギー消費が重要な問題になります。 大手メーカーの最新の調査から、ソリューションは現在、ソフトとハードの 2 つのアプローチに分かれていることがわかります。 まずはハードウェアを見てみましょう。 Qualcomm の最新の第 3 世代 Snapdragon 8 モバイル プラットフォームは、Qualcomm の「生成 AI 専用に構築された初のモバイル プラットフォーム」として位置付けられています。 端末側で100億パラメータの大規模モデル、70億パラメータの大規模言語モデルを実行し、1秒あたり20トークンを生成できます。 以前の世代と比較して、第3世代Snapdragon 8で最も重要な変更点は、端末側でAI推論の加速を推進するQualcomm AIエンジンです。 この AI エンジンは、Qualcomm Hexagon NPU、Adreno GPU、Kryo CPU、センサー ハブなど、複数のハードウェアとソフトウェアで構成されています。 最もコアで AI に最も関連が深いのはHexagon NPUです。 Qualcomm が発表したデータによると、Hexagon NPUはパフォーマンスが前世代よりも 98% 高速化され、消費電力も 40% 削減されています。 具体的には、Hexagon NPU は新しいマイクロアーキテクチャをアップグレードしました。より高速なベクター アクセラレータのクロック速度、より強力な推論テクノロジ、より多くの高速な Transformer ネットワークのサポートなどにより、生成 AI に対する Hexgon NPU の応答性が総合的に向上し、モバイル フォン上の大規模なモデルがユーザーの質問に数秒で回答できるようになりました。 第3世代Snapdragon 8では、Hexagon NPUに加えて、次世代マイクロNPUの追加、AIパフォーマンスの3.5倍向上、メモリの30%増加など、Sensing Hubにも多大な力を入れました。 注目すべきは、担当者が Sensing Hub は携帯電話上で大きなモデルを「カスタマイズ」するのに役立つと述べたことです。常に認識している Sensing Hub は、大規模なモデルと連携して、ユーザーの位置情報やアクティビティなどのパーソナライズされたデータを生成 AI でより有効に活用できるようにします。 メモリに関しては、第3世代Snapdragon 8はLPDDR5Xをサポートし、周波数は4.2GHzから4.8GHzに向上し、帯域幅は77GB/s、最大容量は24GBとなっています。 データ転送速度の高速化と帯域幅の拡大により、第 3 世代 Snapdragon 8 はより大規模で複雑な AI モデルをサポートできるようになります。 さらに、今回クアルコムはメモリとHexagon NPUベクターユニット間の直接接続チャネルを追加し、AI処理効率をさらに向上させました。 偶然にも、Snapdragon Summitの期間中、SK Hynixは、自社製品LPDDR5TがQualcommの第3世代Snapdragon 8で9.6Gbpsの速度でパフォーマンスと互換性の検証を完了したことも発表した。このことから、第3世代Snapdragon 8を搭載した携帯電話は、メモリの面でより多くの選択肢を持っていることがわかります。 また、CPUに関しても、第3世代Snapdragon 8は「1+5+2」アーキテクチャ(メインコア1個、パフォーマンスコア5個、省エネコア2個)を採用。前世代の「1+4+3」と比較すると、省エネコア1個がパフォーマンスコアに転換されている。そのうち、スーパーコア周波数は3.3GHzに、パフォーマンスコア周波数は最大3.2GHzに、エネルギー効率コア周波数は2.3GHzに増加しています。 新しいアーキテクチャでは、Kryo CPU のパフォーマンスが 30% 向上し、消費電力が 20% 削減されます。 GPUに関しては、第3世代のSnapdragon 8はパフォーマンスとエネルギー効率の両方で25%の向上を達成しました。 AI エンジンに加えて、第 3 世代 Snapdragon 8 の ISP やモデムなどの他のモジュールも AI 遺伝子に根ざしていることは注目に値します。 現在、Qualcomm のコグニティブ ISP は次のようになります。
このモデムには5G AI プロセッサも搭載されており、信号の整合性と信号対雑音比を分析することで、AI は無線帯域幅や遅延などのパフォーマンス指標を改善できます。 この観点から、携帯電話に大型モデルが参入する過程において、業界リーダーのハードウェアソリューションは次の 2 つの側面から要約できます。 1つ目は、コンピューティング能力、メモリ、エネルギー消費の3つの要素のパフォーマンスを向上させ、電力消費のバランスをとることです。 2つ目は、AIを活用してハードウェアを定義し、AI技術自体とのより深い統合を実現することです。 しかし、ハードウェア技術は大型モデルをスマート端末に移植する際の主要な困難を解決できるものの、それを実際に実用化するには、まだ別のハードルを乗り越える必要があります。 大規模モデルソフトウェア開発のハードルを下げるこのしきい値は、次の 2 つの具体的な問題に分類できます。
これら 2 つの大きな問題を解決するには、ハードウェア側から始めるだけでなく、ソフトウェア開発でも準備する必要があります。 まず、アーキテクチャやアルゴリズムに違いがあっても携帯電話に搭載できるよう、スマート端末のさまざまな大型モデルへの適応性を高める必要がある。 最新の大型モデルが想定よりも大型化した場合でも、性能に影響を与えずにスマート端末に適用できることを確認する必要があります。 ここでも、Qualcomm を例に挙げます。 最短で 10 億パラメータの Stable Diffusion を携帯電話で実行することから、Snapdragon 8 Gen 3 に基づく 100 億パラメータの大規模モデルに迅速に適応することまで、実際にはある種のソフトウェア機能と切り離すことはできません。 AI圧縮技術。 最新の AI 圧縮技術は、今年のトップ AI カンファレンスで Qualcomm が発表したいくつかの論文から見ることができます。 たとえば、NeurIPS 2023 に掲載されたこの論文では、現在の大規模モデルの「基礎」である Transformer アーキテクチャに関する定量的な研究が行われました。 量子化は AI モデルを圧縮するための古典的な方法です。ただし、Transformer モデルを圧縮すると、いくつかの問題が発生することがよくあります。 この論文では、Transformer モデルを量子化する 2 つの方法を提案しています。これにより、圧縮効果を確保しながらモデル出力のパフォーマンスがさらに向上し、モデルが「より小さく、より良く」見えるようになります。 そして、大規模モデルソフトウェアの異なるソフトウェア端末間の互換性を高め、その実装をさらに加速させることも必要です。 大規模なモデルの場合、あるハードウェア デバイスから別のハードウェア デバイスへの移行は、思ったほど簡単ではありません。 ハードウェア構成は、コンピューティング プラットフォームによって大きく異なることがよくあります。コンピューターで実行できる大規模なモデルが、必ずしもモバイル フォンですぐに実行されるとは限りません。 これは、多種多様なタイプと複雑なコンポーネントを備えたスマート端末に大規模なモデルを実装することを妨げるもう 1 つの理由です。 この点に関して、Qualcomm は「コンバータ」の役割を果たす準備をしています。それが Qualcomm AI ソフトウェア スタックです。 これは、多数の AI テクノロジを含むツールキットです。さまざまな主流の AI フレームワーク、さまざまなオペレーティングシステム、さまざまなプログラミング言語を完全にサポートし、スマート端末上のさまざまな AI ソフトウェアの互換性を向上させることができます。 それだけでなく、このソフトウェア スタックには Qualcomm AI Studio も含まれており、これは Qualcomm のすべての AI ツールを統合して直接ビジュアル開発を行うことに相当します。 その中には、AI モデル拡張ツールキット、モデル アナライザー、ニューラル ネットワーク アーキテクチャ検索 (NAS) がすべて含まれています。 AI ソフトウェアは、設計、最適化、展開から分析までの「プロセス」を経るだけで、他のオペレーティング システムやプラットフォームで実行できるソフトウェア製品にすぐに変換できます。 大規模なモデルソフトウェアであっても、一度の開発で、適応の問題を気にすることなく複数のプラットフォームで実行できるようになります。たとえば、Stable Diffusion がデプロイされており、必要に応じて他のプラットフォームも使用できます。 この方法では、数百億のパラメータを持つ大規模なモデルを携帯電話に詰め込むことができるだけでなく、自動車、XR、PC、モノのインターネットにも詰め込むことができます。 多種多様な機器タイプという本来のデメリットもメリットに変えることができ、大規模モデルソフトウェアの実装をさらに加速します。 要約すると、大規模なモデルをスマート端末に移植するために必要な技術には、ハードパワーだけでなくソフトウェアのリソースも必要です。 では、ビッグモデルの時代に飛躍する準備ができているモバイル ソフトウェアおよびハードウェア メーカーは、この貴重な機会をどう捉えることができるのでしょうか。 言い換えれば、ビッグモデルの時代に技術の波の先頭に立つために、メーカーは事前にどのような準備をすべきなのでしょうか。 ビッグモデルの時代に求められる端末チップとは?それぞれの時代には独自のコンピューティング アーキテクチャがあります。 これは、ディープラーニングの時代、コンピュテーショナルフォトグラフィーの時代、大規模モデルの時代にも当てはまります。 ソフトウェアかハードウェアかを問わず、「モデルパワー時代」のスマート端末チップの評価基準は静かに変化してきました。 一方、ハードウェア性能の面では、チップは単純なハードウェア性能比較、コンピューティング能力の競争、消費電力計算から、AIコンピューティング能力の競争、さらにはAIソフトウェアとハードウェアの技術能力に対する包括的な要件へと徐々に変化してきました。 この変革は、大手モデルメーカーの技術蓄積の変化からも見て取れます。 Microsoft を例に挙げてみましょう。このテクノロジー大手のクラウド ベンダーは最近、大規模モデルのトレーニングなど、AI ソフトウェアとハードウェアを組み合わせたテクノロジーに注力し始めました。 Microsoft が最近実施したトレーニング研究では、FP8 精度で大規模モデルをトレーニングする効果が体系的に説明されました。トレーニング済みモデルのパフォーマンスを確保しながら、同じハードウェア コストで、より大きなモデルをトレーニングすることが可能です。 △画像出典: FP8-LM: FP8 大規模言語モデルのトレーニングAIアルゴリズム研究で有名なOpenAIがチップ製造の意向を明らかにし、ハードウェア技術に注力し始めた。 さまざまなテクノロジー大手の最新の研究から、急速な技術発展の時代において、切り札を持っているだけではチャンスをつかみ、自分の価値を実現できる可能性はますます低くなっていることがわかります。 「ハードウェア企業が優れたチップを作り、ソフトウェア企業が優れたアルゴリズムを作る」という段階に留まると、必然的に当社を狙う他のメーカーに追い抜かれ、「モデルパワー時代」における既存の競争力を失うことになるでしょう。 ハードウェアのシナリオで優位性を持つチップ企業にも同じことが当てはまります。 ハードウェアの性能向上だけでなく、時代に合わせてソフトウェア技術スタックを拡充し、ソフトウェアとハードウェアを組み合わせたAI機能を強化していくことも重要です。 Qualcomm は先日公開したホワイトペーパーの中で、個人用スマート端末に大規模なモデルを展開するには、ハードウェアだけでなく、モデルのパーソナライズやコンピューティング能力などの問題も考慮する必要があると述べています。 しかし、クアルコムは大手モデルメーカーがこれらの問題を解決するのを待つのではなく、独自のソフトウェア研究を行うことを選択し、最新の結果も論文にまとめられ、リアルタイムで共有されました。 この方法でのみ、アルゴリズム ソフトウェア側のハードウェアに対する要件をより深く理解し、チップのパフォーマンスをより向上させることができます。 一方、計算能力が限られており、ユーザーの範囲が広い端末の場合、将来のトレンドは必然的にシームレスな相互接続になるでしょう。つまり、クロスプラットフォームの適用性が AI ソリューションの鍵となるということです。 この傾向は、今年の Snapdragon Summit で発表された Snapdragon Seamless テクノロジーからも見て取れます。 たとえば、マウスを使用して、タブレット上の写真を 1 回のクリックで PC に「移動」し、コンピューター上ですばやく処理することができます。 処理が完了したら、別のデバイスで写真を開き、PC キーボードを使用して名前を変更できます。 たとえ1台のデバイスにキーボードとマウスしかなくても、さまざまなデバイスをシームレスに制御でき、さらにはAIソフトウェアをさまざまなデバイス間で障害なく接続して使用することもできます。 データ伝送の遅延が問題ではなくなる将来、複数端末の連携と相互接続がスマート端末の次の未来となることは間違いありません。 携帯電話やPCなどの異なる端末機器間でデータを共有できるだけでなく、携帯電話やPCの音声をヘッドフォン間でシームレスに切り替えるなど、異なるOS間での一連のスムーズな操作を同一デバイスで実現することも可能です。 このシステムにより、これまでは携帯電話でしか利用できなかったAIアプリケーションを、PC、XR、タブレット、自動車など数千万台のスマート端末に展開できるようになります。 これにより、ビッグモデルは特定のデバイスやオペレーティングシステムに限定されなくなり、1種類の端末に実装されているAI機能をより多くのデバイスに迅速に適用できるようになり、最終的には「あらゆるものがビッグモデルになる」という運用が実現します。 まとめると、ビッグモデルの時代において、AIメーカーはソフトウェアとハードウェアを組み合わせる能力を持つ必要があるだけでなく、スマート端末におけるInternet of Everythingの将来を事前に計画し、「接続」技術を使用してさまざまなシナリオでのビッグモデルの実装を加速する必要があります。 クアルコムはすでに独自の行動方針を概説している。 他のさまざまな企業にとっては、「モデルパワー時代」における新たな活路を見つけるために、シナリオの中で自社の価値を探求する必要がある。 |
<<: 博士課程の学生がランキングの不正行為を識別するオープンソースのAI数学「魔法の鏡」をリリースした
>>: 2023年の人工知能の進歩を、大きなモデルだけでなく考察する記事
ピリパ・インテリジェンス・アンド・タックスが主催する2018年企業サービス+ウィズダムフォーラムが、...
LEONARDO は、カリフォルニア工科大学の航空宇宙ロボット工学および制御研究所の言語の天才たちの...
編集者注: この記事の著者は、USTC のジュニアクラスの卒業生で投資家の Wang Chuan で...
最近、Google の I/O 開発者会議で、Google は魅力的な新しい携帯電話、AR グラス、...
平均と分散のマップ削減一連の数値の平均と分散の式は誰にとっても明らかだと思います。マップ関数とリデュ...
通常、人間が機械を作るのは、達成するのが難しいタスクを人間が完了するのを助けるためだけです。自然災害...
人工知能は、SFの世界のものから、私たちの日常生活に影響を与える重要な技術へと変化しました。現在、多...
編纂者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...
人口は飛躍的に増加しており、農業は人口を養う問題を解決する必要がある。農業をより効率的かつ持続可能な...
序文:約 60,000 時間のビデオから、ある人物の素晴らしい瞬間の 1 分を見つけるにはどうすれば...