コストを70%削減する秘訣: これらの企業はAIをコスト効率よく活用する方法を見つけました

過去 6 か月間で、ChatGPT によってもたらされた AI の人気は誰もが直感的に感じることができます。

実際、直感にあまり当てはまらない場所でも、データは静かに変化しています。スタンフォード大学が発表した「2023 AI インデックスレポート」によると、2022 年に AI を導入する企業の割合は 2017 年から 2 倍以上に増加しています。これらの企業は、AI を導入した後、大幅なコスト削減と収益増加を報告しています。

2023年のデータはまだ出ていないものの、ChatGPTによって普及したAIGC分野を踏まえると、上記の数字が今年新たな転換点を迎えるだろうと推測するのは難しくありません。 AIGC は第 4 次産業革命の先駆けとなる可能性を秘めています。

しかし同時に、これらの企業は AI インフラの構築において新たな課題にも直面しています。

まず、コンピューティングパワーの面では、 AI分野におけるコンピューティングパワーの需要の高まりと供給不足の矛盾が今年特に激しくなっている。OpenAIのCEOサム・アルトマン氏でさえ、同社がコンピューティングパワーの不足に悩まされていることを認めており、同社のAPIの信頼性と速度については繰り返し不満が寄せられている。さらに、多くの企業は、需要の急増の波によって引き起こされるコンピューティングコストの上昇という問題にも直面しています。

第二に、モデルの選択に関して、多くの企業は、最も熱く議論されている大規模モデルは実際には成熟したビジネスモデルを持たず、セキュリティの面で依然として問題があることに気づきました。サムスンのデバイスソリューション部門を例に挙げてみましょう。ChatGPT を有効にしてから 1 か月も経たないうちに 3 件のデータ漏洩が発生し、当初 OpenAI API を直接呼び出す予定だった企業は中止を余儀なくされました。さらに、大規模なモデルを自分でトレーニングしてデプロイするのも非常に気が滅入ります。大規模なモデルにリクエストを送信するだけで、専用のコンピューティング用に高価な GPU カードが必要になる可能性があり、多くの企業にとってそれは手の届かないものです。

しかし、ChatGPT のようにすべてを把握している超大規模モデルは、企業にとって本当に必要なのでしょうか?ビジネスを支援するために AI モデルを実行するということは、GPU の規模を狂ったように拡大することを意味しますか?すでに AI を活用して効率性を向上させている企業はどのように取り組んでいるのでしょうか?いくつかの企業のベストプラクティスを分析した結果、参考になる回答がいくつか見つかりました。

すでにAIを導入している企業：パフォーマンスとコストの難しい選択

効率化のために人工知能を最初に適用した業界を分析すると、インターネットは避けて通れません。推奨システム、視覚処理、自然言語処理などの典型的なワークロードの最適化は、AI と切り離すことはできません。しかし、ビジネス量の急増に伴い、パフォーマンスとコストの面でさまざまな課題にも直面しています。

まずはレコメンデーションシステムについて見てみましょう。レコメンデーションシステムは、電子商取引、ソーシャルメディア、オーディオおよびビデオストリーミングなど、多くの分野で広く使用されています。電子商取引を例に挙げてみましょう。618やダブルイレブンなどの年間の買い物ピーク時には、アリババなどの大手電子商取引企業は、世界中の巨大な顧客ベースから数億件のリアルタイムリクエストに直面します。そのため、AI推論のスループットとレイテンシの要件を満たしながら、AI推論の精度と推奨の品質を確保したいと考えています。

次に、視覚処理について見てみましょう。Meituanだけでも、インテリジェントな画像処理、商店入場許可証の認識、自転車を始動するためのコードのスキャン、薬箱をスキャンして薬を購入するなど、さまざまな応用シナリオが見つかります。 AIはビジネス環境において非常に重要な部分となっています。しかし、Meituan のビジネスとユーザーベースの急速な成長に伴い、ますます多くのアプリケーションがビジュアル AI を通じてインテリジェントプロセスを構築する必要が生じています。Meituan は、よりインテリジェントなビジネスをサポートするために、ビジュアル AI 推論の精度を確保しながら、ビジュアル AI 推論のスループットを向上させる必要があります。

写真

最後に、自然言語処理について見てみましょう。 ChatGPT の人気により、自然言語処理はこれまでにない市場の注目と技術の追跡を獲得しています。国内のNLP技術研究の先駆者として、Baiduはこの分野で完全な製品システムと技術ポートフォリオを構築してきました。 ERNIE 3.0 は、PaddlePaddle Wenxin NLP 大規模モデルの重要な部分として、さまざまな NLP アプリケーションシナリオ、特に中国語の自然言語の理解と生成のタスクで優れたパフォーマンスを発揮しました。しかし、NLP がより多くの業界で商用化されるにつれて、ユーザーからは、より高い処理効率やより幅広い展開シナリオなど、ERNIE 3.0 に対するより詳細な要件も提示されるようになりました。

これらすべての問題を解決するには大規模なインフラ投資が必要ですが、これらの企業を悩ませている共通の問題は、独立した GPU はパフォーマンス要件を満たすことができるものの、コスト圧力が比較的高いため、盲目的に GPU の規模を拡大することは最善の選択肢ではないということです。

コスト効率の高いソリューション: ^Intel®第 4 世代^Xeon®スケーラブルプロセッサー

AI コミュニティには、「CPU は AI タスクには適していない」という固定観念があります。しかし、ハギング・フェイスの最高コミュニケーション責任者、ジュリアン・サイモン氏のプレゼンテーションは、その固定観念を打ち破った。彼の会社はインテルと協力し、ChatGPT に似たチャット体験を提供しながら、32 コアの^インテル^{® Xeon®}プロセッサーでのみ動作する Q8-Chat という生成 AI アプリケーションを開発しました。

この例が示すように、 CPU を使用して AI タスク (特に推論タスク) を実行することは、実際には業界では非常に一般的です。Alibaba、Meituan、Baidu はすべて、コンピューティング能力の問題を軽減するために関連ソリューションを使用しています。

アリババ：CPU を活用した次世代の電子商取引推奨システムで、ダブル 11 のピーク負荷圧力にうまく対処

前述のように、アリババは電子商取引推奨システム事業において、AI スループット、レイテンシー、推論精度の面で複数の課題に直面しています。パフォーマンスとコストのバランスをとるために、AI 推論などのワークロードの処理には CPU を使用することを選択します。

では、同時に複数のテストに耐えられる CPU とはどのようなものでしょうか?答えは当然、 ^Intel®第 4 世代^Xeon®スケーラブルプロセッサーです。

このプロセッサは今年初めに正式にリリースされました。一連のマイクロアーキテクチャの革新と技術仕様のアップグレードに加えて、新しい CPU の「高度な」 AI コンピューティングのサポートも特別な注目を集めており、特にこの世代の製品に追加された Intel の新しい組み込み AI アクセラレータである Intel Advanced Matrix Extensions (AMX) が注目されています。

実際のワークロードでは、 ^Intel® AMX は BF16 と INT8 の両方のデータ型をサポートしており、CPU はハイエンドの汎用グラフィックスプロセッサー (GPGPU) のように DNN ワークロードを処理できます。 BF16 のダイナミックレンジは標準 IEEE-FP32 と同じですが、精度は FP32 よりも低くなります。ほとんどの場合、BF16 形式と FP32 形式のモデルの推論結果は同程度に正確ですが、BF16 では FP32 の半分のサイズのデータしか処理する必要がないため、BF16 のスループットは FP32 よりもはるかに高く、メモリ要件が大幅に削減されます。

もちろん、AMX 自体のアーキテクチャも AI コンピューティングを高速化するように設計されています。このアーキテクチャは、より大きなデータブロックを格納できる 2D レジスタファイル (TILE) と、TILE を処理して 1 回の操作でより大きな行列の命令を計算できる加速ユニットである TILE 行列乗算ユニット (TMUL) の 2 つのコンポーネントで構成されています。

この新しいアーキテクチャにより、 ^Intel® AMX は世代間で大幅なパフォーマンスの向上を実現します。 ^Intel® Advanced ^Vector Extensions 512 Neural Network Industries (AVX-512 VNNI) を実行する第 3 世代 Intel® ^Xeon®スケーラブルプロセッサーと比較すると、 ^Intel® AMX を実行する第 4 世代^Intel® ^Xeon®スケーラブルプロセッサーでは、コンピューティングサイクルあたりの INT8 演算数が 256 から 2048 に、コンピューティングサイクルあたりの BF16 演算数が 1024 に増加しています。一方、第 3 世代^{Intel® Xeon®}^{スケーラブル}プロセッサーでは、64 の FP32 演算しか実行されません。

写真

^Intel® AMX の高度なハードウェア機能により、十分な精度を確保しながら、Alibaba のコア推奨モデルに画期的な AI 推論パフォーマンスがもたらされました。 Alibaba は、 ^Intel® oneAPI ディープニューラルネットワークライブラリ ( ^Intel® oneDNN) を使用して、CPU を微調整し、効率を最大限に高めます。

下の図は、AMX、BF16 混合精度、8 チャネル DDR5、より大きなキャッシュ、より多くのコア、効率的なコア間通信、ソフトウェアの最適化を組み合わせることで、主流の 48 コアの第 4 世代 Intel® ^Xeon®スケーラブルプロセッサーがプロキシモデルのスループットを^2.89倍に増加し、主流の 32 コアの第 3 世代^Intel® ^Xeon®スケーラブルプロセッサーを上回り、レイテンシを厳密に 15 ミリ秒未満に保ちながら、推論精度が依然として要件を満たすことができることを示しています。

写真

最適化されたソフトウェアとハードウェアは、アリババの実際のビジネス環境に導入され、一連の検証に合格し、アリババのダブル11ショッピングフェスティバル中のピーク負荷圧力への対応など、アリババの生産基準を満たしています。

さらに、Alibaba は、第 4 世代^Intel® ^Xeon®スケーラブルプロセッサーへのアップグレードによるパフォーマンス上のメリットがハードウェアコストをはるかに上回り、投資収益率が非常に明白であることを発見しました。

美団: CPU を使って低トラフィックのロングテール視覚 AI 推論を実行し、サービスコストを 70% 削減

前述のように、Meituan は事業拡大の過程で、ビジュアル AI 推論サービスのコスト高という課題に直面しています。実際、この問題は固定されたものではありません。一部の低トラフィックのロングテールモデル推論サービスの負荷圧力とレイテンシ要件は比較的低く、CPU によって完全にサポートできます。

Meituan は、複数のビジュアル AI モデルで Intel® ^AMXアクセラレーションテクノロジーを使用して、モデルデータ型を FP32 から BF16 に動的に変換し、スループットを向上させて、許容できる精度の低下で推論を高速化します。

最適化後のパフォーマンス向上を検証するために、Meituan は、 ^Intel® AMX アクセラレーションテクノロジーを使用して変換された BF16 モデルの推論パフォーマンスをベースライン FP32 モデルと比較しました。テストデータは下図の通りです。モデルをBF16に変換すると、モデルの推論性能は3.38～4.13倍向上します。同時に、Top1とTop5の精度低下は0.01%～0.03%以内にほぼ抑えられます。

写真

パフォーマンスの向上により、Meituan は既存のインフラストラクチャの潜在能力をさらに発揮し、GPU の導入と運用保守にかかる高額なコストを削減し、サービスコストを 70% 節約できるようになりました。

Baidu: 蒸留モデルをCPU上で実行し、より多くの業界とシナリオを解き放つ

周知のとおり、モデル内のレイヤーやパラメータが増えると、モデルのサイズが大きくなり、コンピューティングリソースの要件が厳しくなり、推論時間が長くなります。ビジネスレスポンスのスピードや構築コストに敏感なユーザーにとって、これは導入と使用のハードルを間違いなく引き上げます。したがって、NLP の分野では、モデルの小型化が一般的な最適化の方向となります。

Baidu もこのアプローチを採用し、モデル軽量化技術を使用して ERNIE 3.0 大規模モデルを抽出および圧縮し、より多くの業界やシナリオに普及させました。これらの軽量モデル (ERNIE-Tiny) は応答性に優れているだけでなく、高価な専用の AI コンピューティング機器なしで導入できるという重要な利点もあります。したがって、より強力な汎用コンピューティングプラットフォームと最適化ソリューションを導入することは、ERNIE-Tiny がより高い効率を実現するためのもう 1 つの重要な手段となっています。

この目的のために、BaiduとIntelは緊密な技術協力を開始し^ました。一方では、第4世代Intel® ^Xeon®スケーラブル・プロセッサーをERNIE-Tinyの推論および計算プロセスに導入し、他方では、 ^Intel® oneAPIディープ・ニューラル・ネットワーク・ライブラリーを介して^Intel® AMX命令を呼び出すなど、いくつかの最適化措置を推進し、ERNIE-TinyがAMXによってもたらされるパフォーマンス加速の恩恵をより十分に活用できるようにしました。

比較テストのデータによると、AI アクセラレーションを実現するために^Intel® AVX ^- 512_VNNI テクノロジーを採用したシングルおよびデュアルソケットの第 3 世代 Intel® ^Xeon®スケーラブルプロセッサーと比較して、ERNIE-Tiny は^Intel® AMX テクノロジーを内蔵した第 4 世代 Intel® ^Xeon®スケーラブルプロセッサーにアップグレードした後、全体的なパフォーマンスが 2.66 倍向上し、満足のいく結果が得られました^。

写真

現在、さまざまな ERNIE-Tiny が、ゼロスレッショルド AI 開発プラットフォーム EasyDL、フル機能^AI開発プラットフォーム BML、ERNIEKit (Ultimate Edition) 製品に導入されているだけでなく、プラットフォームや製品の他の機能と連携して、第 4 世代 Intel® ^Xeon®スケーラブルプロセッサーに基づくインフラストラクチャ上で、テキスト分類、関係抽出、テキスト生成、質問応答機能をユーザーに提供します。

Alibaba、Meituan、Baidu の実際の経験から、実際の生産環境では、実際に役割を果たしているのは、依然としていくつかの小規模な AI モデルであることがわかります。これらのモデルの導入にはすでに成熟したソリューションが用意されており、 ^Intel® ^Xeon® CPU とそれをサポートするソフトウェアおよびハードウェアアクセラレーションソリューションを利用することで、大幅なコスト効率を実現できます。

もちろん、AIGC の力強い台頭により、多くの企業もこのような大型モデルに目を向けるようになりました。しかし、前述したように、大規模なモデル API を呼び出すか、自分でトレーニングしてデプロイするかには、独自の問題があります。経済的で効率的かつ安全なソリューションをどのように選択するかは、企業が直面する難しい問題です。

AIGC時代が到来、企業はどう対応すべきか？

企業が AIGC を採用するということは、「すべてを知る」超大規模モデルが必要になるということでしょうか?これに対して、ボストンコンサルティンググループ (BCG) は否定的な回答をしました。

彼らが選択した解決策は、独自のデータを使用して業界固有のモデルをトレーニングすることでした。このモデルはそれほど大きくはないかもしれませんが、過去 50 年以上にわたる BCG の極秘の独自データに関する洞察を提供します。同時に、すべての AI トレーニングと推論は BCG のセキュリティ標準に完全に準拠しています。

このソリューションの背後には、 ^Intel®第 4 世代^Xeon®スケーラブルプロセッサーと^Habana® ^Gaudi2® AI ハードウェアアクセラレーターを搭載した Intel AI スーパーコンピューターがあります。前者は PyTorch での AI トレーニングパフォーマンスを前世代の最大 10 倍向上させることができ、後者はコンピュータービジョン (ResNet-50) と自然言語処理 (BERT ファインチューニング) で NVIDIA A100 を上回り、コンピュータービジョンでは H100 とほぼ同等です。これら 2 つの強力な組み合わせにより、BCG はコスト効率の高い AIGC ソリューションセットを実現できます。

BCG の従業員は、チャットボットインターフェイスを使用して、セマンティック検索によって、長い複数ページのドキュメントリストから有用な情報を取得、抽出、要約できます。 BCG の報告によると、これにより、既存のキーワード検索ソリューションと比較して、ユーザー満足度が 41%、結果精度が 25%、ジョブ完了率が 39% 向上しました。

従来の中小規模の AI であれ、現在有望視されている AIGC 業界の大規模モデルであれ、AI アクセラレーションには GPU が唯一の選択肢ではないことがわかります。しかし、モデルの規模に関係なく、Intel はコスト効率の高いソフトウェアとハードウェアのソリューションの組み合わせを提供します。

AIを活用して効率化を図りたい企業にとって、どの程度の規模のモデルを選ぶべきか、どのようなソフトウェアやハードウェアのインフラを構築すべきかという標準的な答えはありません。いわゆる超大規模モデルや超大規模GPUコンピューティングクラスターは必要ないかもしれません。ビジネスの特性と属性に基づいてビジネスに適した技術ソリューションを選択することは、最適なソリューションを実現するための重要な要素です。

<<: ChatGPT は IT ネットワークエンジニアの代わりになるのでしょうか?

>>: ChatGPTから何を学びましたか?