コストを70%削減する秘訣: これらの企業はAIをコスト効率よく活用する方法を見つけました

コストを70%削減する秘訣: これらの企業はAIをコスト効率よく活用する方法を見つけました

過去 6 か月間で、ChatGPT によってもたらされた AI の人気は誰もが直感的に感じることができます。

実際、直感にあまり当てはまらない場所でも、データは静かに変化しています。スタンフォード大学が発表した「2023 AI インデックス レポート」によると、2022 年に AI を導入する企業の割合は 2017 年から 2 倍以上に増加しています。これらの企業は、AI を導入した後、大幅なコスト削減と収益増加を報告しています。

2023年のデータはまだ出ていないものの、ChatGPTによって普及したAIGC分野を踏まえると、上記の数字が今年新たな転換点を迎えるだろうと推測するのは難しくありません。 AIGC は第 4 次産業革命の先駆けとなる可能性を秘めています。

しかし同時に、これらの企業は AI インフラの構築において新たな課題にも直面しています

まず、コンピューティングパワーの面では、 AI分野におけるコンピューティングパワーの需要の高まりと供給不足の矛盾が今年特に激しくなっている。OpenAIのCEOサム・アルトマン氏でさえ、同社がコンピューティングパワーの不足に悩まされていることを認めており、同社のAPIの信頼性と速度については繰り返し不満が寄せられている。さらに、多くの企業は、需要の急増の波によって引き起こされるコンピューティングコストの上昇という問題にも直面しています。

第二に、モデルの選択に関して、多くの企業は、最も熱く議論されている大規模モデルは実際には成熟したビジネスモデルを持たず、セキュリティの面で依然として問題があることに気づきました。サムスンのデバイスソリューション部門を例に挙げてみましょう。ChatGPT を有効にしてから 1 か月も経たないうちに 3 件のデータ漏洩が発生し、当初 OpenAI API を直接呼び出す予定だった企業は中止を余儀なくされました。さらに、大規模なモデルを自分でトレーニングしてデプロイするのも非常に気が滅入ります。大規模なモデルにリクエストを送信するだけで、専用のコンピューティング用に高価な GPU カードが必要になる可能性があり、多くの企業にとってそれは手の届かないものです。

しかし、ChatGPT のようにすべてを把握している超大規模モデルは、企業にとって本当に必要なのでしょうか?ビジネスを支援するために AI モデルを実行するということは、GPU の規模を狂ったように拡大することを意味しますか?すでに AI を活用して効率性を向上させている企業はどのように取り組んでいるのでしょうか?いくつかの企業のベストプラクティスを分析した結果、参考になる回答がいくつか見つかりました。

すでにAIを導入している企業:パフォーマンスとコストの難しい選択

効率化のために人工知能を最初に適用した業界を分析すると、インターネットは避けて通れません。推奨システム、視覚処理、自然言語処理などの典型的なワークロードの最適化は、AI と切り離すことはできません。しかし、ビジネス量の急増に伴い、パフォーマンスとコストの面でさまざまな課題にも直面しています。

まずはレコメンデーションシステムについて見てみましょう。レコメンデーション システムは、電子商取引、ソーシャル メディア、オーディオおよびビデオ ストリーミングなど、多くの分野で広く使用されています。電子商取引を例に挙げてみましょう。618やダブルイレブンなどの年間の買い物ピーク時には、アリババなどの大手電子商取引企業は、世界中の巨大な顧客ベースから数億件のリアルタイムリクエストに直面します。そのため、AI推論のスループットとレイテンシの要件を満たしながら、AI推論の精度と推奨の品質を確保したいと考えています。

次に、視覚処理について見てみましょう。Meituanだけでも、インテリジェントな画像処理、商店入場許可証の認識、自転車を始動するためのコードのスキャン、薬箱をスキャンして薬を購入するなど、さまざまな応用シナリオが見つかります。 AIはビジネス環境において非常に重要な部分となっています。しかし、Meituan のビジネスとユーザー ベースの急速な成長に伴い、ますます多くのアプリケーションがビジュアル AI を通じてインテリジェント プロセスを構築する必要が生じています。Meituan は、よりインテリジェントなビジネスをサポートするために、ビジュアル AI 推論の精度を確保しながら、ビジュアル AI 推論のスループットを向上させる必要があります。

写真

最後に、自然言語処理について見てみましょう。 ChatGPT の人気により、自然言語処理はこれまでにない市場の注目と技術の追跡を獲得しています。国内のNLP技術研究の先駆者として、Baiduはこの分野で完全な製品システムと技術ポートフォリオを構築してきました。 ERNIE 3.0 は、PaddlePaddle Wenxin NLP 大規模モデルの重要な部分として、さまざまな NLP アプリケーション シナリオ、特に中国語の自然言語の理解と生成のタスクで優れたパフォーマンスを発揮しました。しかし、NLP がより多くの業界で商用化されるにつれて、ユーザーからは、より高い処理効率やより幅広い展開シナリオなど、ERNIE 3.0 に対するより詳細な要件も提示されるようになりました。

これらすべての問題を解決するには大規模なインフラ投資が必要ですが、これらの企業を悩ませている共通の問題は、独立した GPU はパフォーマンス要件を満たすことができるものの、コスト圧力が比較的高いため、盲目的に GPU の規模を拡大することは最善の選択肢ではないということです。

コスト効率の高いソリューション: Intel®第 4 世代Xeon®スケーラブル プロセッサー

AI コミュニティには、「CPU は AI タスクには適していない」という固定観念があります。しかし、ハギング・フェイスの最高コミュニケーション責任者、ジュリアン・サイモン氏のプレゼンテーションは、その固定観念を打ち破った。彼の会社はインテルと協力し、ChatGPT に似たチャット体験を提供しながら、32 コアのインテル® Xeon®プロセッサーでのみ動作する Q8-Chat という生成 AI アプリケーションを開発しました。

この例が示すように、 CPU を使用して AI タスク (特に推論タスク) を実行することは、実際には業界では非常に一般的です。Alibaba、Meituan、Baidu はすべて、コンピューティング能力の問題を軽減するために関連ソリューションを使用しています

アリババ:CPU を活用した次世代の電子商取引推奨システムで、ダブル 11 のピーク負荷圧力にうまく対処

前述のように、アリババは電子商取引推奨システム事業において、AI スループット、レイテンシー、推論精度の面で複数の課題に直面しています。パフォーマンスとコストのバランスをとるために、AI 推論などのワークロードの処理には CPU を使用することを選択します。

では、同時に複数のテストに耐えられる CPU とはどのようなものでしょうか?答えは当然、 Intel®第 4 世代Xeon®スケーラブル プロセッサーです。

このプロセッサは今年初めに正式にリリースされました。一連のマイクロアーキテクチャの革新と技術仕様のアップグレードに加えて、新しい CPU の「高度な」 AI コンピューティングのサポートも特別な注目を集めており、特にこの世代の製品に追加された Intel の新しい組み込み AI アクセラレータである Intel Advanced Matrix Extensions (AMX) が注目されています。

実際のワークロードでは、 Intel® AMX は BF16 と INT8 の両方のデータ型をサポートしており、CPU はハイエンドの汎用グラフィックス プロセッサー (GPGPU) のように DNN ワークロードを処理できます。 BF16 のダイナミック レンジは標準 IEEE-FP32 と同じですが、精度は FP32 よりも低くなります。ほとんどの場合、BF16 形式と FP32 形式のモデルの推論結果は同程度に正確ですが、BF16 では FP32 の半分のサイズのデータ​​しか処理する必要がないため、BF16 のスループットは FP32 よりもはるかに高く、メモリ要件が大幅に削減されます。

もちろん、AMX 自体のアーキテクチャも AI コンピューティングを高速化するように設計されています。このアーキテクチャは、より大きなデータ ブロックを格納できる 2D レジスタ ファイル (TILE) と、TILE を処理して 1 回の操作でより大きな行列の命令を計算できる加速ユニットである TILE 行列乗算ユニット (TMUL) の 2 つのコンポーネントで構成されています。

この新しいアーキテクチャにより、 Intel® AMX は世代間で大幅なパフォーマンスの向上を実現します。 Intel® Advanced Vector Extensions 512 Neural Network Industries (AVX-512 VNNI) を実行する第 3 世代 Intel® Xeon®スケーラブル プロセッサーと比較すると、 Intel® AMX を実行する第 4 世代Intel® Xeon®スケーラブル プロセッサーでは、コンピューティング サイクルあたりの INT8 演算数が 256 から 2048 に、コンピューティング サイクルあたりの BF16 演算数が 1024 に増加しています。一方、第 3 世代Intel® Xeon®スケーラブルプロセッサーでは、64 の FP32 演算しか実行されません。

写真

Intel® AMX の高度なハードウェア機能により、十分な精度を確保しながら、Alibaba のコア推奨モデルに画期的な AI 推論パフォーマンスがもたらされました。 Alibaba は、 Intel® oneAPI ディープ ニューラル ネットワーク ライブラリ ( Intel® oneDNN) を使用して、CPU を微調整し、効率を最大限に高めます。

下の図は、AMX、BF16 混合精度、8 チャネル DDR5、より大きなキャッシュ、より多くのコア、効率的なコア間通信、ソフトウェアの最適化を組み合わせることで、主流の 48 コアの第 4 世代 Intel® Xeon®スケーラブル プロセッサーがプロキシ モデルのスループットを2.89に増加し、主流の 32 コアの第 3 世代Intel® Xeon®スケーラブル プロセッサーを上回り、レイテンシを厳密に 15 ミリ秒未満に保ちながら、推論精度が依然として要件を満たすことができることを示しています。

写真

最適化されたソフトウェアとハ​​ードウェアは、アリババの実際のビジネス環境に導入され、一連の検証に合格し、アリババのダブル11ショッピングフェスティバル中のピーク負荷圧力への対応など、アリババの生産基準を満たしています。

さらに、Alibaba は、第 4 世代Intel® Xeon®スケーラブル プロセッサーへのアップグレードによるパフォーマンス上のメリットがハードウェア コストをはるかに上回り、投資収益率が非常に明白であることを発見しました。

美団: CPU を使って低トラフィックのロングテール視覚 AI 推論を実行し、サービスコストを 70% 削減

前述のように、Meituan は事業拡大の過程で、ビジュアル AI 推論サービスのコスト高という課題に直面しています。実際、この問題は固定されたものではありません。一部の低トラフィックのロングテール モデル推論サービスの負荷圧力とレイテンシ要件は比較的低く、CPU によって完全にサポートできます。

Meituan は、複数のビジュアル AI モデルで Intel® AMXアクセラレーション テクノロジーを使用して、モデル データ型を FP32 から BF16 に動的に変換し、スループットを向上させて、許容できる精度の低下で推論を高速化します。

最適化後のパフォーマンス向上を検証するために、Meituan は、 Intel® AMX アクセラレーション テクノロジーを使用して変換された BF16 モデルの推論パフォーマンスをベースライン FP32 モデルと比較しました。テストデータは下図の通りです。モデルをBF16に変換すると、モデルの推論性能は3.38~4.13倍向上します。同時に、Top1とTop5の精度低下は0.01%~0.03%以内にほぼ抑えられます

写真

パフォーマンスの向上により、Meituan は既存のインフラストラクチャの潜在能力をさらに発揮し、GPU の導入と運用保守にかかる高額なコストを削減し、サービス コストを 70% 節約できるようになりました

Baidu: 蒸留モデルをCPU上で実行し、より多くの業界とシナリオを解き放つ

周知のとおり、モデル内のレイヤーやパラメータが増えると、モデルのサイズが大きくなり、コンピューティング リソースの要件が厳しくなり、推論時間が長くなります。ビジネス レスポンスのスピードや構築コストに敏感なユーザーにとって、これは導入と使用のハードルを間違いなく引き上げます。したがって、NLP の分野では、モデルの小型化が一般的な最適化の方向となります。

Baidu もこのアプローチを採用し、モデル軽量化技術を使用して ERNIE 3.0 大規模モデルを抽出および圧縮し、より多くの業界やシナリオに普及させました。これらの軽量モデル (ERNIE-Tiny) は応答性に優れているだけでなく、高価な専用の AI コンピューティング機器なしで導入できるという重要な利点もあります。したがって、より強力な汎用コンピューティング プラットフォームと最適化ソリューションを導入することは、ERNIE-Tiny がより高い効率を実現するためのもう 1 つの重要な手段となっています。

この目的のために、BaiduとIntelは緊密な技術協力を開始しました。一方では、第4世代Intel® Xeon®スケーラブル・プロセッサーをERNIE-Tinyの推論および計算プロセスに導入し、他方では、 Intel® oneAPIディープ・ニューラル・ネットワーク・ライブラリーを介してIntel® AMX命令を呼び出すなど、いくつかの最適化措置を推進し、ERNIE-TinyがAMXによってもたらされるパフォーマンス加速の恩恵をより十分に活用できるようにしました。

比較テストのデータによると、AI アクセラレーションを実現するためにIntel® AVX - 512_VNNI テクノロジーを採用したシングルおよびデュアルソケットの第 3 世代 Intel® Xeon®スケーラブル プロセッサーと比較して、ERNIE-Tiny はIntel® AMX テクノロジーを内蔵した第 4 世代 Intel® Xeon®スケーラブル プロセッサーにアップグレードした後、全体的なパフォーマンスが 2.66 倍向上し、満足のいく結果が得られました

写真

現在、さまざまな ERNIE-Tiny が、ゼロスレッショルド AI 開発プラットフォーム EasyDL、フル機能AI開発プラットフォーム BML、ERNIEKit (Ultimate Edition) 製品に導入されているだけでなく、プラットフォームや製品の他の機能と連携して、第 4 世代 Intel® Xeon®スケーラブル プロセッサーに基づくインフラストラクチャ上で、テキスト分類、関係抽出、テキスト生成、質問応答機能をユーザーに提供します。

Alibaba、Meituan、Baidu の実際の経験から、実際の生産環境では、実際に役割を果たしているのは、依然としていくつかの小規模な AI モデルであることがわかります。これらのモデルの導入にはすでに成熟したソリューションが用意されており、 Intel® Xeon® CPU とそれをサポートするソフトウェアおよびハードウェア アクセラレーション ソリューションを利用することで、大幅なコスト効率を実現できます。

もちろん、AIGC の力強い台頭により、多くの企業もこのような大型モデルに目を向けるようになりました。しかし、前述したように、大規模なモデル API を呼び出すか、自分でトレーニングしてデプロイするかには、独自の問題があります。経済的で効率的かつ安全なソリューションをどのように選択するかは、企業が直面する難しい問題です。

AIGC時代が到来、企業はどう対応すべきか?

企業が AIGC を採用するということは、「すべてを知る」超大規模モデルが必要になるということでしょうか?これに対して、ボストン コンサルティング グループ (BCG) は否定的な回答をしました。

彼らが選択した解決策は、独自のデータを使用して業界固有のモデルをトレーニングすることでした。このモデルはそれほど大きくはないかもしれませんが、過去 50 年以上にわたる BCG の極秘の独自データに関する洞察を提供します。同時に、すべての AI トレーニングと推論は BCG のセキュリティ標準に完全に準拠しています。

このソリューションの背後には、 Intel®第 4 世代Xeon®スケーラブル プロセッサーとHabana® Gaudi2® AI ハードウェア アクセラレーターを搭載した Intel AI スーパーコンピューターがあります。前者は PyTorch での AI トレーニング パフォーマンスを前世代の最大 10 倍向上させることができ、後者はコンピューター ビジョン (ResNet-50) と自然言語処理 (BERT ファインチューニング) で NVIDIA A100 を上回り、コンピューター ビジョンでは H100 とほぼ同等です。これら 2 つの強力な組み合わせにより、BCG はコスト効率の高い AIGC ソリューション セットを実現できます。

BCG の従業員は、チャットボット インターフェイスを使用して、セマンティック検索によって、長い複数ページのドキュメント リストから有用な情報を取得、抽出、要約できます。 BCG の報告によると、これにより、既存のキーワード検索ソリューションと比較して、ユーザー満足度が 41%、結果精度が 25%、ジョブ完了率が 39% 向上しました

従来の中小規模の AI であれ、現在有望視されている AIGC 業界の大規模モデルであれ、AI アクセラレーションには GPU が唯一の選択肢ではないことがわかります。しかし、モデルの規模に関係なく、Intel はコスト効率の高いソフトウェアとハ​​ードウェアのソリューションの組み合わせを提供します。

AIを活用して効率化を図りたい企業にとって、どの程度の規模のモデルを選ぶべきか、どのようなソフトウェアやハードウェアのインフラを構築すべきかという標準的な答えはありません。いわゆる超大規模モデルや超大規模GPUコンピューティングクラスターは必要ないかもしれません。ビジネスの特性と属性に基づいてビジネスに適した技術ソリューションを選択することは、最適なソリューションを実現するための重要な要素です。

<<:  ChatGPT は IT ネットワーク エンジニアの代わりになるのでしょうか?

>>:  ChatGPTから何を学びましたか?

推薦する

OpenAI が GPT-5 の商標登録を申請: すでに開発計画に入っているのか?

GPT-4 のリリースから半年も経たないうちに、GPT-5 がもうすぐ登場するのでしょうか?最近、...

ソフトウェアとハ​​ードウェアを組み合わせたCDS Shouyun AIクラウドサービスの技術実践

人工知能は新たな変化を先導しています。近年、人工知能はテクノロジー業界から始まり、急速に生活の各分野...

産業インテリジェンスは「新しいインフラ」の下で非常に人気がありますが、まだ多くの問題があります

「新しいインフラ」が流行っています。これらは5G、人工知能、モノのインターネットなどの情報デジタルイ...

脅威検出システムにAIを統合するメリット

サイバー脅威は高度化、蔓延しているため、企業は常に警戒を怠ってはなりません。 2022年には、4億9...

Quora は機械学習をどのように活用していますか?

[[202181]] 2015年、同社のエンジニアリング担当副社長であるXavier Amatri...

ディープニューラルネットワーク (DNN) は人間の大脳皮質の構造をシミュレートしますか?

[[199788]]私は生物学を専攻する学部生であり、認知神経科学を専攻する大学院生です。余暇には...

チューリング賞受賞者ジョン・ヘネシー氏:データと機械学習は世界をより良い場所にする

5月26日、チューリング賞受賞者で米国工学アカデミー会員のジョン・ヘネシー氏が、2021年中国国際ビ...

スマートな薬箱が登場したが、その背後にあるAIの能力を過小評価してはならない

薬を買うとき、自動販売機のように、セルフサービス機で直接注文して、必要なときにすぐに受け取ることはで...

世界自動運転年間「強さ」リストが発表、百度がウェイモを抜いて首位に、ウェイモ:評価基準に反対

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI: いつも HD ビデオが欲しいなら、ここにあります

Magnific の画像超解像度および強化ツールはまだテスト中ですが、その強力な画像アップスケーリン...

2021年の人工知能と機械学習の5つのトレンド

この流行は明らかに触媒となり、オフィスからリモートワークへ、製品の革新から消費者の嗜好まで、ビジネス...

MD5アルゴリズムの暗号化プロセス

MD5とは何か MD5 はアルゴリズムです。MD5 の MD はMessage Digest の略で...

...

PyTorch Lightning モデルを本番環境にデプロイするにはどうすればいいですか?

[51CTO.com クイック翻訳] 機械学習の分野を見ると、ソフトウェアエンジニアリングの原理を...

...