KuaishouとNVIDIAが提携し、業界最先端のGPUコンピューティングインフラストラクチャを展開

1日あたり2億人以上のアクティブユーザーを抱える快手には、130億本以上の短編動画が蓄積されており、現在も毎日1,500万本以上の短編動画がアップロードされており、超大容量データの応用シーンは多岐にわたります。快手社のインフラの規模は、すでに国内トップクラスのインターネット企業に数えられる。現在、Kuaishouのサーバーの規模は10万台を超え、データ総量はEBレベルに達し、毎日追加される新規データ数は5PBを超えています。

快手サーバ選定・業務最適化チーム（以下、「快手SATチーム」）は、数千億のデータ量の処理とインフラの安定的かつ効率的な運用を確保するため、パートナーであるNVIDIAの新世代Turingアーキテクチャに基づくTESLA T4/V100を選択し、業界で初めてコンピューティングアーキテクチャの新たなアップグレードを完了しました。

快手SATチームのメンバーは経験豊富で、一人当たり平均約10年の職務経験があるという。ハードウェアを中心とするメンバーは、主に国内外の大手サーバーやハードウェアメーカー出身で、ソフトウェアを中心とするメンバーは、主に国内の大手インターネット企業出身である。 2億人を超えるKuaishouの毎日のアクティブユーザーに強力なサポートを提供するのは、ソフトウェアとハードウェアを組み合わせたこのようなチームです。

快手SATチームの研究開発担当者によると、動画推奨プラットフォーム、音声・動画理解、リスク管理、商業広告、強化学習など、快手のビッグデータ応用シナリオはすべて同社の中核事業であり、多くの業務シナリオで大規模なデータ処理需要がある。NVIDIAが新しいTeslaアーキテクチャ製品を発売した後、SATチームはTESLA T4/V100 GPUの導入を最優先事項に挙げ、新世代のGPUと既存のコンピューティングプラットフォーム（CPU、FPGAなど）を組み合わせて、TESLA T4を新しいパッケージに導入すると同時に、社内のコアビジネスにできるだけ早く適応させ、ハードウェアインフラストラクチャが業界の最先端にあることを確保した。

GPU アーキテクチャの最適化によりパフォーマンスが 2 倍向上し、コストが 30% 削減されます。

快手は急速に拡大するビジネスニーズに対応するために、パッケージ数が分散しすぎないようにしながら、柔軟で変化するビジネスニーズに可能な限り対応し、同時にコスト最適化の目標を考慮する必要があり、直面する問題は非常に複雑です。需要と複雑さのバランスをとるために、Kuaishou SAT チームは最終的に、さまざまなビジネスシナリオのさまざまなニーズを満たすために、仮想化コンテナーと組み合わせた 2 つの GPU パッケージを導入することを決定しました。

実際のコンピューティングでは、GPU サーバー、特にマルチカード GPU サーバーでは、CPU パフォーマンスがボトルネックになるという問題が一般的に発生します。 CPU パフォーマンスのボトルネックと GPU 使用率の低さという問題を解決するために、Kuaishou SAT チームとアルゴリズムチームは、Resnet50/SSD 上で Resize、Augment などを CPU から GPU に移行することで、CPU の負荷を徐々に GPU に移行し、GPU の強力な計算能力をさらに活用して CPU を解放し、CPU と GPU 間のバランスの取れた計算効果を実現しました。

GPU 間のパフォーマンスのバランスをとることも別の問題です。一部のビジネスシナリオのモデルは非常に大きく、単一の GPU メモリではモデル全体を保存できないことがよくあります。この場合、モデルは通常メモリに保存され、CPU が対応する計算を実行します。Kuaishou SAT チームは、CPU アフィニティを最適化することで、負荷の不均一性と検索パスが長くなる問題を回避します。

Kuaishouのトレーニングモデルには、より高い精度が求められます。以前は、FP32が一般的に使用されており、モデルは比較的大きかったです。現在、混合精度が徐々に使用され、元のソリューションに取って代わられ、パフォーマンスが大幅に向上しました。実際の使用において、Kuaishou SAT チームは、AMP (Automatic Mixed Precision) は使いやすいものの、すべてのビジネスに適しているわけではないことも発見しました。そのため、Kuaishou SAT チームとビジネスチームは、FP32、AMP、手動混合精度を組み合わせたさまざまな方法を一緒に試して、ビジネス側のトレーニングにコンピューティングパフォーマンスを提供する必要があります。

トレーニングモデルと比較すると、推論モデルは一般にバッチサイズが小さく、メモリへの頻繁な読み取りと書き込みアクセスが必要になるという問題があります。同時に、推論に必要な精度はトレーニングほど高くありません。これらの問題を解決し、新しいアーキテクチャで Tensor Core のパフォーマンスをより有効に活用するために、Kuaishou SAT チームは TensorRT を導入し、企業が GPU 上で迅速に使用できるようにすることで、実行速度が大幅に向上し、コンパイルされたコードが占有するメモリのサイズが大幅に削減されました。

H264 のデコード: T4 / P4 = 約 2.6 倍、Hevc のデコード: T4/P4 = 約 4 倍。 T4 の 2 つの nvdec エンジンにより、Hevc での高パフォーマンスが実現します。Hevc のデコード時には H264 よりも多くの計算ユニットが使用されます。

T4 の高速プリセットは、品質と同時使用の点で P4 の低速プリセットとほぼ同等です。

TensorRT-Inference-Serverを使用すると、テキスト分類と比較してパフォーマンスが約2倍向上します。

上記の比較チャートから、現在の GPU コンピューティングアーキテクチャの最適化により、ビジネスのパフォーマンスが平均 2 倍向上し、コストが以前に比べて 30% 以上節約されていることがわかります。

ソフトウェアとハードウェアを組み合わせて実装を最適化する

新製品の機能が Kuaishou のビジネスをより良くサポートできるように、Kuaishou の SAT チームは完全なプロセスソリューションセットを提供します。ビジネス利用要件を理解した上で、現在のボトルネックや高頻度利用リソースを分析し、ハードウェア製品を合理的に選択し、これらの製品を迅速にパッケージに統合します。新しいハードウェアには、多くの場合、いくつかの新しいフレームワークと命令セットのサポートが伴います。たとえば、TESLA T4 の FP16 サポートにより、T4 のパフォーマンスが大幅に向上します。ビジネス部門は、これらの新機能を参考にしてコードを最適化し、オンラインで展開しました。 Vtune/Nsight などのツールでコードを分析し、非効率的な部分を最適化し、最終的に結果をグレースケールでオンラインで提示することで、Kuaishou は効率とスピードを追求し、常に最先端の技術を維持しています。

（図：Kuaishouの選定と発売のプロセス）

（図：プラットフォームモジュールに導入されたKuaishouの新しいハードウェア/テクノロジー）

障害が発生する前に防止するためのカスタマイズされた監視

使用が最初のステップであれば、運用と保守が 2 番目のステップになります。 Kuaishou SAT チームは、GPU 監視のために 3 つのことを行いました。1 つ目は自社開発の GPU 使用状況監視、2 つ目はカスタマイズされた GPU 障害監視、3 つ目は GPU 障害予測です。

GPU の使用状況を監視することで、企業は負荷状況をよりよく理解し、以前に選択した構成の合理性を検証できるようになります。一般的に、業界ではGPUの使用状況を判断するために、smiのGPU-Utilパラメータを主に使用しています。しかし、Kuaishouは実際の使用において、GPU使用率を判断することはより複雑な問題であることに気づきました。GPU-Utilは単位時間あたりのGPUの全体的な使用量のみを反映するもので、GPUの負荷を明確に反映することはできません。この状況に対処するため、Kuaishou SAT チームは、SM ユニット、コーデックユニットのサンプリング値、帯域幅の負荷、読み取り書き込み時間比など、複数の側面から状況を分析し、最終的に総合的な GPU 使用率を導き出すための一連の使用状況監視スクリプトを手動で開発しました。

障害監視は、あらゆるハードウェア製品で発生する一般的な問題です。GPU の消費電力と温度が高く、ビジネスが GPU に大きく依存しているため、Kuaishou SAT チームは当初、多数の監視インジケーターを設定しました。これらの監視インジケーターは、GPU デバイスの API を通じて抽出されました。しかし、監視インスタンスの数が増えるにつれて、アラームの数も大幅に増加しました。これらのアラームには、連続アラーム、変動アラーム、関連アラームが含まれます。もちろん、これらのアラームの発生により、Kuaishou は問題を発見できましたが、Kuaishou の運用および保守担当者に大きな迷惑をかけました。過剰なアラームの問題を解決するために、Kuaishou SAT チームは監視パラメータを分析および統合し、GPU を使用する際のさまざまなビジネスのさまざまなニーズに基づいて、ビジネスの生存と死活の基準を策定しました。ビジネスの生存に影響を与える基準が最初に報告され、単位時間あたりに発生するアラームは 1 つだけが報告されます。

障害を予測する目的は、起こりうる障害がビジネスに損失をもたらすのを回避することであり、この予測の正確さが重要です。多くの場合、障害の予測はトリガーとなり、時間の経過とともにゆっくりと現象に変化するプロセスとなります。 Kuaishou SAT チームは、障害予測の観点から、GPU に 10 を超える監視パラメータを設定しました。蓄積されたデータを使用してトレーニングすることでしきい値を取得し、このしきい値を使用して障害予測を行います。この継続的なトレーニングと予測のサイクルを通じて、障害予測はますます正確になります。

その後の計画

Kuaishou の毎日のアクティブユーザーが増加し続け、ユーザーデータがさらに豊富になるにつれて、モデルの数が増加して複雑になり、占有スペースが飛躍的に拡大しています。現在、Kuaishou SAT チームは、大容量で低コストの NVM と GPU を導入して異種コンピューティング + 異種ストレージサーバーを形成すること、100G/200G/400G RDMA を組み合わせて CPU オフロードアーキテクチャを作成し、分散コンピューティングの効率を向上させること、ストレージリソースとコンピューティングリソースを分離することなど、いくつかのことを行っています。

快手は、NVIDIAのエンタープライズレベルの技術サポートチームと、選択と発売のプロセスで1年以上の協力経験を持っています。TESLA GPUの導入を機に、快手のSATチームはGPUサーバーの導入とアプリケーションの最適化のための完全な科学システムを組織し、標準化し、実際に良好なビジネス上の利益を達成し、会社に多くの時間とコストを節約しました。同時に、より優れたコンピューティングパワーを備えたGPUコンピューティングアーキテクチャは、今後、快手の主要ビジネスラインでより複雑なモデルを発売するための強固な基盤も築きました。快手システム運営部のハードウェア研究開発チームでは、新技術ハードウェア研究開発エンジニアを募集しています。技術に情熱を持つ技術者を歓迎します。

<<: Nature 誌に「なぜディープラーニングシステムは騙されやすいのか？」という記事が掲載されました。

>>: ディープラーニングをすぐに始められる、やりがいのあるプロジェクト18選