快手が1兆ドル規模のパラメータ推奨ランキングモデルを発表

快手が1兆ドル規模のパラメータ推奨ランキングモデルを発表

正確な推奨システム モデルは、多くのインターネット製品の中核的な競争力です。パーソナライズされた推奨システムは、ユーザーの行動データに基づいて「カスタマイズされた」製品エクスペリエンスを提供することを目的としています。国民的ショート動画アプリ「快手」は、毎日何百億もの動画を何億人ものユーザーに推奨しています。同社が直面している課題の 1 つは、推奨システム モデルがいかにしてユーザーの興味を正確に説明し、捉えられるかということです。

現在業界で使用されているソリューションは通常、大規模なデータセットとフィッティングパラメータを組み合わせてディープラーニングモデルをトレーニングし、モデルを現実に近づけることです。 Google は最近、1.6 兆個のパラメータを持ち、Google が以前開発した言語モデル (T5-XXL) よりも 4 倍高速な、兆レベルモデル Switch Transformer をリリースしました。しかし、快手の数兆パラメータ精度ランキングモデルのパラメータ総数は1.9兆を超えており、規模も大きく実用化されている。それでは、Kuaishou の洗練された配置モデルの開発の歴史を振り返り、その内部の技術コードを明らかにしましょう。

図: Google BERT-large NLP 事前トレーニング済みモデル: 3 億 4,000 万パラメータ、Google Meena オープンドメイン チャットボット: 26 億パラメータ、Google T5 事前トレーニング済みモデル: 110 億パラメータ、OpenAI GPT3 言語モデル: 1,750 億パラメータ、Google Switch Transformer 言語モデル: 1.6 兆パラメータ、Kuaishou 精度ソート モデル: 1.9 兆パラメータ

パラメータ化されたパーソナライズされた CTR モデル - PPNet

2019年以前、Kuaishouアプリは主に2列のウォーターフォールフローゲームプレイを採用しており、ユーザーの動画に対するインタラクションとクリック、視聴の2段階を区別していました。この形式では、CTR 予測モデルが特に重要になります。これは、ユーザーが表示された動画をクリックするかどうかを直接判断するためです。当時、業界で主流の推奨モデルは、依然として DNN や DeepFM などの単純な完全接続型ディープラーニング モデルに基づいていました。しかし、個々のユーザーとビデオの共同構築されたセマンティックモデルは、グローバルユーザーの共同構築されたセマンティックモデルに基づいてパーソナライズされた偏差を持つことを考慮すると、DNNネットワークパラメータで異なるユーザーに対して一意のパーソナライズされた偏差をどのように学習するかが、Kuaishouレコメンデーションチームの最適化の方向性になりました。

音声認識の分野では、2014年と2016年に提案されたLHUCアルゴリズム(隠れユニット寄与の学習)の核心的なアイデアは話者適応です。重要なブレークスルーの1つは、DNNネットワーク内の各話者の特定の隠れユニット寄与を学習して、異なる話者の音声認識効果を向上させることです。 LHUC のアイデアを参考にして、Kuaishou 推奨チームは正確なランキング モデルの実験を始めました。最適化を複数回繰り返した後、推奨チームは、DNN ネットワーク パラメータのパーソナライズを高め、モデルを迅速に収束させることができるゲーティング メカニズムを設計しました。 Kuaishou はこのモデルを PPNet (Parameter Personalized Net) と呼んでいます。快手によると、PPNetが2019年に本格的にリリースされて以来、モデルのCTRターゲット推定能力は大幅に向上したという。

PPNet 構造図

上図に示すように、PPNet の左側は現在一般的な DNN ネットワーク構造であり、スパースな特徴、埋め込み層、および複数のニューラル層で構成されています。右側には、Gate NN と、Gate NN に入力としてのみ与えられる ID 機能を含む、PPNet 固有のモジュールがあります。このうち、uid、pid、aid はそれぞれユーザー ID、写真 ID、作成者 ID を表します。左側のすべての特徴の埋め込みは、すべての Gate NN の入力として 3 つの ID 特徴の埋め込みと連結されます。左側のすべての特徴の埋め込みは、ゲート NN の逆伝播勾配を受け入れないことに注意してください。この操作の目的は、ゲート NN が既存の特徴埋め込みの収束に与える影響を軽減することです。ゲート NN の数は、左側のニューラル ネットワークの層の数と同じです。出力は、ニューラル ネットワークの各層の入力との要素ごとの積であり、ユーザーにパーソナライズされたバイアスを提供します。 Gate NN は 2 層ニューラル ネットワークで、2 番目の層の活性化関数は 2 * シグモイドであり、出力の各項目を [0, 2] の範囲に制限することが目的です。デフォルト値は 1 です。 Gate NN 出力がデフォルト値の場合、PPNet はネットワークの左側部分に相当します。実験的な比較により、Gate NN を介してニューラル ネットワーク層入力にパーソナライズされたバイアス項目を追加すると、モデルのターゲット推定能力が大幅に向上する可能性があります。 PPNet は、Gate NN を通じて DNN ネットワーク パラメータのパーソナライズをサポートし、ターゲット推定能力を向上させます。理論的には、パーソナライズされた推奨、広告、DNN ベースの強化学習シナリオなど、すべての DNN モデルベースの推定シナリオで使用できます。

MMoE に基づく多目的推定最適化 - マルチタスク学習フレームワーク

ショート動画ユーザーの需要が高まり続ける中、Kuaishouは2020年9月にバージョン8.0をリリースしました。このバージョンでは、下部ナビゲーション バーが追加され、これに基づいて、単一列の上下スライドをサポートする「注目」タブが追加されます。 2列クリックと1列上下スライドに対応したこのバージョンは、ユーザーにより良い消費体験を提供し、より多様な消費方法を追加することを目的としています。新しいインターフェースでは、かなりの数のユーザーが 2 列と 1 列の両方を使用します。これら 2 つのページにおけるユーザーの消費パターンとインタラクション形式は大きく異なるため、データ レベルで表される分布も大きく異なります。モデル構築において両方のデータ部分をどのように使用し、うまく活用するかは、Kuaishou 推奨チームが解決すべき緊急の課題となっています。

Kuaishou チームは、単一列のビジネス シナリオの数が増えるにつれて、マルチタスク学習がより重要になることを発見しました。なぜなら、単一列のシナリオでは、ユーザーの対話型動作はユーザーに表示されるビデオに基づいており、2 列の対話型動作のような非常に重要なクリック動作がないためです。これらのインタラクティブな動作は比較的同等であり、数十種類あります(時間関連の推定目標、いいね、フォロー、転送など)。

精密モデル推定対象(一部)

単一列のビジネス データの量が増えるにつれて、推奨チームはモデル レベルで単一列のビジネスに特化して最適化されたモデルを分離しようとします。具体的には、機能レベルでは、デュアル列モデルの機能を完全に再利用でき、パーソナライズされたバイアス機能と一部の統計値機能のみがシングル列ターゲットに追加されます。埋め込みレベルでは、初期段階では単列データの量が少なく、埋め込みの収束が保証できなかったため、最初は二列データのクリック動作をトレーニングの中心とし、その後、単列と二列のユーザー動画視聴動作(有効再生、長時間再生、短時間再生)を埋め込みトレーニングの中心としました。ネットワーク構造レベルでは、主に共有ボトムネットワーク構造のトレーニングに基づいています。無関係なターゲットは排他的にタワーを占有し、関連するターゲットは同じタワーの最上位レベルの出力を共有します。これにより、ターゲット推定効果がある程度向上します。このモデルが発表された後、当初は一定の効果がありましたが、すぐにいくつかの問題が明らかになりました。まず、単一列ビジネスと二重列ビジネス間の埋め込み分布の違いを考慮していないため、埋め込み学習が不十分になります。第二に、マルチタスク学習レベルでは、単一列のシナリオでは、ユーザーインタラクションはすべて、現在のビデオショーの単一ステージの動作に基づいています。さまざまな目標が相互に影響し合い、モデルの単一の目標の改善が必ずしも全体的なオンラインのメリットをもたらすとは限りません。

したがって、すべての推定ターゲットを改善するには、優れたマルチタスク学習アルゴリズム フレームワークを設計することが重要です。このアルゴリズム フレームワークでは、データ、機能、埋め込み、ネットワーク構造、および単一列のユーザー インタラクション特性を考慮する必要があります。十分な調査と実践を経て、推奨チームは現在のモデルを改善するために MMoE モデル (Multi-gate Mixture-of-Experts) を採用することを決定しました。

MMoE は、Google が提案した古典的なマルチタスク学習アルゴリズムです。その中核となるアイデアは、共有ボトム ネットワークをエキスパート レイヤーに置き換え、複数のゲーティング ネットワークを使用して、複数のエキスパート ネットワーク上の各ターゲットに対して異なるエキスパート ネットワークの重みを学習し、融合表現を作成することです。この融合表現に基づいて、各タスクはタスク ネットワークを通じて学習されます。

推奨チームは、MMoE アルゴリズムと前述の Kuaishou 推奨シナリオの難しさを参考にして、MMoE アルゴリズムを変換し、新しいマルチタスク学習アルゴリズム フレームワークを設計しました。具体的には、機能レベルで意味の統一が行われ、単列業務と二列業務で意味的に矛盾する機能が修正され、単列業務のユーザーにとって関連のある機能が追加されました。埋め込みレベルでは、空間再マッピングが実行され、埋め込み変換レイヤーは、単一列埋め込みと二重列埋め込み間のマッピング関係を直接学習するように設計されており、単一列埋め込みと二重列埋め込みを統一された空間分布にマッピングするのに役立ちます。機能の重要度レベルでは、スロット ゲーティング レイヤーは、さまざまなビジネスにおける機能の重要度を選択するように設計されています。

上記の 3 つの変更により、モデルは、特徴セマンティクス、異なるビジネスにおける埋め込み分布、異なるビジネスにおける特徴の重要性という 3 つのレベルから入力層の埋め込み表現を正規化および正則化し、統一された特徴表現空間に再マッピングします。これにより、MMoE ネットワークは、この空間内の複数のタスク間の事後確率分布関係をより適切に捉えることができます。 MMoE のこの改善により、モデルのすべての目的が大幅に改善されます。

短期行動シーケンスモデリング - Transformerモデル

Kuaishou の洗練されたランキング モデルでは、ユーザーの過去の行動特性が非常に重要であり、ユーザーの興味の動的な変化を適切に特徴付けることができます。 Kuaishouの推奨シナリオでは、ユーザーの行動特性が非常に豊富で多様であり、その複雑さはビデオ機能やコンテキスト機能をはるかに超えているため、ユーザーの行動シーケンスを効果的にモデル化できるアルゴリズムを設計する必要があります。

現在、業界におけるユーザー行動シーケンスモデリングには主に 2 つのモードがあります。1 つは、ユーザーの履歴行動の加重合計を実行するもので、もう 1 つは RNN などのモデルを通じて時系列モデリングを実行するものです。 Kuaishou の初期の 2 列ランキング モデルでは、ユーザー行動シーケンスが単純に合計されてモデル入力としてプールされていました。シングルカラムのシナリオでは、ユーザーは受動的にKuaishouの推奨ビデオを受け取り、カバー情報が失われた後、フィードバックを与える前にしばらくビデオを視聴する必要があります。そのため、ビデオを積極的に選択する権利が減少し、推奨システムがユーザーの興味に基づいてE&E(Exploit&Explore)を実行するのにより適しています。

Kuaishou のシーケンス モデリングは、Transformer モデルにヒントを得ています。 Transformer モデルは、2017 年に Google が提案した古典的なニューラル ネットワーク翻訳モデルです。その後人気を博した BERT や GPT-3 も、このモデルの構造の一部に基づいています。 Transformer は主にエンコーダーとデコーダーの 2 つの部分で構成されています。エンコーダー部分は入力言語シーケンスをモデル化しますが、これはユーザー行動シーケンス モデリングの目標と非常に似ています。そのため、Kuaishou はアルゴリズム構造を借用し、計算の複雑さを最適化しました。

MMoE と Transformer を組み合わせてユーザーの興味のシーケンスをモデル化

まず、Kuaishouレコメンデーションチームは、ユーザーの動画再生履歴を行動シーケンスとして使用します。候補シーケンスには、ユーザーの長い放送履歴シーケンス、短い放送履歴シーケンス、ユーザーのクリック履歴シーケンスなどが含まれます。このようなリストには、ユーザーのビデオ ID、作成者 ID、ビデオの長さ、ビデオタグ、ビデオの視聴時間、ビデオの視聴時間などが網羅的に記録され、ユーザーの視聴履歴が完全に説明されます。次に、位置の埋め込みではなく、ビデオが視聴されてからの時間に対してログ変換が実行されます。 Kuaishou の推奨シナリオでは、ユーザーの短期的な視聴行動は現在の推定値との関連性が高く、長期的な視聴行動はユーザーの多様な興味の分布をよりよく反映します。対数変換を使用すると、この相関関係をより適切に反映できます。最後に、マルチヘッド自己注意をマルチヘッドターゲット注意に置き換え、現在の埋め込みレイヤーの入力をクエリとして使用します。この設計には 2 つの目的があります。まず、現在のユーザー機能、推定ビデオ機能、コンテキスト機能は、単一のユーザー行動シーケンスよりも多くの情報を提供します。次に、計算量は O(d*n*n*h) から O(d*n*h + e*d) に簡略化できます。ここで、d は注目の次元、n はリストの長さ、h はヘッドの数、e*d は埋め込み層の次元を注目の次元に変換するために必要な複雑さを表します。

改良されたTransformerネットワークにより、モデルの予測能力が大幅に向上します。オフライン評価では、ユーザーの視聴時間の推定が大幅に改善され、オンラインユーザーの視聴時間も大幅に改善されます。

長期金利モデリング

長い間、Kuaishou のランキングモデルはユーザーの最近の行動を利用する傾向がありました。前述のように、トランスフォーマーとMMoEモデルを採用することで、Kuaishouのランキングモデルはユーザーの短期的な興味を正確にモデル化し、大きな利益を達成しました。以前のモデルでは、ユーザーの最近の数十件の履歴行動がモデリングに使用されていました。ショートビデオ業界の特性上、過去数十回の履歴行動は、通常、短期間におけるユーザーの興味しか表すことができません。これにより、モデルはユーザーの短期的な行動に過度に依存することになり、ユーザーの中期および長期的な関心のモデリングが不十分になります。

Kuaishouのビジネス特性を考慮して、Kuaishouの推奨チームはユーザーの長期的な興味もモデル化し、モデルがユーザーの長期的な履歴記録を認識できるようにしました。 Kuaishou の推奨チームは、ユーザーのインタラクション履歴シーケンス (再生、いいね、フォロー、転送など) を拡張した後、そのような動作が比較的まばらであっても、モデルがユーザーの潜在的な興味をより適切に捉えることができることを発見しました。この機能に対応して、推奨チームは以前のモデルに基づいてユーザーの超長期興味モデリングモジュールを設計および改良しました。これにより、数か月から1年までのユーザー行動を包括的にモデル化でき、ユーザー行動シーケンスの長さは数万に達する可能性があります。このモデルはすべてのビジネスに展開され、莫大なオンライン収益を達成しました。

快手ユーザー長期興味ランキングモデルの構造模式図

数千億の特徴、数兆のパラメータ

モデルの反復により、ディープラーニング ネットワークの複雑さはますます高くなり、モデルに追加される機能の数も増加し、モデル機能スケールのサイズも、洗練されたランキング モデルの反復を制限します。これにより、モデル機能のスケールが制限され、一部の機能が排除されてモデルの収束が不安定になるだけでなく、モデルが低頻度の特徴を排除しやすくなり、オンラインコールドスタート効果(新しいビデオ、新しいユーザー)が悪くなり、ロングテールビデオや新しいユーザーにとって好ましくありません。

この問題を解決するために、Kuaishou の推奨およびアーキテクチャ担当の同僚は、トレーニング エンジンとオンライン サービスを改善し、構成された機能ボリュームに基づいてオフライン トレーニングとオンライン サービス サービスを柔軟に拡張できるようにし、数千億の機能と数兆のパラメータを持つオフラインおよびオンラインの洗練されたランキング モデルをサポートしました。特に、新モデルは新規動画や新規ユーザーのトラフィック分布にさらに優しく、新規ユーザーと新規動画の指標を大幅に改善し、快手「普遍的」推奨のコンセプトを実践しています。現在、Kuaishouの改良ランキングモデルの特徴の総数は1000億を超え、モデルパラメータの総数は1.9兆を超えています。

オンライントレーニングおよび見積サービス

推奨シナリオにおける数千億の特徴を持つモデルのオンライントレーニングとリアルタイム推定をサポートするために、推奨チームはトレーニングフレームワークとオンライン推定サービスのパラメータサーバーを変更しました。推奨モデルのオンライン学習では、埋め込みを格納するパラメータサーバーがメモリの使用を正確に制御して、トレーニングと推定の効率を向上させる必要があります。この問題を解決するために、推奨チームは、競合がなくメモリ効率の高い Global Shared Embedding Table (GSET) パラメータ サーバー設計を提案しました。

埋め込みベクトルを各 ID にマッピングすると、マシンのメモリ リソースがすぐにいっぱいになります。システムを長時間実行できるようにするために、GSET はカスタマイズされた特徴スコア除去戦略を使用して、メモリ使用量が常に事前設定されたしきい値を下回るように制御します。 LFU や LRU などの従来のキャッシュ削除戦略では、エンティティの発生頻度情報のみを考慮し、主にキャッシュ ヒット率を最大化するために使用されます。特徴スコア戦略では、機械学習シナリオにおける追加情報を考慮して、特徴の除去を支援します。

推奨システムのオンライン学習プロセス中に、多数の低頻度 ID がシステムに入ります。これらの低頻度 ID は通常、将来の推定にはまったく表示されません。これらの特徴を受け取った後、システムはすぐにそれらを再び排除する可能性があります。低頻度 ID の無意味なエントリと削除がシステム パフォーマンスに影響するのを防ぐために、GSET は低頻度機能をフィルター処理するためのいくつかの機能アドミッション戦略をサポートしています。同時に、GSET の効率を向上させてコストを削減するために、Kuaishou は新しいストレージ デバイスである不揮発性メモリ (Intel AEP) も採用しました。不揮発性メモリは、単一のマシン上で数 TB のメモリ レベルに近いアクセス速度を提供できます。このハードウェアに適応するために、推奨チームは基盤となる KV エンジン NVMKV を実装して GSET をサポートし、1 兆パラメータ モデルのオンライン安定性を確保しました。

将来に向けて

快手推薦アルゴリズムの責任者であり、元Google Researchのスタッフリサーチマネージャーである宋楊博士によると、ショートビデオ業界には独自の課題があり、それはユーザー数の多さ、動画のアップロード量の大きさ、作品のライフサイクルの短さ、ユーザーの興味の急速な変化に反映されているという。そのため、短編動画の推奨では、従来の動画業界の洗練された運用慣行を模倣することは難しく、推奨アルゴリズムに頼ってタイムリーかつ正確に動画を配信する必要があります。快手推薦アルゴリズムチームは、ショートビデオ事業を深くカスタマイズし、積極的に革新し、業界初の推薦モデルやアイデアを数多く提案してきました。同時に、推薦エンジニアリングアーキテクチャチームに多くのシステムレベルとハードウェアレベルの課題をもたらしました。

宋楊博士は、快手氏の1兆パラメータモデルはレコメンデーションシステムにおける画期的な進歩であると考えています。このモデルは、シーケンスモデル、長期および短期の関心モデル、ゲーティングモデル、エキスパートモデルなどの利点を組み合わせ、現在業界で最も包括的で効果的なレコメンデーションモデルの1つです。このモデルは、ユーザーにサービスを提供するために、Kuaishou の主要ビジネスで本格的に導入されました。今後、「アルゴリズム-システム-ハードウェア」の三位一体において、さらなる課題とチャンスが生まれるかもしれません。これにより、Kuaishouの推奨システムの技術革新と突破がさらに促進され、ユーザーエクスペリエンスが向上し、価値が創造されることを期待しています。

<<:  ドローンの用途は急速に拡大しています。これらの 4 つの驚くべき用途をご存知ですか?

>>:  スタンフォード大学の新刊「Decision Algorithms」が発売され、400ページを超える全文PDFが無料でダウンロードできます!

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

ヘルスケアにおける人工知能

[[433316]] AI の恩恵を受けるすべての業界の中で、ヘルスケアはおそらく最も重要かつ関連性...

北京大学の新しい研究では、数学モデルを使用して、インターネット有名人の台頭の秘密を明らかにしています。ネイチャー誌に掲載

ソーシャル ネットワークは私たちの生活にますます大きな影響を与えており、情報の普及、新しいテクノロジ...

...

...

百度の張亜琴社長:AIは現代の最も変革的な力である

[[205882]]北京時間10月10日朝のニュースによると、中国の検索大手、百度はシアトル地域にオ...

言語間、人間の声と犬の鳴き声の相互変換をサポートし、最も近いものだけを使用するシンプルな音声変換モデルはどれほど素晴らしいか

AIが関わる音声の世界はまさに魔法のようです。ある人の声を別の人の声に置き換えるだけでなく、動物と声...

...

チューリング賞受賞者のヤン・ルカン氏:今後数十年間の AI 研究の最大の課題は「予測世界モデル」

ディープラーニングの大規模な応用の後、人々はさらなる技術的進歩をもたらすことができる真の汎用人工知能...

中国でドローン配送用の商用「操縦免許」が発行されるまでにどれくらいの時間がかかるのでしょうか?

[[264191]]少し前、米国で初となるドローン配送の「操縦免許」が正式に発行された。これを取得...

...

研究者たちは、スマートデバイスがAIを使って声の発信元を判断できるようにする準備を進めている。

このアイデアはプライバシー擁護者を怖がらせているが、スマートスピーカーの開発者は、ユーザーのウェイク...

Upscayl、最先端のAI画像拡大技術

デジタル時代では、画像はどこにでもあります。ソーシャル メディアで写真を共有する場合でも、ビジネスの...