ByteDanceがCowClipをオープンソース化：推奨モデルのシングルカードトレーニングを最大72倍高速化可能

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

速さが足りません!速さが足りない？

NLP および CV タスクでは、ニューラルネットワークのトレーニングを加速するために、32K のバッチサイズと 8 つの GPU を使用することで、ImageNet トレーニングの完了には 14 分、Bert トレーニングの完了には 76 分しかかかりません。より速いトレーニングを求める研究者たちの願いは、決して止まることはない。

では、GPU を 1 つだけ使用すれば十分でしょうか?レコメンデーションシステムでは、それが可能であるだけでなく、バッチサイズをさらに増やすこともできます！

最近、ByteDance AML (応用機械学習チーム) とシンガポール国立大学の研究者が、CowClip という新しい最適化手法を提案しました。これは、公開されているクリックスルー率予測データセット Criteo で最大 128K のバッチサイズをサポートします。DeepFM を単一の GPU でトレーニングすると、トレーニング時間が 12 時間から 10 分に短縮され、パフォーマンスは低下するのではなく向上します。

論文アドレス: https://arxiv.org/abs/2204.06240 オープンソースアドレス: https://github.com/bytedance/LargeBatchCTR

このような大規模なバッチサイズのトレーニングをサポートし、モデルのトレーニング精度を維持するために、本論文では、パラメータ変換式を通じて大規模なバッチサイズでのパラメータを決定し、埋め込み層で適応勾配クリッピングを実行するという、新しい一連の最適化トレーニング方法を提案します。

CowClip 最適化手法を使用したさまざまな推奨モデル (この記事では DeepFM を含む 4 つのモデルがテストされました) が 2 つの公開データセットで理論的かつ実験的に検証され、手法の合理性と有効性が確認されました。

著者は、この最適化方法を使用すると、誰でも数分で小規模または中規模の推奨モデルを簡単にトレーニングできると述べています。

CowClip加速の理論的基礎

ユーザーインタラクションは推奨システムの新しいトレーニングデータとなり、モデルは繰り返しの再トレーニングを通じて最新の知識を学習します。現在の推奨システムは、何億人ものユーザーと何千億ものトレーニングデータに対応しており、完全なトレーニングプロセスには多くの時間と計算コストがかかります。

推奨システムのトレーニングを高速化するために、推奨システムは現在、高速トレーニングに GPU を使用しています。しかし、GPU のコンピューティング能力とビデオメモリが継続的に増加しているため、これまでの推奨システムのトレーニングプロセスでは、現在の GPU のパフォーマンスを十分に活用できていませんでした。たとえば、Criteo データセットでは、バッチサイズが 1K から 8K に増加しても、V100 を使用したトレーニングの各反復に必要な時間はわずかに増加するだけです。これは、現在の高性能 GPU では、過去に使用されていた小さなバッチサイズでは、GPU の並列機能を十分に活用するには不十分であることを示しています。

より大きなバッチサイズを使用すると、GPU のパフォーマンスを最大限に活用できるため、GPU が真に価値のあるものになります。大きなバッチサイズでトレーニングしてもモデルの精度が低下しない限り、GPU メモリがいっぱいになるまでモデルのバッチサイズを増やし続けることができます。

しかし、モデルの精度の低下を防ぐのは簡単なことではありません。一方では、バッチサイズが大きくなると、ネットワークのトレーニングが不安定になり、ネットワークの一般化能力が弱まる可能性があります。一方、バッチサイズが大きい場合にハイパーパラメータの選択をガイドするルールがない場合、パラメータ調整によって多くのリソースが浪費されます。

この論文で提案された CowClip は、上記の問題を解決することを目的としています。埋め込み層で列ごとに動的勾配クリッピングを行うことでバッチサイズを 128 倍に増やすことを可能にし、さまざまなバッチサイズでハイパーパラメータ値を設定するためのシンプルで効果的な一連の方法を提供します。

CowClip メソッド

大規模なバッチサイズでネットワークトレーニングをより安定させるために、研究者はネットワーク最適化プロセスを安定させる適応型列方向勾配ノルムクリッピング戦略（Adaptive Column-wise Gradient Norm Clipping、CowClip）を提案しました。勾配クリッピングは、ノルム値が特定のしきい値より大きい勾配をノルム内にクリッピングすることで更新プロセスを最適化する方法です。固定しきい値 clip_t が与えられた場合、勾配クリッピングプロセスは次のようになります。

ただし、この方法を埋め込み層の勾配に直接適用するとうまく機能しません。その理由は、有効な閾値を決定するのが難しいだけでなく、トレーニングプロセス中に、各特徴値（ID特徴）に対応するエンコードベクトル（埋め込み層内の埋め込み行列の列に対応）の勾配値がトレーニングプロセス中に異なるためです（図4を参照）。勾配クリッピングのグローバルアプリケーションでは、異なる勾配値間の差は無視されます。

そこで研究者らは、各特徴値に対応するエンコードベクトルにクリッピングしきい値を個別に適用し、しきい値を適応的に設定する提案を行った。勾配サイズがパラメータサイズ自体を超えるとトレーニングプロセスが不安定になることを考慮して、研究者らは、特徴値に対応するエンコードベクトルのノルム値を使用してしきい値を決定することを提案しました。クリッピングしきい値が小さくなりすぎないようにするために、パラメータ ζ によってクリッピング値が特定の値よりも低くならないようにします。

上記の式では、特徴 ID の合計頻度が異なるため、各バッチ内での出現回数も異なることにも留意する必要があります。異なる発生頻度のバランスをとるために、最終的なクリッピング値に、バッチ内で対応する頻度が発生する回数を掛ける必要があります。

上記の分析に基づいて、研究者が提案した CowClip アルゴリズムは次のとおりです。

大規模バッチサイズでのパラメータ変換

CV および NLP タスクでは、バッチサイズを増やすときに学習率と L2 正則化パラメータを調整する一連の方法がすでに存在します。一般的に使用される方法には、バッチサイズが s 倍に増加した場合に学習率を s 倍にスケーリングする線形スケーリングと、バッチサイズが s 倍に増加した場合に学習率と正規化パラメータを s の平方根にスケーリングする平方根スケーリングがあります。

研究者らはまず、これらの調整を適用することで、大規模なバッチサイズでもパフォーマンスを効果的に維持できるかどうかを調査しました。表 1 の左側の実験は、バッチサイズが大きくなると、これらの方法のパフォーマンスがある程度低下することを示しています。

論文では、従来の方法が失敗した理由は、入力特徴 ID の頻度が異なるためであり、これは CV モデルと NLP モデルの入力にはない特徴であると指摘しています。たとえば、ホットリストにある動画は再生回数が多く、データセット内での出現頻度が高いため、動画 ID 機能における動画 ID の出現頻度は、人気のない動画の出現頻度よりもはるかに高くなります。

上記の考えを検証するために、研究者らは高頻度特徴のみを含むデータセットを変換しました。予想通り、これまでのパラメータ調整方法では現時点で良好な結果が得られています（表1右側）。この実験は、一貫性のない頻度分布が以前のパラメータ調整方法を妨げることを示しています。

この論文では、この現象に関するさらなる理論的分析も行っています。簡単に言えば、線形調整法を再考すると、バッチサイズが大きくなると更新の反復回数が減るので、学習率を上げる必要があるという考え方です。ただし、非常にまれにしか発生しない機能の場合、バッチサイズを大きくしても更新の反復回数は減りません。

クリックスルー率予測データセットのデータの大半はこのような低頻度の特徴IDであるため、CowClip法と組み合わせることで、モデルの埋め込み層の学習率を調整する必要がなくなり、同時にL2パラメータが線形に増加します。

最終的な実験結果では、CowClip を使用してトレーニングされたモデルは他の方法よりも正確であるだけでなく、トレーニング速度も大幅に速いことが示されました。

<<: AIデータのラベル付けは大量にアウトソーシングされており、南アフリカ、ベネズエラなどの国の人々はデジタル搾取の運命から逃れられない

>>: ガートナー：AIと自動化は次世代SASEの重要な機能となる

ByteDanceがCowClipをオープンソース化：推奨モデルのシングルカードトレーニングを最大72倍高速化可能

速さが足りません!速さが足りない？

CowClip加速の理論的基礎

CowClip メソッド

大規模バッチサイズでのパラメータ変換

チャットボットと人工知能は2018年に新たな産業革命をもたらすだろう

ブロックチェーン技術は人工知能の欠点をどのように解決できるのでしょうか?

最高裁：アプリは顔情報を収集・処理するためにユーザーの個別の同意が必要

ハードコア情報 | 顔認識の原理とは？

Python 機械学習でプログラミングスキルを向上させる方法

AIで生成された出版物の急増により、Amazonは書籍の著者に作品でのAIの使用をプラットフォームに通知することを義務付けている。

CES 2024 優れた AI 製品

LSTM の父が LLaMA 2 を激しく非難: 私のアイデアをコピーして私を辱めた!ネットユーザー：それをしたのはLeCunですか？

北京冬季オリンピックのブラックテクノロジーが外国人に賞賛される：このロボットがある限り、防疫は安全

推薦する

概念から事例まで: 初心者向けの機械学習アルゴリズムトップ 10

3Dマップナビゲーションに頼らず、自動運転技術が新たな分野に進出

2019年最新プログラマー収入ランキング：あなたは取り残されていますか？

24時間365日対応のAI教師は生徒にどのような影響を与えるのでしょうか?

Meta CTO との独占インタビュー: AI はすでに XR のキラーアプリケーションであり、LLM オープンソースコミュニティの競争には敗者なし

1760億のパラメータを持つBLOOMZの推論、パフォーマンスレイテンシはわずか3.7秒

AI、ブロックチェーン、ビッグデータなど最先端の技術動向を明らかにする新刊書籍「風向」が発売

アストラゼネカはPyTorchベースのアルゴリズムを使用して新薬を発見

自動運転、論文採点のための人工知能…インテリジェントテクノロジーにはどのような破壊的可能性が秘められているのでしょうか?

GPT ストアは来週開始され、OpenAI アプリケーションの爆発的な増加が目前に迫っています。最も完全なGPTビルダーユーザーガイドはここにあります

データ構造とアルゴリズム: K 回の否定後の配列の合計を最大化する

中国語の音声の事前トレーニング済みモデルが見つかりませんか? Wav2vec 2.0 と HuBERT の中国語版が登場