HuggingFace は、大規模モデルの製造パフォーマンスを効率的にリリースするための Transformer 拡張および最適化ライブラリをオープンソース化しました。

[[428679]]

Tesla、Google、Microsoft、Facebook などのテクノロジー大手には多くの共通点がありますが、その 1 つは、毎日数十億の Transformer モデル予測を実行していることです。たとえば、トランスフォーマーは、テスラの自動運転システム「オートパイロット」で車を運転したり、Gmail で文章を完成させたり、Facebook でユーザーの投稿を即座に翻訳したり、Bing でユーザーの自然言語クエリに回答したりします。

トランスフォーマーは機械学習モデルの精度を大幅に向上させ、NLP 分野に旋風を巻き起こし、他のモダリティ (音声や視覚など) にも拡大しています。しかし、これらの大規模なモデルを工業生産に適用し、大規模に迅速に実行することは、機械学習エンジニアリングチームにとって大きな課題です。

上記の企業のように、何百人もの高度なスキルを持つ機械学習エンジニアを雇用せずに、このような大規模なモデルを適用するにはどうすればよいでしょうか?最近、Hugging Face は新しいパッケージ「Optimum」をオープンソース化しました。これは、Transformer の工業生産に最適なツールキットを提供することを目的としたもので、特定のハードウェア上でモデルを最高の効率でトレーニングおよび実行できるようにします。

プロジェクトアドレス: https://github.com/huggingface/blog/blob/master/hardware-partners-program.md

OptimumはTransformerの効率的な動作を可能にします

モデルのトレーニングと提供時に最高のパフォーマンスを得るには、モデルアクセラレーションテクノロジーがターゲットハードウェアと互換性がある必要があります。各ハードウェアプラットフォームは、パフォーマンスに大きな影響を与える可能性のある特定のソフトウェアツール、機能、およびチューニング方法を提供します。同様に、スパース化や量子化などの高度なモデル加速技術を活用するには、最適化されたカーネルがシリコン上の操作と互換性があり、モデルアーキテクチャから派生したニューラルネットワークグラフに固有のものである必要があります。この 3 次元の互換性マトリックスとモデル高速化ライブラリの使用方法について深く考えることは、機械学習エンジニアが経験したことのない難しい作業です。

Optimum は、「この作業を簡素化し、効率的な人工知能ハードウェア向けのパフォーマンス最適化ツールを提供し、ハードウェアパートナーと協力して機械学習エンジニアに機械学習を最適化できる能力を提供する」ために立ち上げられました。

Transformer パッケージを使用すると、研究者やエンジニアは、フレームワーク、アーキテクチャ、ワークフローの複雑さを考慮することなく、最先端のモデルをより簡単に使用できます。また、エンジニアは、ハードウェアプラットフォームでのモデルアクセラレーションの複雑さを考慮することなく、利用可能なすべてのハードウェアの機能を簡単に活用できます。

最適な実践: Intel Xeon CPU 上でモデルを量子化する方法

定量化はなぜそれほど重要でありながら、達成するのが難しいのでしょうか?

事前トレーニング済みの言語モデル BERT は、さまざまな NLP タスクで最高のパフォーマンスを達成しており、ViT や SpeechText などの他の Transformer ベースのモデルも、それぞれコンピュータービジョンと音声タスクで最適な結果を達成しています。トランスフォーマーは機械学習の世界に遍在しており、今後も存在し続けるでしょう。

しかし、大量の計算能力が必要となるため、Transformer ベースのモデルを工業生産に適用するのは困難でコストもかかります。この問題に対処しようとする技術は数多くありますが、最も一般的なのは量子化です。残念ながら、ほとんどの場合、モデルの量子化には次の理由により多くの作業が必要になります。

まず、モデルを編集する必要があります。具体的には、いくつかの操作を量子化された形式で置き換え、いくつかの新しい操作（量子化ノードと逆量子化ノード）を挿入する必要があり、他の操作は重みとアクティベーションが量子化される状況に適応する必要があります。

たとえば、PyTorch は動的グラフモードで動作するため、この部分は非常に時間がかかり、上記の変更をモデル実装自体に追加する必要があります。 PyTorch では現在、モデルの実装を変更せずにモデルを変換できる「torch.fx」というツールを提供していますが、モデルがトレースをサポートしていない場合、このツールを使用するのは困難です。これに基づいて、ユーザーはモデルの編集が必要な部分を見つけ、どの操作に利用可能な量子化カーネルバージョンがあるかなどの問題を考慮する必要もあります。

次に、モデルを編集した後、最適な定量的設定を見つけるために多くのパラメータを選択する必要があります。次の 3 つの問題を考慮する必要があります。

距離補正にはどのような観測方法を使用すればよいでしょうか？
どの量子化方式を使用すべきでしょうか?
ターゲットデバイスではどのような量子化関連のデータ型 (int8、uint8、int16) がサポートされていますか?

ここでも、量子化と許容できる精度損失のバランスをとってください。

最後に、ターゲットデバイスから量子化されたモデルをエクスポートします。

PyTorch と TensorFlow は量子化の簡素化において大きな進歩を遂げていますが、Transformer ベースのモデルは複雑であり、市販のツールを使用して多大な労力をかけずに動作させることは困難です。

Intel の量子化アーティファクト: ニューラルコンプレッサー

Neural Compressor アーキテクチャの図。アドレス: https://github.com/intel/neural-compressor

Intel のオープンソース Python ライブラリ Neural Compressor (旧称「Low Precision Optimization Tool」- LPOT) は、ユーザーが低精度推論ソリューションを展開するのを支援するために使用されます。ディープラーニングモデルの低精度メソッドを通じて、推論パフォーマンスやメモリ使用量などの最適な生産目標を達成します。

Neural Compressor は、トレーニング後の量子化、量子化トレーニング、動的量子化をサポートします。量子化方法、ターゲット、パフォーマンス評価基準を指定するには、ユーザーはチューニングパラメータを指定する構成 yaml ファイルを提供する必要があります。構成ファイルは、Hugging Face のモデルハブでホストすることも、ローカルフォルダーパス経由で提供することもできます。

Optimumを使用してIntel Xeon CPUにTransformer量子化を簡単に実装する

実装コードは次のとおりです。

ML 生産パフォーマンスの民主化への道

SOTAハードウェア

Optimum は、ソフトウェアとハードウェアのアクセラレーション技術を使用して効率を最大化できる専用ハードウェア上で最適な生産パフォーマンスを実現することに重点を置いています。 Optimum チームは、ハードウェアパートナーと協力して、アクセラレーションテクノロジを有効にし、テストし、維持し、使いやすい方法でインタラクティブ化します。チームは、効率的な機械学習を実現するために協力する新しいハードウェアパートナーを近日中に発表する予定です。

SOTA モデル

Optimum チームはハードウェアパートナーと協力して、特定のハードウェア向けに最適化されたモデル設定とコンポーネントを研究し、その結果を Hugging Face モデルに関する AI コミュニティに公開します。チームは、Optimum と特定のハードウェア向けに最適化されたモデルによって、機械学習で消費される総エネルギーの大部分を占める生産プロセスの効率が向上することを期待しています。最も重要なことは、Optimum によって一般の人々による Transformer の大量導入が促進されることを期待しているということです。

<<: TransformerがCNNバックボーンネットワークを活性化、HKUとTencentの視覚的自己教師あり表現学習CARE

>>: ロボットは意識を獲得できるのか？もしそうなら、どうやって知るのでしょうか?