HuggingFace は、大規模モデルの製造パフォーマンスを効率的にリリースするための Transformer 拡張および最適化ライブラリをオープンソース化しました。

HuggingFace は、大規模モデルの製造パフォーマンスを効率的にリリースするための Transformer 拡張および最適化ライブラリをオープンソース化しました。

[[428679]]

Tesla、Google、Microsoft、Facebook などのテクノロジー大手には多くの共通点がありますが、その 1 つは、毎日数十億の Transformer モデル予測を実行していることです。たとえば、トランスフォーマーは、テスラの自動運転システム「オートパイロット」で車を運転したり、Gmail で文章を完成させたり、Facebook でユーザーの投稿を即座に翻訳したり、Bing でユーザーの自然言語クエリに回答したりします。

トランスフォーマーは機械学習モデルの精度を大幅に向上させ、NLP 分野に旋風を巻き起こし、他のモダリティ (音声や視覚など) にも拡大しています。しかし、これらの大規模なモデルを工業生産に適用し、大規模に迅速に実行することは、機械学習エンジニアリング チームにとって大きな課題です。

上記の企業のように、何百人もの高度なスキルを持つ機械学習エンジニアを雇用せずに、このような大規模なモデルを適用するにはどうすればよいでしょうか?最近、Hugging Face は新しいパッケージ「Optimum」をオープンソース化しました。これは、Transformer の工業生産に最適なツールキットを提供することを目的としたもので、特定のハードウェア上でモデルを最高の効率でトレーニングおよび実行できるようにします。

プロジェクトアドレス: https://github.com/huggingface/blog/blob/master/hardware-partners-program.md

OptimumはTransformerの効率的な動作を可能にします

モデルのトレーニングと提供時に最高のパフォーマンスを得るには、モデル アクセラレーション テクノロジーがターゲット ハードウェアと互換性がある必要があります。各ハードウェア プラットフォームは、パフォーマンスに大きな影響を与える可能性のある特定のソフトウェア ツール、機能、およびチューニング方法を提供します。同様に、スパース化や量子化などの高度なモデル加速技術を活用するには、最適化されたカーネルがシリコン上の操作と互換性があり、モデル アーキテクチャから派生したニューラル ネットワーク グラフに固有のものである必要があります。この 3 次元の互換性マトリックスとモデル高速化ライブラリの使用方法について深く考えることは、機械学習エンジニアが経験したことのない難しい作業です。

Optimum は、「この作業を簡素化し、効率的な人工知能ハードウェア向けのパフォーマンス最適化ツールを提供し、ハードウェア パートナーと協力して機械学習エンジニアに機械学習を最適化できる能力を提供する」ために立ち上げられました。

Transformer パッケージを使用すると、研究者やエンジニアは、フレームワーク、アーキテクチャ、ワークフローの複雑さを考慮することなく、最先端のモデルをより簡単に使用できます。また、エンジニアは、ハードウェア プラットフォームでのモデル アクセラレーションの複雑さを考慮することなく、利用可能なすべてのハードウェアの機能を簡単に活用できます。

最適な実践: Intel Xeon CPU 上でモデルを量子化する方法

定量化はなぜそれほど重要でありながら、達成するのが難しいのでしょうか?

事前トレーニング済みの言語モデル BERT は、さまざまな NLP タスクで最高のパフォーマンスを達成しており、ViT や SpeechText などの他の Transformer ベースのモデルも、それぞれコンピューター ビジョンと音声タスクで最適な結果を達成しています。トランスフォーマーは機械学習の世界に遍在しており、今後も存在し続けるでしょう。

しかし、大量の計算能力が必要となるため、Transformer ベースのモデルを工業生産に適用するのは困難でコストもかかります。この問題に対処しようとする技術は数多くありますが、最も一般的なのは量子化です。残念ながら、ほとんどの場合、モデルの量子化には次の理由により多くの作業が必要になります。

まず、モデルを編集する必要があります。具体的には、いくつかの操作を量子化された形式で置き換え、いくつかの新しい操作(量子化ノードと逆量子化ノード)を挿入する必要があり、他の操作は重みとアクティベーションが量子化される状況に適応する必要があります。

たとえば、PyTorch は動的グラフ モードで動作するため、この部分は非常に時間がかかり、上記の変更をモデル実装自体に追加する必要があります。 PyTorch では現在、モデルの実装を変更せずにモデルを変換できる「torch.fx」というツールを提供していますが、モデルがトレースをサポートしていない場合、このツールを使用するのは困難です。これに基づいて、ユーザーはモデルの編集が必要な部分を見つけ、どの操作に利用可能な量子化カーネル バージョンがあるかなどの問題を考慮する必要もあります。

次に、モデルを編集した後、最適な定量的設定を見つけるために多くのパラメータを選択する必要があります。次の 3 つの問題を考慮する必要があります。

  • 距離補正にはどのような観測方法を使用すればよいでしょうか?
  • どの量子化方式を使用すべきでしょうか?
  • ターゲット デバイスではどのような量子化関連のデータ型 (int8、uint8、int16) がサポートされていますか?

ここでも、量子化と許容できる精度損失のバランスをとってください。

最後に、ターゲットデバイスから量子化されたモデルをエクスポートします。

PyTorch と TensorFlow は量子化の簡素化において大きな進歩を遂げていますが、Transformer ベースのモデルは複雑であり、市販のツールを使用して多大な労力をかけずに動作させることは困難です。

Intel の量子化アーティファクト: ニューラル コンプレッサー

Neural Compressor アーキテクチャの図。アドレス: https://github.com/intel/neural-compressor

Intel のオープンソース Python ライブラリ Neural Compressor (旧称「Low Precision Optimization Tool」- LPOT) は、ユーザーが低精度推論ソリューションを展開するのを支援するために使用されます。ディープラーニング モデルの低精度メソッドを通じて、推論パフォーマンスやメモリ使用量などの最適な生産目標を達成します。

Neural Compressor は、トレーニング後の量子化、量子化トレーニング、動的量子化をサポートします。量子化方法、ターゲット、パフォーマンス評価基準を指定するには、ユーザーはチューニング パラメータを指定する構成 yaml ファイルを提供する必要があります。構成ファイルは、Hugging Face のモデル ハブでホストすることも、ローカル フォルダー パス経由で提供することもできます。

Optimumを使用してIntel Xeon CPUにTransformer量子化を簡単に実装する

実装コードは次のとおりです。

ML 生産パフォーマンスの民主化への道

SOTAハードウェア

Optimum は、ソフトウェアとハ​​ードウェアのアクセラレーション技術を使用して効率を最大化できる専用ハードウェア上で最適な生産パフォーマンスを実現することに重点を置いています。 Optimum チームは、ハードウェア パートナーと協力して、アクセラレーション テクノロジを有効にし、テストし、維持し、使いやすい方法でインタラクティブ化します。チームは、効率的な機械学習を実現するために協力する新しいハードウェア パートナーを近日中に発表する予定です。

SOTA モデル

Optimum チームはハードウェア パートナーと協力して、特定のハードウェア向けに最適化されたモデル設定とコンポーネントを研究し、その結果を Hugging Face モデルに関する AI コミュニティに公開します。チームは、Optimum と特定のハードウェア向けに最適化されたモデルによって、機械学習で消費される総エネルギーの大部分を占める生産プロセスの効率が向上することを期待しています。最も重要なことは、Optimum によって一般の人々による Transformer の大量導入が促進されることを期待しているということです。

<<:  TransformerがCNNバックボーンネットワークを活性化、HKUとTencentの視覚的自己教師あり表現学習CARE

>>:  ロボットは意識を獲得できるのか?もしそうなら、どうやって知るのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

新型コロナウイルスワクチンの製造はAIに頼っているのか?ジョンソン・エンド・ジョンソンとPwCがAIをどのように活用しているかを学ぶ

現在までに、多くの企業は AI 実験による大きな影響を感じていません。この点について、一部の専門家は...

自動応答は人工知能ではなく、自律応答は

セキュリティ オペレーション センター (SOC) のアナリストは推論と意思決定に優れていますが、2...

...

人工知能がデータセンターのネットゼロカーボン達成を支援

今日、業界や部門に関係なく、私たちは皆、エネルギーと燃料のコスト上昇、原材料費の増加、営業利益率と利...

...

Baidu Mapsは、インテリジェントな位置情報サービスプラットフォームを構築するために、新世代の人工知能マップエコシステムをリリースしました。

2019年12月10日、北京で百度地図生態系会議が開催され、「新世代人工知能地図」の生態パノラマが...

スマート製造とAIが環境にどのように役立つか

製造業からの温室効果ガス排出を削減する方法は複数あります。 製造業におけるデジタルデータの使用による...

携帯電話の顔認識は、単に顔を見せることだけだと思っていませんか?あまりにもナイーブだ!女の子は注意しなければならない

今日は古い知識を学んだのですが、普段私たちが使っている携帯電話の顔認識は顔の部分だけを認識するもので...

ケーススタディ | 埋め込みに基づく特徴セキュアな計算

[[331789]]序文従来のデータの公開と共有の方法の多くは、生のデータをプレーンテキストで直接出...

AIOps が IT 管理を変革する方法

世界がコロナウイルス危機の影響に取り組む中、業界団体は競合するネットワーク リソース、高まるユーザー...

...

2021 年に IT 自動化と AI はどこに向かうのでしょうか?

IT自動化と人工知能技術の進歩と発展により、IT担当者の働き方は大きく変化しました。今年に入って新...

...

人工知能と5Gの完璧な組み合わせは人類に全く新しい体験をもたらすかもしれない

世界の経済レベルと科学レベルが継続的に向上するにつれて、人類の科学技術分野における成果はますます顕著...