HuggingFace は、大規模モデルの製造パフォーマンスを効率的にリリースするための Transformer 拡張および最適化ライブラリをオープンソース化しました。

HuggingFace は、大規模モデルの製造パフォーマンスを効率的にリリースするための Transformer 拡張および最適化ライブラリをオープンソース化しました。

[[428679]]

Tesla、Google、Microsoft、Facebook などのテクノロジー大手には多くの共通点がありますが、その 1 つは、毎日数十億の Transformer モデル予測を実行していることです。たとえば、トランスフォーマーは、テスラの自動運転システム「オートパイロット」で車を運転したり、Gmail で文章を完成させたり、Facebook でユーザーの投稿を即座に翻訳したり、Bing でユーザーの自然言語クエリに回答したりします。

トランスフォーマーは機械学習モデルの精度を大幅に向上させ、NLP 分野に旋風を巻き起こし、他のモダリティ (音声や視覚など) にも拡大しています。しかし、これらの大規模なモデルを工業生産に適用し、大規模に迅速に実行することは、機械学習エンジニアリング チームにとって大きな課題です。

上記の企業のように、何百人もの高度なスキルを持つ機械学習エンジニアを雇用せずに、このような大規模なモデルを適用するにはどうすればよいでしょうか?最近、Hugging Face は新しいパッケージ「Optimum」をオープンソース化しました。これは、Transformer の工業生産に最適なツールキットを提供することを目的としたもので、特定のハードウェア上でモデルを最高の効率でトレーニングおよび実行できるようにします。

プロジェクトアドレス: https://github.com/huggingface/blog/blob/master/hardware-partners-program.md

OptimumはTransformerの効率的な動作を可能にします

モデルのトレーニングと提供時に最高のパフォーマンスを得るには、モデル アクセラレーション テクノロジーがターゲット ハードウェアと互換性がある必要があります。各ハードウェア プラットフォームは、パフォーマンスに大きな影響を与える可能性のある特定のソフトウェア ツール、機能、およびチューニング方法を提供します。同様に、スパース化や量子化などの高度なモデル加速技術を活用するには、最適化されたカーネルがシリコン上の操作と互換性があり、モデル アーキテクチャから派生したニューラル ネットワーク グラフに固有のものである必要があります。この 3 次元の互換性マトリックスとモデル高速化ライブラリの使用方法について深く考えることは、機械学習エンジニアが経験したことのない難しい作業です。

Optimum は、「この作業を簡素化し、効率的な人工知能ハードウェア向けのパフォーマンス最適化ツールを提供し、ハードウェア パートナーと協力して機械学習エンジニアに機械学習を最適化できる能力を提供する」ために立ち上げられました。

Transformer パッケージを使用すると、研究者やエンジニアは、フレームワーク、アーキテクチャ、ワークフローの複雑さを考慮することなく、最先端のモデルをより簡単に使用できます。また、エンジニアは、ハードウェア プラットフォームでのモデル アクセラレーションの複雑さを考慮することなく、利用可能なすべてのハードウェアの機能を簡単に活用できます。

最適な実践: Intel Xeon CPU 上でモデルを量子化する方法

定量化はなぜそれほど重要でありながら、達成するのが難しいのでしょうか?

事前トレーニング済みの言語モデル BERT は、さまざまな NLP タスクで最高のパフォーマンスを達成しており、ViT や SpeechText などの他の Transformer ベースのモデルも、それぞれコンピューター ビジョンと音声タスクで最適な結果を達成しています。トランスフォーマーは機械学習の世界に遍在しており、今後も存在し続けるでしょう。

しかし、大量の計算能力が必要となるため、Transformer ベースのモデルを工業生産に適用するのは困難でコストもかかります。この問題に対処しようとする技術は数多くありますが、最も一般的なのは量子化です。残念ながら、ほとんどの場合、モデルの量子化には次の理由により多くの作業が必要になります。

まず、モデルを編集する必要があります。具体的には、いくつかの操作を量子化された形式で置き換え、いくつかの新しい操作(量子化ノードと逆量子化ノード)を挿入する必要があり、他の操作は重みとアクティベーションが量子化される状況に適応する必要があります。

たとえば、PyTorch は動的グラフ モードで動作するため、この部分は非常に時間がかかり、上記の変更をモデル実装自体に追加する必要があります。 PyTorch では現在、モデルの実装を変更せずにモデルを変換できる「torch.fx」というツールを提供していますが、モデルがトレースをサポートしていない場合、このツールを使用するのは困難です。これに基づいて、ユーザーはモデルの編集が必要な部分を見つけ、どの操作に利用可能な量子化カーネル バージョンがあるかなどの問題を考慮する必要もあります。

次に、モデルを編集した後、最適な定量的設定を見つけるために多くのパラメータを選択する必要があります。次の 3 つの問題を考慮する必要があります。

  • 距離補正にはどのような観測方法を使用すればよいでしょうか?
  • どの量子化方式を使用すべきでしょうか?
  • ターゲット デバイスではどのような量子化関連のデータ型 (int8、uint8、int16) がサポートされていますか?

ここでも、量子化と許容できる精度損失のバランスをとってください。

最後に、ターゲットデバイスから量子化されたモデルをエクスポートします。

PyTorch と TensorFlow は量子化の簡素化において大きな進歩を遂げていますが、Transformer ベースのモデルは複雑であり、市販のツールを使用して多大な労力をかけずに動作させることは困難です。

Intel の量子化アーティファクト: ニューラル コンプレッサー

Neural Compressor アーキテクチャの図。アドレス: https://github.com/intel/neural-compressor

Intel のオープンソース Python ライブラリ Neural Compressor (旧称「Low Precision Optimization Tool」- LPOT) は、ユーザーが低精度推論ソリューションを展開するのを支援するために使用されます。ディープラーニング モデルの低精度メソッドを通じて、推論パフォーマンスやメモリ使用量などの最適な生産目標を達成します。

Neural Compressor は、トレーニング後の量子化、量子化トレーニング、動的量子化をサポートします。量子化方法、ターゲット、パフォーマンス評価基準を指定するには、ユーザーはチューニング パラメータを指定する構成 yaml ファイルを提供する必要があります。構成ファイルは、Hugging Face のモデル ハブでホストすることも、ローカル フォルダー パス経由で提供することもできます。

Optimumを使用してIntel Xeon CPUにTransformer量子化を簡単に実装する

実装コードは次のとおりです。

ML 生産パフォーマンスの民主化への道

SOTAハードウェア

Optimum は、ソフトウェアとハ​​ードウェアのアクセラレーション技術を使用して効率を最大化できる専用ハードウェア上で最適な生産パフォーマンスを実現することに重点を置いています。 Optimum チームは、ハードウェア パートナーと協力して、アクセラレーション テクノロジを有効にし、テストし、維持し、使いやすい方法でインタラクティブ化します。チームは、効率的な機械学習を実現するために協力する新しいハードウェア パートナーを近日中に発表する予定です。

SOTA モデル

Optimum チームはハードウェア パートナーと協力して、特定のハードウェア向けに最適化されたモデル設定とコンポーネントを研究し、その結果を Hugging Face モデルに関する AI コミュニティに公開します。チームは、Optimum と特定のハードウェア向けに最適化されたモデルによって、機械学習で消費される総エネルギーの大部分を占める生産プロセスの効率が向上することを期待しています。最も重要なことは、Optimum によって一般の人々による Transformer の大量導入が促進されることを期待しているということです。

<<:  TransformerがCNNバックボーンネットワークを活性化、HKUとTencentの視覚的自己教師あり表現学習CARE

>>:  ロボットは意識を獲得できるのか?もしそうなら、どうやって知るのでしょうか?

ブログ    
ブログ    

推薦する

空飛ぶ車の将来展望は?

空飛ぶ車というアイデアは何十年も私たちの想像力をかき立て、交通渋滞の上を飛ぶことができる未来のビジョ...

95 年以降の DAMO アカデミーのインターン生がマイクロソフトに勝ち、最も難しい NLP タスクの世界記録を更新

アリババAIは、常識QA分野の権威あるデータセットであるCommonsenseQAで新たな世界記録を...

...

ドバイが無人「空飛ぶ車」を試験:世界初のドローン旅客サービスとなる見込み

[[204952]]ボロコプター、ドバイで無人空飛ぶ車のテストを開始ロイター通信は北京時間9月26日...

信じられない!中国はわずか3年で人工知能の分野で大きな成果を上げた

計算知能から知覚知能、そして認知知能へと、人工知能の鍋はついに沸騰しようとしています。最近、3E 2...

openKylinオペレーティングシステムが正式に発表され、ビッグモデルに接続し、音声アシスタントとデスクトッププラグインを提供します

9月21日、openKylinオペレーティングシステムは今晩、ビッグモデルへのアクセスを正式に発表し...

トラック輸送業界がIoTとAIを活用する方法

トラック輸送業界とそれを支える物流は、国内外のサプライチェーンの成功の基盤となっています。こうしたサ...

従来の AGV と比較した利点は何ですか? AMRロボット業界の状況は変化する

ロボット技術の知能化は、ロボット応用分野の継続的な拡大にプラスの影響を与えています。この傾向を受けて...

...

中国の良き叔父から12歳の開発者Jing Kunまで:DuerOSはすべての開発者に平等に力を与えます

スマート音声開発者はAIの「ゴールドラッシュ」を先導しています。 7月4日、第2回百度AI開発者会議...

人工知能はセキュリティの優れた防御線である

2021年を迎え、私たちは新しい働き方や新しい労働環境に慣れてきました。多くの人は、デジタル通信手段...

ChatGPT: 機械学習とディープラーニングを簡単かつ楽しく

ディープラーニングと機械学習は、今日のテクノロジーのホットな話題ですが、初心者にとっては少し複雑で難...

グラフなしの ICLR'24 のための新しいアイデア! LaneSegNet: 車線セグメンテーションを考慮したマップ学習

序文と著者の個人的な理解自動運転システムの下流アプリケーションにとって重要な情報である地図は、通常、...

サイバーセキュリティにおける人工知能の応用

1956年、ダートマス大学で開催された会議で、コンピューターの専門家であるジョン・マッカーシーが初め...