Tesla、Google、Microsoft、Facebook などのテクノロジー大手には多くの共通点がありますが、その 1 つは、毎日数十億の Transformer モデル予測を実行していることです。たとえば、トランスフォーマーは、テスラの自動運転システム「オートパイロット」で車を運転したり、Gmail で文章を完成させたり、Facebook でユーザーの投稿を即座に翻訳したり、Bing でユーザーの自然言語クエリに回答したりします。 トランスフォーマーは機械学習モデルの精度を大幅に向上させ、NLP 分野に旋風を巻き起こし、他のモダリティ (音声や視覚など) にも拡大しています。しかし、これらの大規模なモデルを工業生産に適用し、大規模に迅速に実行することは、機械学習エンジニアリング チームにとって大きな課題です。 上記の企業のように、何百人もの高度なスキルを持つ機械学習エンジニアを雇用せずに、このような大規模なモデルを適用するにはどうすればよいでしょうか?最近、Hugging Face は新しいパッケージ「Optimum」をオープンソース化しました。これは、Transformer の工業生産に最適なツールキットを提供することを目的としたもので、特定のハードウェア上でモデルを最高の効率でトレーニングおよび実行できるようにします。 プロジェクトアドレス: https://github.com/huggingface/blog/blob/master/hardware-partners-program.md OptimumはTransformerの効率的な動作を可能にしますモデルのトレーニングと提供時に最高のパフォーマンスを得るには、モデル アクセラレーション テクノロジーがターゲット ハードウェアと互換性がある必要があります。各ハードウェア プラットフォームは、パフォーマンスに大きな影響を与える可能性のある特定のソフトウェア ツール、機能、およびチューニング方法を提供します。同様に、スパース化や量子化などの高度なモデル加速技術を活用するには、最適化されたカーネルがシリコン上の操作と互換性があり、モデル アーキテクチャから派生したニューラル ネットワーク グラフに固有のものである必要があります。この 3 次元の互換性マトリックスとモデル高速化ライブラリの使用方法について深く考えることは、機械学習エンジニアが経験したことのない難しい作業です。 Optimum は、「この作業を簡素化し、効率的な人工知能ハードウェア向けのパフォーマンス最適化ツールを提供し、ハードウェア パートナーと協力して機械学習エンジニアに機械学習を最適化できる能力を提供する」ために立ち上げられました。 Transformer パッケージを使用すると、研究者やエンジニアは、フレームワーク、アーキテクチャ、ワークフローの複雑さを考慮することなく、最先端のモデルをより簡単に使用できます。また、エンジニアは、ハードウェア プラットフォームでのモデル アクセラレーションの複雑さを考慮することなく、利用可能なすべてのハードウェアの機能を簡単に活用できます。 最適な実践: Intel Xeon CPU 上でモデルを量子化する方法定量化はなぜそれほど重要でありながら、達成するのが難しいのでしょうか?事前トレーニング済みの言語モデル BERT は、さまざまな NLP タスクで最高のパフォーマンスを達成しており、ViT や SpeechText などの他の Transformer ベースのモデルも、それぞれコンピューター ビジョンと音声タスクで最適な結果を達成しています。トランスフォーマーは機械学習の世界に遍在しており、今後も存在し続けるでしょう。 しかし、大量の計算能力が必要となるため、Transformer ベースのモデルを工業生産に適用するのは困難でコストもかかります。この問題に対処しようとする技術は数多くありますが、最も一般的なのは量子化です。残念ながら、ほとんどの場合、モデルの量子化には次の理由により多くの作業が必要になります。 まず、モデルを編集する必要があります。具体的には、いくつかの操作を量子化された形式で置き換え、いくつかの新しい操作(量子化ノードと逆量子化ノード)を挿入する必要があり、他の操作は重みとアクティベーションが量子化される状況に適応する必要があります。 たとえば、PyTorch は動的グラフ モードで動作するため、この部分は非常に時間がかかり、上記の変更をモデル実装自体に追加する必要があります。 PyTorch では現在、モデルの実装を変更せずにモデルを変換できる「torch.fx」というツールを提供していますが、モデルがトレースをサポートしていない場合、このツールを使用するのは困難です。これに基づいて、ユーザーはモデルの編集が必要な部分を見つけ、どの操作に利用可能な量子化カーネル バージョンがあるかなどの問題を考慮する必要もあります。 次に、モデルを編集した後、最適な定量的設定を見つけるために多くのパラメータを選択する必要があります。次の 3 つの問題を考慮する必要があります。
ここでも、量子化と許容できる精度損失のバランスをとってください。 最後に、ターゲットデバイスから量子化されたモデルをエクスポートします。 PyTorch と TensorFlow は量子化の簡素化において大きな進歩を遂げていますが、Transformer ベースのモデルは複雑であり、市販のツールを使用して多大な労力をかけずに動作させることは困難です。 Intel の量子化アーティファクト: ニューラル コンプレッサーNeural Compressor アーキテクチャの図。アドレス: https://github.com/intel/neural-compressor Intel のオープンソース Python ライブラリ Neural Compressor (旧称「Low Precision Optimization Tool」- LPOT) は、ユーザーが低精度推論ソリューションを展開するのを支援するために使用されます。ディープラーニング モデルの低精度メソッドを通じて、推論パフォーマンスやメモリ使用量などの最適な生産目標を達成します。 Neural Compressor は、トレーニング後の量子化、量子化トレーニング、動的量子化をサポートします。量子化方法、ターゲット、パフォーマンス評価基準を指定するには、ユーザーはチューニング パラメータを指定する構成 yaml ファイルを提供する必要があります。構成ファイルは、Hugging Face のモデル ハブでホストすることも、ローカル フォルダー パス経由で提供することもできます。 Optimumを使用してIntel Xeon CPUにTransformer量子化を簡単に実装する実装コードは次のとおりです。 ML 生産パフォーマンスの民主化への道SOTAハードウェアOptimum は、ソフトウェアとハードウェアのアクセラレーション技術を使用して効率を最大化できる専用ハードウェア上で最適な生産パフォーマンスを実現することに重点を置いています。 Optimum チームは、ハードウェア パートナーと協力して、アクセラレーション テクノロジを有効にし、テストし、維持し、使いやすい方法でインタラクティブ化します。チームは、効率的な機械学習を実現するために協力する新しいハードウェア パートナーを近日中に発表する予定です。 SOTA モデルOptimum チームはハードウェア パートナーと協力して、特定のハードウェア向けに最適化されたモデル設定とコンポーネントを研究し、その結果を Hugging Face モデルに関する AI コミュニティに公開します。チームは、Optimum と特定のハードウェア向けに最適化されたモデルによって、機械学習で消費される総エネルギーの大部分を占める生産プロセスの効率が向上することを期待しています。最も重要なことは、Optimum によって一般の人々による Transformer の大量導入が促進されることを期待しているということです。 |
<<: TransformerがCNNバックボーンネットワークを活性化、HKUとTencentの視覚的自己教師あり表現学習CARE
>>: ロボットは意識を獲得できるのか?もしそうなら、どうやって知るのでしょうか?
空飛ぶ車というアイデアは何十年も私たちの想像力をかき立て、交通渋滞の上を飛ぶことができる未来のビジョ...
アリババAIは、常識QA分野の権威あるデータセットであるCommonsenseQAで新たな世界記録を...
[[204952]]ボロコプター、ドバイで無人空飛ぶ車のテストを開始ロイター通信は北京時間9月26日...
速報です!海外メディアは、OpenAIのCEOサム・アルトマン氏が、元Appleのチーフデザイナーの...
計算知能から知覚知能、そして認知知能へと、人工知能の鍋はついに沸騰しようとしています。最近、3E 2...
9月21日、openKylinオペレーティングシステムは今晩、ビッグモデルへのアクセスを正式に発表し...
トラック輸送業界とそれを支える物流は、国内外のサプライチェーンの成功の基盤となっています。こうしたサ...
ロボット技術の知能化は、ロボット応用分野の継続的な拡大にプラスの影響を与えています。この傾向を受けて...
スマート音声開発者はAIの「ゴールドラッシュ」を先導しています。 7月4日、第2回百度AI開発者会議...
2021年を迎え、私たちは新しい働き方や新しい労働環境に慣れてきました。多くの人は、デジタル通信手段...
ディープラーニングと機械学習は、今日のテクノロジーのホットな話題ですが、初心者にとっては少し複雑で難...
序文と著者の個人的な理解自動運転システムの下流アプリケーションにとって重要な情報である地図は、通常、...
1956年、ダートマス大学で開催された会議で、コンピューターの専門家であるジョン・マッカーシーが初め...