ICLR 2022|スピードこそすべて!完全なバイナリ化 BiBERT による超圧縮

ICLR 2022|スピードこそすべて!完全なバイナリ化 BiBERT による超圧縮

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

近年、事前トレーニング済みの言語モデルは自然言語処理において優れたパフォーマンスを発揮していますが、パラメータの数が多いため、実際のハードウェア デバイスへの展開が困難になっています。

最近、機械学習のトップカンファレンスであるICLR 2022の採択論文の結果が正式に発表されました。少なくとも9つの研究が、ニューラルネットワークの量子化の方向で関連する進歩を示しました。

この論文では、自然言語タスク向けの最初の完全にバイナリ量子化された BERT モデルである BiBERT を紹介します。これにより、FLOP とモデル サイズが最大 56.3 倍と 31.2 倍節約されます。

この研究は、北京航空航天大学、南洋理工大学、百度の劉翔龍教授のチームによって共同で完了しました。

事前トレーニング済みの言語モデルは自然言語処理では優れたパフォーマンスを発揮しますが、パラメータの数が多いため、実際のハードウェア デバイスへの展開が困難になります。

既存のモデル圧縮方法には、パラメータの量子化、蒸留、プルーニング、パラメータの共有などがあります。

その中で、パラメータ量子化法は、浮動小数点パラメータを固定小数点表現に効率的に変換し、モデルをコンパクトにします。

研究者らはQ-BERT[1]、Q8BERT[2]、GOBO[3]など多くの解決策を提案しているが、定量モデルは依然として表現力が限られており、最適化が難しいという深刻な問題に直面している。

幸いなことに、一般的に使用される補助的な最適化方法としての知識蒸留により、量子化モデルは完全精度の教師モデルの特徴表現を模倣することができ、それによって精度損失の問題をより適切に解決することができます。

この論文では、北京航空航天大学、NTU、百度の研究者らが、重み、アクティベーション、埋め込みを1 ビットに量子化する (アクティベーションを 4 ビット以上に維持しながら重みを 1 ビットに量子化するのではなく) BiBERT を提案しました。

これにより、モデルは推論中にビット単位の操作を使用できるようになり、モデルを実際のハードウェアに展開したときに推論が大幅に高速化されます。

我々は、2値化プロセス中のBERTモデルのパフォーマンス損失を研究しました。情報理論に基づいて、著者らは、順方向伝播における2値化後の注意機構の情報劣化問題を解決するために効率的なBi -Attention機構を導入し、逆方向伝播における蒸留の最適化方向不一致問題を解決するためにDirection-Matching Distillation法を提案しました。

△ 図1 BiBERTの全体フレームワーク

BiBERT は、BERT モデルの完全な 2 値化の実現可能性を初めて実証しました。GLUE データセットでの精度は、既存の BERT モデル 2 値化アルゴリズムを大幅に上回り、より高いビット表現のモデルをも上回りました。

モデルの計算とボリュームに関して、BiBERT は理論的には FLOP とモデル サイズをそれぞれ56.3 倍31.2 倍削減できます。

方法

バイアテンション: バイナリアテンションメカニズム

私たちの研究によると、BERT モデルの注意メカニズムでは、ソフトマックス関数によって得られた正規化された注意重みは確率分布に従うと考えられており、それを直接 2 値化すると完全な情報損失につながり、情報エントロピーが 0 に退化することがわかりました (図 2 を参照)。

△ 図2 ソフトマックス関数に2値化を直接適用すると、完全な情報損失が発生する

この情報劣化を軽減するための一般的な対策は、符号関数を適用する前に入力テンソルの分布をシフトすることです。これは次のように表すことができます。

その中で、シフトパラメータは二値化のしきい値としても考えられ、二値化後のエントロピーを最大化することを期待しています。

ソフトマックス関数は順序を保持することに注意してください。つまり、バイナリ表現の情報エントロピーを最大化する固定しきい値があることを意味します。

Hard Attention [4]に触発されて、著者はbool関数を使用してAttentionの重みAを2値化します。

bool関数を適用することで、注目重みの中で値の低い要素が0に二値化されるため、エントロピー値が最大の注目重みでキー部分の要素をフィルタリングすることができます。

最終的なバイナリ アテンション メカニズムは次のように表現できます。

このうち、BVは符号関数の2値化によって得られる値であり、BAはバイナリアテンションウェイトであり、これは慎重に設計されたビットアフィン行列乗算である。  合計シフトで構成される BAMM 演算子は、トレーニングと推論の表現を揃え、効率的なビット計算を実行するために使用されます。

DMD: 方向マッチング蒸留

著者は、注意の重みは 2 つのバイナリ活性化を直接乗算することによって得られることを発見しました。

そのため、決定のエッジの値は反対側に簡単に二値化される可能性があるため、注意の重みを直接最適化すると、トレーニング中に最適化の方向の不一致が発生することがよくあります。 (図3参照)

△ 図3 最適化方向の不一致

そのため、著者は、アクティベーションを蒸留するために上流のクエリ、キー、および値マトリックスの類似性マトリックスを構築する新しい蒸留スキームを設計しました。

ここで、||·|| はL2正則化を表します。これまでの研究では、このように構築された行列は、ネットワークの特定のパターンの意味的理解を反映し、スケールや数値サイズの影響を無視し、特徴間の本質的な相関関係をより安定して表現でき、バイナリネットワークと完全精度ネットワーク間の知識転送により適していると考えられていることが示されています。

したがって、蒸留損失は、隠れ層の損失、予測、および上記の活性化類似性マトリックスの合計として表すことができます。

ここでLは変圧器の層数を表し、

実験

著者の実験では、提案された BiBERT が GLUE ベンチマーク データセットのいくつかのタスクにおけるバイナリ BERT モデルの精度低下の問題を効果的に解決し、モデルを安定して最適化できることが証明されています。

表 1 は、提案された Bi-Attention と DMD により、2 値化後のモデルのパフォーマンスが大幅に向上することを示しています。

△表1 アブレーション実験

表 2 と 3 では、BiBERT が他の BERT 2 値化方式やさらに高ビットの量子化方式よりも優れていることを示しています。

△表2 BERTに基づく二値化手法の比較(データ強化なし)

△表3 BERTに基づく2値化手法の比較(データ拡張あり)

このうち、50% は、2 値化後にアテンション重みの半分が 0 になる必要があることを意味し、表に特に指定がない限り、量子化には 12 層の BERT モデルが使用されます。

さらに、著者らはトレーニング中に情報エントロピーを測定し(図4参照)、著者らが提案した方法は注意メカニズムで完全に失われた情報エントロピーを効果的に回復しました。

△ 図4 訓練中の情報エントロピー

同時に、著者はトレーニング中の損失削減曲線と精度をプロットしました。BiBERT はベースラインよりも大幅に速く収束し、精度も高くなっています。

△ 図5 トレーニング中の損失と精度の曲線

要約する

著者は、BERT モデルの最初の完全な 2 値化方法として BiBERT を提案し、その後の BERT 2 値化研究の理論的基礎を確立し、そのパフォーマンス低下の原因を分析し、モデルのパフォーマンスを効果的に向上させる Bi-Attention および DMD 手法を提案しました。

BiBERT は既存の BERT モデルの 2 値化手法を上回り、より多くのビットを使用する量子化方式よりも優れています。理論上、BiBERT は FLOP を 56.3 倍削減し、モデル ストレージを 31.2 倍節約できます。

この研究が将来の研究のための強固な基盤を築くことが期待されます。

BiBERT は、Baidu PaddlePaddle のオープンソース ディープラーニング モデル圧縮ツール PaddleSlim をベースにして、まもなくオープンソース化される予定ですので、ご期待ください。

パドルスリム: https://github.com/PaddlePaddle/PaddleSlim

会議論文転送: https://openreview.net/forum?id=5xEgrl_5FAJ

<<:  地球は思考しており、人間は単なるニューロンです。科学者は初めて「惑星知性」を提唱した

>>:  自然の中でショウジョウバエがVRをプレイし、注意メカニズムとワーキングメモリを発見

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

機械学習では、いくつかの分類アルゴリズムが一般的に使用されています。適切なアルゴリズムを選択するにはどうすればよいでしょうか?

今日は、機械学習における一般的な分類アルゴリズム 6 つ (K 最近傍法、決定木、単純ベイズ、ロジス...

世界初、常温量子コンピュータが実用化!絶対零度の温度は必要ありません。メインコアには実際に「ダイヤモンドがセットされています」

量子コンピューティングは、おそらく現在最もエキサイティングな(そして話題になっている)研究分野の 1...

...

...

1080ti だけで、リモートセンシング画像内のピクセルレベルでターゲットを見つけることができます。コードデータセットがオープンソース化されました!

長すぎて読めないこの論文では、新しいタスクである方向リモートセンシング画像セグメンテーション (RR...

バイリアン・スマートが2021 NIDIアジェンダ中国新小売・デジタルイノベーションサミットに出席

6月22日、2021NIDIアジェンダ中国新小売・デジタルイノベーションサミットが上海で盛大に開催さ...

チャットボットが消費者と企業に役立つ6つの方法

チャットボットは非常に一般的になったため、消費者はそれを当然のこととして受け止め、オンライン世界のあ...

...

情報格差を打破せよ!大規模モデル向けの驚異的な 3D 視覚化ツールです。

最近、ニュージーランド出身のブレンダン・バイクロフトという男がテクノロジー界で大流行を巻き起こしてい...

大規模言語モデルに基づくインテリジェントエージェントのモデリングとシミュレーション:レビューと展望

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

人工知能はビッグデータ天体物理学の時代へのマスターキーとなるのでしょうか?

[[386945]]私はかつて「ウォーリーと一緒に星を見上げる」というタイトルの記事を書き、ビッグ...

人間のフィードバックなしで調整します。田元東チームの新しい研究RLCD:無害で有益なアウトラインライティングはベースラインモデルを全面的に上回る

大規模モデルがより強力になるにつれて、低コストでモデルの出力を人間の嗜好や社会の公共価値により沿った...

人工知能とプライバシーの議論: AIの透明性の長所と短所を理解する

[[334476]] AI がますます多くの業界で採用されるようになるにつれ、AI のユーザーは、実...

ロボットR2-D2は50年後に人間の仕事を完全に置き換えるでしょうか?

[51CTO.com クイック翻訳] 海外メディアの報道によると、誰かが設計しているロボットがあな...

...