ICLR 2022|スピードこそすべて!完全なバイナリ化 BiBERT による超圧縮

ICLR 2022|スピードこそすべて!完全なバイナリ化 BiBERT による超圧縮

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

近年、事前トレーニング済みの言語モデルは自然言語処理において優れたパフォーマンスを発揮していますが、パラメータの数が多いため、実際のハードウェア デバイスへの展開が困難になっています。

最近、機械学習のトップカンファレンスであるICLR 2022の採択論文の結果が正式に発表されました。少なくとも9つの研究が、ニューラルネットワークの量子化の方向で関連する進歩を示しました。

この論文では、自然言語タスク向けの最初の完全にバイナリ量子化された BERT モデルである BiBERT を紹介します。これにより、FLOP とモデル サイズが最大 56.3 倍と 31.2 倍節約されます。

この研究は、北京航空航天大学、南洋理工大学、百度の劉翔龍教授のチームによって共同で完了しました。

事前トレーニング済みの言語モデルは自然言語処理では優れたパフォーマンスを発揮しますが、パラメータの数が多いため、実際のハードウェア デバイスへの展開が困難になります。

既存のモデル圧縮方法には、パラメータの量子化、蒸留、プルーニング、パラメータの共有などがあります。

その中で、パラメータ量子化法は、浮動小数点パラメータを固定小数点表現に効率的に変換し、モデルをコンパクトにします。

研究者らはQ-BERT[1]、Q8BERT[2]、GOBO[3]など多くの解決策を提案しているが、定量モデルは依然として表現力が限られており、最適化が難しいという深刻な問題に直面している。

幸いなことに、一般的に使用される補助的な最適化方法としての知識蒸留により、量子化モデルは完全精度の教師モデルの特徴表現を模倣することができ、それによって精度損失の問題をより適切に解決することができます。

この論文では、北京航空航天大学、NTU、百度の研究者らが、重み、アクティベーション、埋め込みを1 ビットに量子化する (アクティベーションを 4 ビット以上に維持しながら重みを 1 ビットに量子化するのではなく) BiBERT を提案しました。

これにより、モデルは推論中にビット単位の操作を使用できるようになり、モデルを実際のハードウェアに展開したときに推論が大幅に高速化されます。

我々は、2値化プロセス中のBERTモデルのパフォーマンス損失を研究しました。情報理論に基づいて、著者らは、順方向伝播における2値化後の注意機構の情報劣化問題を解決するために効率的なBi -Attention機構を導入し、逆方向伝播における蒸留の最適化方向不一致問題を解決するためにDirection-Matching Distillation法を提案しました。

△ 図1 BiBERTの全体フレームワーク

BiBERT は、BERT モデルの完全な 2 値化の実現可能性を初めて実証しました。GLUE データセットでの精度は、既存の BERT モデル 2 値化アルゴリズムを大幅に上回り、より高いビット表現のモデルをも上回りました。

モデルの計算とボリュームに関して、BiBERT は理論的には FLOP とモデル サイズをそれぞれ56.3 倍31.2 倍削減できます。

方法

バイアテンション: バイナリアテンションメカニズム

私たちの研究によると、BERT モデルの注意メカニズムでは、ソフトマックス関数によって得られた正規化された注意重みは確率分布に従うと考えられており、それを直接 2 値化すると完全な情報損失につながり、情報エントロピーが 0 に退化することがわかりました (図 2 を参照)。

△ 図2 ソフトマックス関数に2値化を直接適用すると、完全な情報損失が発生する

この情報劣化を軽減するための一般的な対策は、符号関数を適用する前に入力テンソルの分布をシフトすることです。これは次のように表すことができます。

その中で、シフトパラメータは二値化のしきい値としても考えられ、二値化後のエントロピーを最大化することを期待しています。

ソフトマックス関数は順序を保持することに注意してください。つまり、バイナリ表現の情報エントロピーを最大化する固定しきい値があることを意味します。

Hard Attention [4]に触発されて、著者はbool関数を使用してAttentionの重みAを2値化します。

bool関数を適用することで、注目重みの中で値の低い要素が0に二値化されるため、エントロピー値が最大の注目重みでキー部分の要素をフィルタリングすることができます。

最終的なバイナリ アテンション メカニズムは次のように表現できます。

このうち、BVは符号関数の2値化によって得られる値であり、BAはバイナリアテンションウェイトであり、これは慎重に設計されたビットアフィン行列乗算である。  合計シフトで構成される BAMM 演算子は、トレーニングと推論の表現を揃え、効率的なビット計算を実行するために使用されます。

DMD: 方向マッチング蒸留

著者は、注意の重みは 2 つのバイナリ活性化を直接乗算することによって得られることを発見しました。

そのため、決定のエッジの値は反対側に簡単に二値化される可能性があるため、注意の重みを直接最適化すると、トレーニング中に最適化の方向の不一致が発生することがよくあります。 (図3参照)

△ 図3 最適化方向の不一致

そのため、著者は、アクティベーションを蒸留するために上流のクエリ、キー、および値マトリックスの類似性マトリックスを構築する新しい蒸留スキームを設計しました。

ここで、||·|| はL2正則化を表します。これまでの研究では、このように構築された行列は、ネットワークの特定のパターンの意味的理解を反映し、スケールや数値サイズの影響を無視し、特徴間の本質的な相関関係をより安定して表現でき、バイナリネットワークと完全精度ネットワーク間の知識転送により適していると考えられていることが示されています。

したがって、蒸留損失は、隠れ層の損失、予測、および上記の活性化類似性マトリックスの合計として表すことができます。

ここでLは変圧器の層数を表し、

実験

著者の実験では、提案された BiBERT が GLUE ベンチマーク データセットのいくつかのタスクにおけるバイナリ BERT モデルの精度低下の問題を効果的に解決し、モデルを安定して最適化できることが証明されています。

表 1 は、提案された Bi-Attention と DMD により、2 値化後のモデルのパフォーマンスが大幅に向上することを示しています。

△表1 アブレーション実験

表 2 と 3 では、BiBERT が他の BERT 2 値化方式やさらに高ビットの量子化方式よりも優れていることを示しています。

△表2 BERTに基づく二値化手法の比較(データ強化なし)

△表3 BERTに基づく2値化手法の比較(データ拡張あり)

このうち、50% は、2 値化後にアテンション重みの半分が 0 になる必要があることを意味し、表に特に指定がない限り、量子化には 12 層の BERT モデルが使用されます。

さらに、著者らはトレーニング中に情報エントロピーを測定し(図4参照)、著者らが提案した方法は注意メカニズムで完全に失われた情報エントロピーを効果的に回復しました。

△ 図4 訓練中の情報エントロピー

同時に、著者はトレーニング中の損失削減曲線と精度をプロットしました。BiBERT はベースラインよりも大幅に速く収束し、精度も高くなっています。

△ 図5 トレーニング中の損失と精度の曲線

要約する

著者は、BERT モデルの最初の完全な 2 値化方法として BiBERT を提案し、その後の BERT 2 値化研究の理論的基礎を確立し、そのパフォーマンス低下の原因を分析し、モデルのパフォーマンスを効果的に向上させる Bi-Attention および DMD 手法を提案しました。

BiBERT は既存の BERT モデルの 2 値化手法を上回り、より多くのビットを使用する量子化方式よりも優れています。理論上、BiBERT は FLOP を 56.3 倍削減し、モデル ストレージを 31.2 倍節約できます。

この研究が将来の研究のための強固な基盤を築くことが期待されます。

BiBERT は、Baidu PaddlePaddle のオープンソース ディープラーニング モデル圧縮ツール PaddleSlim をベースにして、まもなくオープンソース化される予定ですので、ご期待ください。

パドルスリム: https://github.com/PaddlePaddle/PaddleSlim

会議論文転送: https://openreview.net/forum?id=5xEgrl_5FAJ

<<:  地球は思考しており、人間は単なるニューロンです。科学者は初めて「惑星知性」を提唱した

>>:  自然の中でショウジョウバエがVRをプレイし、注意メカニズムとワーキングメモリを発見

ブログ    

推薦する

サービスロボット市場の最前線に立つセキュリティは注目に値する

現在、サービスロボットは中国のロボットが他のロボットを追い抜く重要なチャンスとみなされており、あらゆ...

AIoT は私たちの未来をどのように定義するのでしょうか?

[[417111]] AI と IoT ほどエキサイティングで重要なテクノロジーの組み合わせはほと...

李開復「2021年を予測」:4つの主要分野が前例のない発展の機会をもたらす

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2018年に人工知能はどのように発展するでしょうか?専門家の意見

ブロックバスター社の映画には毎年人工知能が満載されており、昨年も例外ではありませんでした。 『ブレー...

機械学習エンジニアが知っておくべきアルゴリズムトップ10

機械学習/人工知能のサブフィールドがここ数年で人気が高まってきたことは間違いありません。ビッグデータ...

サイバーセキュリティにおけるAIの新たな機会を見つける方法

[[383159]]新しいテクノロジーの適用には、多くの場合、プラスの影響とマイナスの影響の両方が伴...

...

時速22キロのスピードと50キロの荷重で、四足の車輪付きロボット「スイスマイル」は変形することを学んだ。

テスラと「レース」を敢行する四輪ロボットを見たことがありますか?以下に示すように、かなり高速であるよ...

...

CMU の専門家が「マルチモーダル機械学習」の 6 つの主要な課題を包括的にまとめています。36 ページの長い記事 + 120 ページの PPT、すべて実用的な情報です。

さまざまな言語、視覚、ビデオ、オーディオなどの大規模モデルのパフォーマンスが向上し続けるにつれて、マ...

人工知能とソフトウェア開発の未来

人工知能はソフトウェア開発をあらゆる面で変えています。多くの企業が AI 機能の導入を競っていますが...

初めてバーチャルヒューマンに関する業界の合意が成立

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2023年世界AI指数ランキング発表:米国と中国が1位と2位、アジア諸国は好成績

英国のメディア組織Tortoise Mediaは最近、2023年の世界AI指数ランキングを発表しまし...

ニューラルネットワークをシンボリックAIに活用し、MITとIBMが共同でディープラーニングの問題点を解決

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...