モデル圧縮率95%、MIT Han Songらが新しいLite Transformerを提案

モデル圧縮率95%、MIT Han Songらが新しいLite Transformerを提案

Transformer の高性能は非常に高い計算能力に依存しており、モバイル NLP に大きな制限が課せられます。最近の ICLR 2020 論文では、MIT と上海交通大学の研究者が効率的なモバイル NLP アーキテクチャ Lite Transformer を提案しました。これは、エッジ デバイスにモバイル レベルの NLP アプリケーションを展開するための大きな一歩です。

発売からまだ3年も経っていませんが、Transformerは自然言語処理(NLP)の分野では欠かせないものとなっています。しかし、このような一般的なアルゴリズムでは、十分なパフォーマンスを実現するために非常に高い計算能力が必要であり、計算能力とバッテリーによって厳しく制限されているモバイル端末の能力をある程度超えています。

MIT の最近の研究「Lite Transformer with Long-Short Range Attention」では、 MIT と上海交通大学の研究者が効率的なモバイル NLP アーキテクチャ Lite Transformer を提案しました。これは、エッジ デバイスにモバイル レベルの NLP アプリケーションを展開するための大きな一歩です。この論文は、人工知能のトップカンファレンスであるICLR 2020に掲載されました

この研究は、MIT電気工学・コンピューターサイエンス学部の助教授ハン・ソン氏が主導した。 Han Song 氏の研究は、ディープラーニングやコンピューターアーキテクチャなど、幅広い分野をカバーしています。氏の Deep Compression モデル圧縮技術は、ICLR 2016 最優秀論文賞を受賞しました。氏の論文 ESE Sparse Neural Network Inference Engine は、2017 年のトップチップカンファレンスで FPGA 最優秀論文賞を受賞しました。氏は世界のディープラーニング加速研究をリードし、業界に大きな影響を与えてきました。

論文の宛先:
出典: arxiv.org

GitHub アドレス:
https://github.com/mit-han-lab/lite-transformer

Transformer は自然言語処理タスク (機械翻訳や質問応答など) で広く使用されていますが、高いパフォーマンスを実現するには大量の計算が必要であり、ハードウェア リソースとバッテリーによって厳しく制限されるモバイル アプリケーションには適していません。

この研究では、エッジ デバイスにモバイル NLP アプリケーションを展開するのに役立つ、効率的なモバイル NLP アーキテクチャである Lite Transformer を提案します。その中核となるのは Long-Short Range Attention (LSRA) であり、1 セットの注意ヘッドがローカル コンテキスト モデリング (畳み込み経由) を担当し、もう 1 セットは長距離関係モデリング (注意に依存) を実行します

この特殊な構成により、モデルは機械翻訳、テキスト要約、言語モデリングという 3 つの言語タスクにおいて元のトランスフォーマーよりも改善されます。

限られたリソース(500M/100M MAC)で、Lite Transformer は WMT'14 英語 - フランス語データセットで Transformer よりも 1.2/1.7 高い BLEU 値を達成します。 Lite Transformer は、Transformer ベース モデルと比較して計算量を 60% 削減しますが、BLEU スコアは 0.3 しか低下しません。研究者たちは、プルーニングと量子化の技術を組み合わせて、Lite Transformer モデルのサイズを元のサイズの 5% までさらに圧縮しました。

言語モデリングタスクの場合、Lite Transformer は 500M MAC 程度で Transformer よりもパープレキシティが 1.8 低くなります。

特に、モバイル NLP 設定では、Lite Transformer はコストのかかるアーキテクチャ検索を使用せずに、AutoML ベースの Evolved Transformer よりも 0.5 高い BLEU スコアを達成します。

Lite Transformer、Evolved Transformer、および元のトランスフォーマーの比較結果から、Lite Transformer の方がパフォーマンスが優れており、Evolved Transformer と比較して検索コストが大幅に削減されていることがわかります。

では、Lite Transformer はどのようにして高性能と低コストを実現できるのでしょうか?次に、その核となる考え方を理解しましょう。

ロング ショート レンジ アテンション (LSRA)

NLP 分野の研究者は、注意によって捉えられたコンテキストを理解しようとします。 Kovaleva et al. (2019) と Clark et al. (2020) は、BERT のさまざまなレイヤーの注意重みを視覚化しました。

下の図 3b に示すように、重み w はソース文の単語とターゲット文の単語の関係を表します (自己注意についても同様です)。重み w_ij が増加すると (色が濃くなる)、ソース文の i 番目の単語はターゲット文の j 番目の単語にさらに注目するようになります。注意マップには通常、疎と対角という強いパターン特性があります。これらは特定の単語間の関係を表します。疎な単語は遠距離の情報間の関係を表し、対角の単語は近距離の情報間の関係を表します。研究者は前者を「グローバル」な関係、後者を「ローカル」な関係と呼んでいます。

図 3: Lite Transformer アーキテクチャ (a) と注意重みの視覚化。従来の注意 (b) では、ローカルな関係のモデリングに重点が置かれすぎています (対角構造を参照)。この研究では、畳み込み層を使用してローカル特徴抽出を具体的に処理し、ローカル情報を効率的にモデル化することで、注意ブランチがグローバル特徴抽出に特化できるようにしています (c)。

翻訳タスクでは、アテンション モジュールはグローバル コンテキストとローカル コンテキストの両方をキャプチャする必要があり、そのためには大きな容量が必要です。これは、特殊な設計と比較すると最良の選択肢ではありません。ハードウェア設計を例にとると、CPU などの汎用ハードウェアは、FPGA などの専用ハードウェアよりも効率が低くなります。研究者たちは、グローバルな文脈とローカルな文脈は別々に捉えられるべきだと考えています。モデル容量が大きいほど、冗長性​​が許容され、パフォーマンスも向上します。しかし、モバイル アプリケーションでは、コンピューティングと電力の制約により、モデルはより効率的である必要があります。したがって、専門的なコンテキストキャプチャの必要性が高まっています。

この問題に対処するために、この研究では、「一般的な」情報を処理するモジュールを使用する代わりに、より特化したアーキテクチャである長距離短期注意 (LSRA) を提案しています。アーキテクチャは、ローカルコンテキストとグローバルコンテキストを個別にキャプチャします。

図 3a に示すように、LSRA モジュールは 2 ブランチ設計に従います。左の注意ブランチはグローバル コンテキストをキャプチャする役割を担い、右の畳み込みブランチはローカル コンテキストをモデル化します。研究者たちは、入力全体を両方のブランチに送るのではなく、チャネル次元に沿って入力を 2 つの部分に分割し、次の FFN レイヤーで混合します。このアプローチにより、全体的な計算労力が 50% 削減されます。

左のブランチは通常のアテンションモジュール(Vaswani et al. (2017))ですが、チャネル次元が半分に縮小されています。ローカルな関係を処理する右側のブランチに関しては、シーケンスに畳み込みを適用するのが自然なアイデアです。スライディング ウィンドウを使用すると、モジュールは対角グループを簡単にカバーできます。計算量をさらに削減するために、研究者らは通常の畳み込みを、線形層と深さ方向の畳み込みからなる軽量バージョンに置き換えました。このように、研究者は注意モジュールと畳み込みモジュールを並べて配置し、グローバルとローカルの両方で異なる視点から文を処理するように誘導することで、アーキテクチャがこの特殊な設定の恩恵を受け、より高い効率を実現できるようにしました。

実験のセットアップ

データセットと評価

研究者らは、機械翻訳、テキスト要約、言語モデリングという3つのタスクについて実験と評価を行った。

具体的には、機械翻訳タスクには、IWSLT'14 ドイツ語-英語 (De-En)、WMT 英語-ドイツ語 (En-De)、WMT 英語-フランス語 (En-Fr) の 3 つのベンチマーク データセットが使用されます。

テキスト要約タスクでは、CNN-DailyMail データセットを使用します。

言語モデリングタスクは、WIKITEXT-103 データセットで実行されます。

建築

モデル アーキテクチャは、シーケンス間学習に基づくエンコーダー/デコーダーです。機械翻訳タスクでは、WMT データセットのベースライン モデルは Vaswani らによって提案されたモデルに基づいています。 IWSLT データセットの場合、ベースライン モデルは Wu らの設定に従います。テキスト要約タスクでは、研究者は WMT と同じモデルを使用しました。言語モデリングタスクの場合、モデルはBaevski & Auli (2019)と一致していますが、モデルサイズは小さくなっています。

この研究で提案されたアーキテクチャは、まずトランスフォーマーベースモデルのボトルネックを平坦化し、次に自己注意を LSRA に置き換えます。具体的には、アテンション ブランチと畳み込みブランチという 2 つの特殊なモジュールが使用されます。

実験結果

機械翻訳

表 1 は、IWSLT'14 De-En データセットにおける Lite Transformer の定量的結果を示し、Transformer ベースライン メソッドおよび LightConv と比較しています。約 100M Mult-Add では、Lite Transformer モデルはトランスフォーマーよりも 1.6 高い BLEU 値を実現します。

表 1: IWSLT’14 De-En の結果。

表2の定量的な結果によると、100M Mult-Adds設定では、WMT En-DeデータセットとWMT En-FrデータセットでのLite TransformerのBLEU値は、Transformerよりもそれぞれ1.2と1.7高くなっています。300M Mult-Adds設定では、0.5ポイントと1.5ポイントの改善も見られます。

表 2: WMT'14 En-De と WMT'14 En-Fr の結果。

研究者らは、WMT En-Fr におけるモデルのトレードオフ曲線も提供しました。図 4a に示すように、Lite Transformer は一貫してオリジナルのトランスフォーマーよりも優れたパフォーマンスを発揮します。

図 4: WMT En-Fr データセットの機械翻訳と WIKITEXT-103 データセットの言語モデリングのトレードオフ曲線。どちらの曲線も、モバイル設定では Lite Transformer の方が Transformer よりもパフォーマンスが優れていることを示しています (青い領域)。

自動設計モデルとの比較

Lite Transformer は、AutoML ベースの Evolved Transformer (ET) と比較して、モバイル設定でも大幅な改善が見られます。さらに、100M および 300M Mult-Add では、表 3 に示すように、Lite Transformer の BLEU 値は ET よりもそれぞれ 0.5 および 0.2 高くなります。

表 3: さまざまな NMT モデルのパフォーマンスとトレーニング コスト。

テキスト要約

表 4: CNN-DailyMail データセットにおけるテキスト要約の結果。

表5: WIKITEXT-103データセットにおける言語モデリングの結果。

<<:  会話型ロボットをよりスマートにするために製品設計を最適化するにはどうすればよいでしょうか?

>>:  機械学習の一般的なパラダイム

ブログ    
ブログ    
ブログ    

推薦する

アルゴリズムが力を発揮します!なぜ人間と人工知能はますます似てきているのでしょうか?

[[256247]]アルゴリズムは私たちにどう考えるべきかを教え、それが私たちを変えています。コン...

サイバーセキュリティにおけるAI、機械学習、自動化

サイバーセキュリティのスキル不足は、政府を含むさまざまな地域、市場、セクターの組織に引き続き影響を及...

人工知能に適したプログラミング言語はどれですか? ——人工知能におけるPythonの役割

Google の AI が囲碁の名人に勝利したことは、人工知能の突然かつ急速な進歩を測る手段であり、...

AI戦争が近づく中、ChatGPTが軍事禁止を解除

先週末、大手人工知能企業OpenAIは、ChatGPTの使用ポリシーから軍事利用を禁止する条項をひっ...

...

アンドリュー・ン:AIはビッグデータから「スモールデータ」に移行する時が来た

AI界の巨匠アンドリュー・ン氏が最近、新型コロナウイルスの検査で陽性反応を示し、多くのネットユーザー...

垂直型AIスタートアップと水平型AIスタートアップ: 異なる製品ルートの選択

AIスタートアップは主に2つのスタイルに分けられます。本日の記事では、その両方を分析して見ていきます...

MIT博士課程修了者で『太極拳』の著者胡淵明氏が中国に戻り、グラフィックスプログラミングに重点を置いたビジネスを始める

MIT 博士号取得者であり太極拳の著者でもある胡元明氏は、学界から産業界へスムーズに移行しました。胡...

マイクロソフトとOpenAIが訴えられた後、アップルはニュース出版社とAIモデルのトレーニング費用の支払いについて交渉している

Appleは、AIモデルのトレーニングと開発のためにニュース資料にアクセスするために、いくつかの国際...

...

美団テイクアウト広告のためのインテリジェントコンピューティングパワーの探求と実践

著者 | 嘉宏、舜慧、郭良 他ディープラーニングの時代では、コンピューティングパワーの需要と消費が増...

...

将来の物流と輸送における人工知能の役割

[[392872]]物流および貨物輸送組織のデジタル化が進むにつれて、企業は顧客、サプライ チェーン...

今後5~10年で、人工知能+ブロックチェーンは第三者による支払いを終わらせるだろう

インターネットの出現により、伝統的な取引方法は一変しました。第三者保証の取引プラットフォームとして、...