スケーリングトランスフォーマーでスパース性を使用するだけで十分です。将来的にはGPT-3をラップトップでホストできるようになるかもしれない

スケーリングトランスフォーマーでスパース性を使用するだけで十分です。将来的にはGPT-3をラップトップでホストできるようになるかもしれない

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

1. Transformersのスケーリング: 大規模言語モデルの管理性の向上

近年、自然言語処理の分野は、Transformer アーキテクチャに基づく大規模なニューラル ネットワークに基づいて大きな進歩を遂げています。数年前に Reddit に大量のスパム投稿を行った Thegentlemetre アカウントは、1 週間後まで人間に発見されませんでした。実際に問題を引き起こしていたのはアプリケーションだったのです。これは、地球上で最も強力な言語モデルとして知られている GPT-3 に基づいて開発されたプログラムです。

大規模な言語モデルである GPT-3 は、人間が書いた記事と比較しても区別が難しい記事全体を作成できます。

しかし、この「スマート」モデルには欠点があります。

トレーニングには非常に費用がかかるため、誰もがこのような大規模なモデルをトレーニングするためのリソースを持っているわけではありません。

では、大規模な言語モデルを日常のニーズに合わせて管理しやすくするにはどうすればよいでしょうか?

ワルシャワ大学、Google Research、OpenAI の学者たちは、新しいモデル ファミリ「Scaling Transformers」を提案しました。

論文アドレス: https://arxiv.org/abs/2111.12763

この記事では、ネットワーク内の線形層の活性化をスパース化 (フィードフォワードと Q、K、V 投影) することにより、大規模なスパース モデルをトレーニングする方法を提案します。このアプローチは、効果を発揮するためにハードウェア固有の最適化や低レベルの最適化を必要としないように見えるため、特に魅力的です。コントローラ ネットワークは、アクティブ化時にブロック単位のワンホット マスクを生成し、このマスクに基づいて後続のレイヤーの重みを動的に選択します。モデルのサイズを大きくする場合、スパース レイヤーを使用して効果的にスケーリングし、標準の Transformer モデルよりもはるかに高速に非バッチ デコードを実行します。同じ数のパラメータを使用すると、スパース レイヤーで標準の Transformer と同じ複雑性を実現できます。

2. 記事の解釈

Fabio Chiusano 氏は、NLP 誌にこの論文の肯定的なレビューを発表しました。 Fabio Chiusano 氏は、Digitiamo のデータサイエンス部門の責任者であり、人工知能分野のトップ メディア ライターです。 AI Technology Reviewは、キウサノ氏のコメントを、本来の意味を変えずに編集した。

スケーリング トランスフォーマーは、モデル サイズを拡大するときに言語モデルを効率的にスケーリングし、標準のトランスフォーマーよりも高速に非バッチ デコードを実行できるため、非常に興味深いものです。厳密に言えば:

  • 私たちはそれを​d​と呼びます  Transformer モデルのパラメータの数です。
  • 次に、標準的な高密度トランスフォーマーでは、予測を行うために約​d^2​計算が必要になります。
  • 対照的に、スパース スケーリング トランスフォーマーでは約​d^1.5​計算が必要になります。

このような改善が重要でないと思われる場合は、 ​d​通常、数十億のオーダーの非常に高い数値であることを考慮してください。実際、実験では、Scaling Transformer により、17B のパラメーターを持つ Dense Transformer と比較して、単一のトークンの予測速度がほぼ 20 倍 (3.690 秒から 0.183 秒) 向上することが示されています。注: これらの高速化はバッチ処理されていない予測に対して行われます。

提案されたスパース性メカニズム (FF、QKV、FF+QKV) を備えた C4 データセットでは、スケーリング トランスフォーマーのログ パープレキシティ (約 800M のパラメーターを持つ T5 のサイズに相当) は、ベースラインの密なモデルのログ パープレキシティと似ています。

170 億のパラメータを持つ Terraformer は、高密度ベースライン モデルよりも 37 倍高速に単一のトークンをデコードし、推論には 1 トークンあたり 100 ミリ秒未満しかかかりません。ここで、注目スパース = 64、ffスパース = 256、損失スパース = 4

間引きのメリットはとても良いです。ただし、長いシーケンスをデコードする場合は、デコード時間がアテンション操作によって支配されるため、状況は悪化します。

幸いなことに、長いシーケンスに注目する LSH (Locality-Sensitive Hashing) やメモリ効率を向上させる可逆レイヤーなど、Transformer のこの問題を解決するために多くの方法が提案されています。これは決して無視できない結果だと言えるでしょう。

この論文では、トランスフォーマーの効率を向上させるために使用される他の技術の興味深い概要も提供しています。ここではその一部を抜粋して報告します。Transformer 技術の効率性に馴染みのない方にとって参考になると思います。

  • モデルの圧縮。モデルのプルーニングは、トレーニング後またはトレーニング中に不要な重みを削除することで、行列を小さくします。
  • モデル蒸留。モデル蒸留では、以前にトレーニングされた大きなモデル (つまり、教師) の出力に基づいて小さなモデル (つまり、生徒) をトレーニングします。モバイル推論用のいくつかの自然言語モデルは、大規模な事前トレーニング済みモデルからの推論を高速化するために蒸留に依存しています。
  • 注目度が低い。スパース アテンション ベースの方法では、追加の組み合わせメカニズムを組み込んだり、レイヤーが焦点を当てるトークンのサブセットを選択したりすることで、特に長いシーケンスの場合にアテンション レイヤーの効率が向上します。
  • スパースフィードフォワード。重要なアイデアは、フィードフォワード層を複数の部分 (エキスパートと呼ばれる) に分割し、トークンごとに 1 つの部分のみを取得することで、フィードフォワード ブロックの複雑さを軽減することです。これらの高速化は主にトレーニング速度の観点から測定され、このアプローチはフィードフォワード ブロックに重点を置いています。専門家の混合法は、1兆個のパラメータにスケーリングして、トレーニングにおける計算効率を達成することが示されています。

ただし、現在の結果にはいくつかの制限があります。それでも、この論文は持続可能な大規模モデルに向けた第一歩とみなすことができます。

どう思いますか?

<<:  インテリジェントプラットフォームを活用してビデオ監視データの津波に対処する方法

>>:  アンドリュー・ン氏との独占インタビュー: 今後 10 年間の AI、ハードウェア優先からデータ優先へ

ブログ    
ブログ    
ブログ    

推薦する

なぜ医療においてAIを信頼できないのか?データセットが小さく信頼性が低いため、AI医療にはまだまだ課題がある

近年、医療診断における AI の応用がますます注目されており、薬物スクリーニングや AI 診断など、...

毎日のアルゴリズム: バランスのとれた二分木

[[426529]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...

データ構造とアルゴリズムについて知っておくべき 50 のコード実装

今日、私は GitHub で非常に優れたプロジェクトを見つけました。現在、4700 以上のスターが付...

6つの主要なソートアルゴリズム

6 つの一般的なソート アルゴリズムの GIF アニメーションがあり、ソートの考え方をより簡単に理解...

ボストン・ダイナミクスのロボット犬が再び進化:自分でルートを計画することを学習

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

オープンソース「AI史上最も重要な非公開会議」!マスク氏、ザッカーバーグ氏、その他のテクノロジー界の巨人が集まり、AIの将来について議論した

昨日、現地時間午前10時、AI業界のリーダーたちがワシントンに集まり、シューマー上院議員が主催するA...

...

商用 AI をマスターする: RAG と CRAG を使用したエンタープライズ レベルの AI プラットフォームの構築

当社のガイドで、ビジネスに AI の力を活用する方法を学びましょう。 RAG と CRAG の統合、...

...

異種族の創造、AIがキリンの写真を鳥に変換し、人間と機械を欺く

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

AIと5Gの登場:モノのインターネットの発展は鈍化しているのか?

現在、スマートシティや無人店舗からスマートブレスレットやスマート温度調節器まで、私たちの身の回りには...

知らないうちにAIを構築しているかもしれない

[[189866]]私たちは皆、検証コードに精通しています。reCAPTCHA は、人間と機械を区別...

AI分野 | ゲームのルールを変える画期的なアイデア10選

[[357137]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

生成AI人材の獲得競争が始まった。求人数は4倍に増え、最高年収は90万ドル

ウォール・ストリート・ジャーナルによると、求人ウェブサイトIndeedの統計によると、生成AI関連の...

Zipf 行列分解: 推奨システムにおけるマシュー効果を解決する強力なツール

[[407036]] [51CTO.com からのオリジナル記事]アルゴリズムの公平性は、近年、推奨...