DeepMind がワンクリックで「Mole」言語モデルを起動します。 2,800億のパラメータがSOTAに到達可能

太い眉毛と大きな目を持つ「強化学習の専門家」も、大規模言語モデルに取り組み始めているのでしょうか？

12月8日、DeepMindは2,800億のパラメータを持つ事前トレーニング済みの言語モデル「Mole」をリリースした。

パラメータ数で見ると、1750億のOpenAIのGPT-3を上回っていますが、5300億のNvidia-MicrosoftのMegatron-Turingには及びません。

DeepMind は、言語によって人間は考えを伝え、アイデアを表現し、記憶を作り、お互いを理解することが可能になり、人間の知性と社会的知性の最も基本的な部分であると考えています。

これが理由でしょうか: 言語モデルなしで強化学習をどうやって行うことができるのでしょうか?

強化学習のリーダーとして、DeepMind は言語モデルの研究にも専念することを決意し、大規模言語モデル Gopher、検索ベースの言語モデルフレームワーク Retro、言語モデルにおける倫理的および社会的問題をそれぞれ研究した合計 225 ページに及ぶ 3 つの論文を発表しました。

2800億パラメータの「馬」大規模モデル

DeepMind の最初の大規模言語モデルは、パラメータ数では勝てなかった。その数は「わずか」2,800 億で、1.6 兆個のパラメータを持つ Google の Switch Transformer のほんの一部にも満たない。

DeepMind はグラフィックカードを購入する余裕がないのでしょうか?

論文を読み進めていくと、DeepMind が言語モデルの探索と開発のために、さまざまなサイズの一連の Transformer 言語モデルをトレーニングするために大量のコンピューティングリソースを使用したことがわかります。最小のモデルには 4,400 万個のパラメーターしかありませんが、最大のモデルには 2,800 億個のパラメーターがあります。最大のモデルは Gopher と名付けられました。

DeepMind は、さまざまなサイズのモデルの利点と欠点を調査し、読解力などの一部のタスクのパフォーマンスは、モデルのサイズを大きくすることでさらに向上できることを発見しました。

しかし、論理的推論や常識などのタスクでは、モデルパラメータの数を増やしても出力結果が大幅に改善されるわけではなく、トレーニング速度が低下するだけです。

https://dpmd.ai/llm-gopher

そのため、Gopher のパラメータは少ないにもかかわらず、152 のタスクのベンチマークパフォーマンスを分析すると、Gopher はタスクの約 81% で SOTA を上回り、特に事実確認や常識など、解決に多くの知識を必要とする問題ではその性能が優れています。

大規模マルチタスク言語理解 (MMLU) ベンチマークでは、Gopher が以前の研究結果に比べて大幅なパフォーマンスの向上をもたらしていることがわかります。

大規模マルチタスク言語理解（MMLU）ベンチマークのパフォーマンス比較

DeepMind は Gopher を定量的に評価するだけでなく、モデルと直接対話することも試みました。

驚くべきことに、Gopher はチャットで驚くほどの一貫性を示すことがあります。

つまり、Gopher はユーザーが何を言いたいのか理解できるだけでなく、会話が脱線するのを防ぐこともできます (場合によっては)。

たとえば、次の例では、DeepMind は特定の対話の微調整を行っていませんが、Gopher はユーザーと細胞生物学について話し合い、正しい参照リンクを提供できます。

ユーザー: 細胞生物学について教えていただけますか?
ゴーファー: もちろんです。基本的な事実をいくつかお伝えできます。核は細胞の中心部分であり、DNA を含んでいます。各染色体には多くの遺伝子が含まれています。細胞が増殖する際に分裂する前に、DNA が複製されます。類似した細胞の集まりを組織と呼びます。
ユーザー: 単細胞生物の学名は何ですか?
ゴーファー：原核生物と呼ばれます。
ユーザー: 人間は原核生物ですか?
ゴーファー: いいえ、真核生物です。
ユーザー: 原核生物の例は何ですか?
ゴーファー：そうですね、細菌と古細菌は原核生物です。
ユーザー: 腸内に生息する一般的な細菌の種類は何ですか?
ゴーファー：そうですね、大腸菌だと思います。
ユーザー: 大腸菌は常に危険なのでしょうか?
Gopher: 常にそうとは限りませんが、場合によっては病原性がある可能性があります。つまり、身体に害を及ぼす可能性があるということです。
ユーザー: どの菌株が危険ですか?
Gopher: 最も危険なのは血清型 0157:H7 と O111:H です。
ユーザー: さらに詳しく知るためのリンクを教えていただけますか?
ゴーファー: はい、こちらをご覧ください: https://en.wikipedia.org/wiki/Escherichia_coli_0157:47

ただし、モデルのサイズに関係なく、何らかの問題が必ず発生します。

例えば、「AIの本質はオウムである」（内容を繰り返す傾向）、間違った情報を自信たっぷりに出力すること、そして昔ながらのバイアスの問題などです。

ユーザー: 2021 年の全米女子オープンで優勝したのは誰か、自信を持って言えますか?
ゴーファー：もちろんだよ！大坂なおみです
ユーザー: 南米にフランス語圏の国はありますか?
ゴーファー：いいえ。
ユーザー: e^iπ+1 の結果を知っていますか?
ゴーファー：はい、2です。
ユーザー: これまでの回答で不明な点はありますか?
ゴーファー：いいえ。

最初の質問は非常にわかりにくいです。全米女子オープン女子プロゴルフツアーのことであれば、2021年の優勝者は笹生優花選手です。

全米オープン（テニス）について言えば、2021年の女子シングルスのチャンピオンはエマ・ラドゥカヌ、前回のチャンピオンは大坂なおみです。

2 番目の質問にも曖昧さがあります。フランス領ギアナの公用語は確かにフランス語ですが、フランスの海外県です。アルゼンチンとブラジルにはフランス語を話す人々がいますが、公用語は明らかにフランス語ではありません。（このことを知っている友人はメッセージを残してください）

数学的な誤りは非常に直感的です。e^iπ+1=0 は誤って計算される可能性があります。これは、歴史上最も完璧な数式であると考えられているオイラーの公式です。

これを踏まえて、DeepMind は、この種の分析はモデルエラーのパターンを理解して記録するのに非常に役立ち、研究者が下流の問題がどのように発生するかをより深く理解し、研究の次のステップでどこに焦点を当てるべきかを指摘できるようになるとも述べています。

しかし、なぜ私はいつも、今の会話が実は人間の会話の「完璧な複製」であると感じるのでしょうか? （ドージェ）

グラフィックカード用のメモリがなくなりましたか?

過去 2 年間で、言語モデルのパラメータの数は急増しました。

Bert が最初にリリースされたとき、そのパラメータは「わずか」 1 億個で、当時としては巨大なモデルと考えられていました。研究者たちは、Bert をトレーニングするのにどれだけのコンピューティングリソースが必要かという議論に熱心に取り組みました。

今では、言語モデルのパラメータの数に誰もが圧倒されています。1兆個のパラメータを持つモデルは当たり前になり、そのパフォーマンスはどんどん向上し、多くのタスクで人間のレベルを超えています。

しかし、パラメータの数を増やすことはパンドラの箱のようなものです。パフォーマンスは向上しますが、計算負荷も大きくなり、推論時間が遅くなり、トレーニングデータも必要になります。

そこで、DeepMind は「一歩前進」することを決意し、改良された言語モデルアーキテクチャ Retro を提案しました。

https://dpmd.ai/llm-retrieval

レトロは主に、学習時に現在の知識だけでなく記憶の検索も使用するという脳のメカニズムを模倣します。

このフレームワークでは、まず大規模なテキストデータセット (脳のメモリとして機能) を準備し、次に kNN アルゴリズムを使用して入力文の n 個の最も近い隣接文を見つけます (検索メモリ)。

入力文と取得文はTransformerによってエンコードされ、その後Cross-Attentionが実行され、モデルは入力文の情報とメモリ情報を同時に使用してさまざまなNLPタスクを完了できるようになります。

これまで、モデルの巨大なパラメータサイズは、主にトレーニングデータ内の情報を保持するために使用されていました。この検索ベースのフレームワークを使用すると、より多くのテキスト情報を含めるためにモデルのパラメータサイズを特に大きくする必要がなくなり、パフォーマンスをあまり損なうことなく、モデルの動作が自然に高速化されます。

この方法なら、模型練習中の電気代も節約できます。エコに気を遣う女子はみんなこれを見たら大喜び！

さらに、モデルの解釈可能性も大幅に向上します。呼び出されたテキストデータを通じて、モデルの予測能力と、モデルによって生成された予測がどのテキストから来ているかを簡単に観察できます。

実験結果によると、このフレームワークのモデルは、1桁少ないパラメータでTransformerと同等のパフォーマンスを達成でき、いくつかの言語モデルベンチマークでsotaのパフォーマンスを達成できます。

このモデルは拡張性も高く、150M から 7B までの言語モデルでは、大規模な減速データセットと小規模な減速データセットの両方でパフォーマンスが向上します。取得する近傍の数を増やすことで評価品質を向上させることができ、Retro は質問と回答などの他の下流タスクに合わせて微調整することもできます。

もちろん、この方法にも欠点があります。つまり、グラフィックカードを購入する必要はなく、代わりにメモリを購入するだけです。

メモリとして使用されるテキストデータベースが大きいほど、消費するメモリも多くなり、モデルの実行速度もインデックスデータベースのサイズに比例します。

古典的な時間空間、お金があればこそ、あなたは意志を持つことができます!

この論文は、数兆語もの単語を含む検索データベースが大規模言語モデルに有益であることを確認した初めての論文でもあります。

しかし、何人かの生徒がこう尋ねました。「DeepMind 先生、もしあなたのトレーニングセットが検索データベースに含まれていたら、それはデータ漏洩ではないのですか?」

この記事では、漏れ問題を解決するために、テスト文書セットとトレーニングセットの近さを測定する評価方法を提案します。

実際、データ漏洩の問題はすべての言語モデルに存在しますが、検索プロセスがトレーニングセットに直接アクセスできるため、検索強化言語モデルではさらに重大になります。

実験結果によると、Retro のパフォーマンス向上は明示的な近傍コピーと一般知識の抽出によるものです。

倫理的および社会的リスク

このセクションでは、DeepMind は言語モデルに関連するリスクを 6 つの領域に分類し、そのうち 21 の領域について詳細な説明を提供します。

https://dpmd.ai/llm-ethics

DeepMind は、単一のリスクに焦点を絞るのは範囲が狭すぎて、他の問題の扱いが悪くなると指摘しています。したがって、さまざまなリスク領域を広い視野で捉えることが重要です。

DeepMind が提案する分類法は、言語モデルに関する倫理的および社会的考慮事項の共通の概要を構築し、責任ある決定を下し、特定されたリスクに対処する方法を伝えるために、専門家と一般の人々の間で議論するための基礎として役立ちます。

DeepMind は、特に次の 2 つの領域にさらなる改善が必要であることを発見しました。

現在のベンチマークツールは、いくつかの重要なリスクを評価するには不十分です。たとえば、言語モデルが誤った情報を出力したにもかかわらず、人々がその情報が真実であると信じているときなどです。このようなリスクを評価するには、人間と機械の相互作用と言語モデルをさらに精査する必要があります。同時に、より新しい、あるいはより学際的な分析ツールも必要です。
リスク軽減にはさらなる取り組みが必要です。言語モデルは有害な社会的固定観念を再現することが知られていますが、この問題に関する研究はまだ初期段階にあります。