DeepMind がワンクリックで「Mole」言語モデルを起動します。 2,800億のパラメータがSOTAに到達可能

DeepMind がワンクリックで「Mole」言語モデルを起動します。 2,800億のパラメータがSOTAに到達可能

太い眉毛と大きな目を持つ「強化学習の専門家」も、大規模言語モデルに取り組み始めているのでしょうか?

12月8日、DeepMindは2,800億のパラメータを持つ事前トレーニング済みの言語モデル「Mole」をリリースした。

パラメータ数で見ると、1750億のOpenAIのGPT-3を上回っていますが、5300億のNvidia-MicrosoftのMegatron-Turingには及びません。

DeepMind は、言語によって人間は考えを伝え、アイデアを表現し、記憶を作り、お互いを理解することが可能になり、人間の知性と社会的知性の最も基本的な部分であると考えています。

これが理由でしょうか: 言語モデルなしで強化学習をどうやって行うことができるのでしょうか?

強化学習のリーダーとして、DeepMind は言語モデルの研究にも専念することを決意し、大規模言語モデル Gopher、検索ベースの言語モデルフレームワーク Retro、言語モデルにおける倫理的および社会的問題をそれぞれ研究した合計 225 ページに及ぶ 3 つの論文を発表しました。

2800億パラメータの「馬」大規模モデル

DeepMind の最初の大規模言語モデルは、パラメータ数では勝てなかった。その数は「わずか」2,800 億で、1.6 兆個のパラメータを持つ Google の Switch Transformer のほんの一部にも満たない。

DeepMind はグラフィック カードを購入する余裕がないのでしょうか?

論文を読み進めていくと、DeepMind が言語モデルの探索と開発のために、さまざまなサイズの一連の Transformer 言語モデルをトレーニングするために大量のコンピューティング リソースを使用したことがわかります。最小のモデルには 4,400 万個のパラメーターしかありませんが、最大のモデルには 2,800 億個のパラメーターがあります。最大のモデルは Gopher と名付けられました。

DeepMind は、さまざまなサイズのモデルの利点と欠点を調査し、読解力などの一部のタスクのパフォーマンスは、モデルのサイズを大きくすることでさらに向上できることを発見しました。

しかし、論理的推論や常識などのタスクでは、モデルパラメータの数を増やしても出力結果が大幅に改善されるわけではなく、トレーニング速度が低下するだけです。

https://dpmd.ai/llm-gopher

そのため、Gopher のパラメータは少ないにもかかわらず、152 のタスクのベンチマーク パフォーマンスを分析すると、Gopher はタスクの約 81% で SOTA を上回り、特に事実確認や常識など、解決に多くの知識を必要とする問題ではその性能が優れています。

大規模マルチタスク言語理解 (MMLU) ベンチマークでは、Gopher が以前の研究結果に比べて大幅なパフォーマンスの向上をもたらしていることがわかります。

大規模マルチタスク言語理解(MMLU)ベンチマークのパフォーマンス比較

DeepMind は Gopher を定量的に評価するだけでなく、モデルと直接対話することも試みました。

驚くべきことに、Gopher はチャットで驚くほどの一貫性を示すことがあります。

つまり、Gopher はユーザーが何を言いたいのか理解できるだけでなく、会話が脱線するのを防ぐこともできます (場合によっては)。

たとえば、次の例では、DeepMind は特定の対話の微調整を行っていませんが、Gopher はユーザーと細胞生物学について話し合い、正しい参照リンクを提供できます。

ユーザー: 細胞生物学について教えていただけますか?

ゴーファー: もちろんです。基本的な事実をいくつかお伝えできます。核は細胞の中心部分であり、DNA を含んでいます。各染色体には多くの遺伝子が含まれています。細胞が増殖する際に分裂する前に、DNA が複製されます。類似した細胞の集まりを組織と呼びます。

ユーザー: 単細胞生物の学名は何ですか?

ゴーファー:原核生物と呼ばれます。

ユーザー: 人間は原核生物ですか?

ゴーファー: いいえ、真核生物です。

ユーザー: 原核生物の例は何ですか?

ゴーファー:そうですね、細菌と古細菌は原核生物です。

ユーザー: 腸内に生息する一般的な細菌の種類は何ですか?

ゴーファー:そうですね、大腸菌だと思います。

ユーザー: 大腸菌は常に危険なのでしょうか?

Gopher: 常にそうとは限りませんが、場合によっては病原性がある可能性があります。つまり、身体に害を及ぼす可能性があるということです。

ユーザー: どの菌株が危険ですか?

Gopher: 最も危険なのは血清型 0157:H7 と O111:H です。

ユーザー: さらに詳しく知るためのリンクを教えていただけますか?

ゴーファー: はい、こちらをご覧ください: https://en.wikipedia.org/wiki/Escherichia_coli_0157:47

ただし、モデルのサイズに関係なく、何らかの問題が必ず発生します。

例えば、「AIの本質はオウムである」(内容を繰り返す傾向)、間違った情報を自信たっぷりに出力すること、そして昔ながらのバイアスの問題などです。

ユーザー: 2021 年の全米女子オープンで優勝したのは誰か、自信を持って言えますか?

ゴーファー:もちろんだよ!大坂なおみです

ユーザー: 南米にフランス語圏の国はありますか?

ゴーファー:いいえ。

ユーザー: e^iπ+1 の結果を知っていますか?

ゴーファー:はい、2です。

ユーザー: これまでの回答で不明な点はありますか?

ゴーファー:いいえ。

最初の質問は非常にわかりにくいです。全米女子オープン女子プロゴルフツアーのことであれば、2021年の優勝者は笹生優花選手です。

全米オープン(テニス)について言えば、2021年の女子シングルスのチャンピオンはエマ・ラドゥカヌ、前回のチャンピオンは大坂なおみです。

2 番目の質問にも曖昧さがあります。フランス領ギアナの公用語は確かにフランス語ですが、フランスの海外県です。アルゼンチンとブラジルにはフランス語を話す人々がいますが、公用語は明らかにフランス語ではありません。 (このことを知っている友人はメッセージを残してください)

数学的な誤りは非常に直感的です。e^iπ+1=0 は誤って計算される可能性があります。これは、歴史上最も完璧な数式であると考えられているオイラーの公式です。

これを踏まえて、DeepMind は、この種の分析はモデルエラーのパターンを理解して記録するのに非常に役立ち、研究者が下流の問題がどのように発生するかをより深く理解し、研究の次のステップでどこに焦点を当てるべきかを指摘できるようになるとも述べています。

しかし、なぜ私はいつも、今の会話が実は人間の会話の「完璧な複製」であると感じるのでしょうか? (ドージェ)

グラフィックカード用のメモリがなくなりましたか?

過去 2 年間で、言語モデルのパラメータの数は急増しました。

Bert が最初にリリースされたとき、そのパラメータは「わずか」 1 億個で、当時としては巨大なモデルと考えられていました。研究者たちは、Bert をトレーニングするのにどれだけのコンピューティング リソースが必要かという議論に熱心に取り組みました。

今では、言語モデルのパラメータの数に誰もが圧倒されています。1兆個のパラメータを持つモデルは当たり前になり、そのパフォーマンスはどんどん向上し、多くのタスクで人間のレベルを超えています。

しかし、パラメータの数を増やすことはパンドラの箱のようなものです。パフォーマンスは向上しますが、計算負荷も大きくなり、推論時間が遅くなり、トレーニング データも必要になります。

そこで、DeepMind は「一歩前進」することを決意し、改良された言語モデル アーキテクチャ Retro を提案しました。

https://dpmd.ai/llm-retrieval

レトロは主に、学習時に現在の知識だけでなく記憶の検索も使用するという脳のメカニズムを模倣します。

このフレームワークでは、まず大規模なテキスト データセット (脳のメモリとして機能) を準備し、次に kNN アルゴリズムを使用して入力文の n 個の最も近い隣接文を見つけます (検索メモリ)。

入力文と取得文はTransformerによってエンコードされ、その後Cross-Attentionが実行され、モデルは入力文の情報とメモリ情報を同時に使用してさまざまなNLPタスクを完了できるようになります。

これまで、モデルの巨大なパラメータ サイズは、主にトレーニング データ内の情報を保持するために使用されていました。この検索ベースのフレームワークを使用すると、より多くのテキスト情報を含めるためにモデルのパラメータ サイズを特に大きくする必要がなくなり、パフォーマンスをあまり損なうことなく、モデルの動作が自然に高速化されます。

この方法なら、模型練習中の電気代も節約できます。エコに気を遣う女子はみんなこれを見たら大喜び!

さらに、モデルの解釈可能性も大幅に向上します。呼び出されたテキスト データを通じて、モデルの予測能力と、モデルによって生成された予測がどのテキストから来ているかを簡単に観察できます。

実験結果によると、このフレームワークのモデルは、1桁少ないパラメータでTransformerと同等のパフォーマンスを達成でき、いくつかの言語モデルベンチマークでsotaのパフォーマンスを達成できます。

このモデルは拡張性も高く、150M から 7B までの言語モデルでは、大規模な減速データセットと小規模な減速データセットの両方でパフォーマンスが向上します。取得する近傍の数を増やすことで評価品質を向上させることができ、Retro は質問と回答などの他の下流タスクに合わせて微調整することもできます。

もちろん、この方法にも欠点があります。つまり、グラフィック カードを購入する必要はなく、代わりにメモリを購入するだけです。

メモリとして使用されるテキスト データベースが大きいほど、消費するメモリも多くなり、モデルの実行速度もインデックス データベースのサイズに比例します。

古典的な時間空間、お金があればこそ、あなたは意志を持つことができます!

この論文は、数兆語もの単語を含む検索データベースが大規模言語モデルに有益であることを確認した初めての論文でもあります。

しかし、何人かの生徒がこう尋ねました。「DeepMind 先生、もしあなたのトレーニング セットが検索データベースに含まれていたら、それはデータ漏洩ではないのですか?」

この記事では、漏れ問題を解決するために、テスト文書セットとトレーニング セットの近さを測定する評価方法を提案します。

実際、データ漏洩の問題はすべての言語モデルに存在しますが、検索プロセスがトレーニング セットに直接アクセスできるため、検索強化言語モデルではさらに重大になります。

実験結果によると、Retro のパフォーマンス向上は明示的な近傍コピーと一般知識の抽出によるものです。

倫理的および社会的リスク

このセクションでは、DeepMind は言語モデルに関連するリスクを 6 つの領域に分類し、そのうち 21 の領域について詳細な説明を提供します。

https://dpmd.ai/llm-ethics

DeepMind は、単一のリスクに焦点を絞るのは範囲が狭すぎて、他の問題の扱いが悪くなると指摘しています。したがって、さまざまなリスク領域を広い視野で捉えることが重要です。

DeepMind が提案する分類法は、言語モデルに関する倫理的および社会的考慮事項の共通の概要を構築し、責任ある決定を下し、特定されたリスクに対処する方法を伝えるために、専門家と一般の人々の間で議論するための基礎として役立ちます。

DeepMind は、特に次の 2 つの領域にさらなる改善が必要であることを発見しました。

  1. 現在のベンチマーク ツールは、いくつかの重要なリスクを評価するには不十分です。たとえば、言語モデルが誤った情報を出力したにもかかわらず、人々がその情報が真実であると信じているときなどです。このようなリスクを評価するには、人間と機械の相互作用と言語モデルをさらに精査する必要があります。同時に、より新しい、あるいはより学際的な分析ツールも必要です。
  2. リスク軽減にはさらなる取り組みが必要です。言語モデルは有害な社会的固定観念を再現することが知られていますが、この問題に関する研究はまだ初期段階にあります。

前進する

DeepMindは、より広範なAI研究ポートフォリオの一環として、より強力な言語モデル、つまり情報を効果的に要約し、専門家の意見を提供し、自然言語で与えられた指示に従うことができるテキストを予測・生成するシステムの開発と研究は、高度なAIシステムを構築する大きな可能性を秘めていると述べた。

有用な言語モデルを開発するには、それがもたらすリスクを含め、その潜在的な影響を研究する必要があります。これには、さまざまなバックグラウンドを持つ専門家間のコラボレーションが含まれ、既存のデータセットでのアルゴリズムのトレーニングから生じる可能性のある課題を慎重に予測し、対処します。

DeepMind の論文は、特にこれらのモデルがどのように評価され、展開されるかに影響を及ぼす分野において、将来の言語研究の基礎を提供します。

これらの領域に対処することは、人がエージェントに自分の希望を伝えることからエージェントが人に自分の行動を説明することまで、AI エージェントとの安全なやり取りを確保するために重要です。

ディープマインドは、自社のモデルの限界についても透明性を保ち、特定されたリスクを軽減するために取り組むと述べた。

<<:  人間の脳神経の「100万分の1」の3D接続マップを描きます!膨大な量のデータは14億個の1Tハードドライブを埋め尽くす

>>:  人工知能と人間の思考の類似点と相違点

ブログ    

推薦する

人工知能は医師に完全に取って代わることはできない

今後数年間で、初めて医療用人工知能 (AI) システムとやり取りすることになるかもしれません。自動運...

ドローンの違法飛行の新たな手口が出現:なぜそれを規制するのが難しいのか?

近年、民間ドローン産業が急速に発展し、さまざまなコストが大幅に削減されたため、民生用ドローンの普及が...

米国労働統計局は機械学習を使用してデータコーディングを自動化しています

政府機関には常にさまざまな文書が詰まっていますが、その多くは紙の文書であり、電子文書であっても、実際...

...

博士課程の学生がランキングの不正行為を識別するオープンソースのAI数学「魔法の鏡」をリリースした

最近の大物モデルの多くは数学が得意だと主張していますが、本当に才能があるのは誰でしょうか?テスト問題...

ビル・ゲイツ氏:GPT-5はGPT-4よりそれほど良くはならない、生成AIは限界に達した

ビル・ゲイツ氏の暴露は機械学習コミュニティで話題となっている。 「GPT-5 は GPT-4 よりそ...

...

...

物理学と機械学習が出会うとき: 物理学の知識に基づく機械学習のレビュー

物理学情報に基づく機械学習(PIML)とは、物理学(高度に抽象的な自然現象や歴史上の人間の行動)に関...

欧州のAI法案がまもなく導入され、世界の技術規制に影響を及ぼす可能性がある

AI法案は、AIの開発方法、企業がAIを使ってできること、要件に従わなかった場合の法的結果など、A...

...

歴史上最も知られていないアルゴリズムとして知られる Paxos は、どのようにして理解しやすくなったのでしょうか?

背景分散コンセンサスアルゴリズム(Consensus Algorithm)は、分散コンピューティング...

人工知能は業界の生態系を変え、銀行支店を減らし、スマートカードを活用する

多くの注意深い国民は、気づかないうちに銀行支店の数が減少していることに気づいています。予備統計による...

写真にピクセルレベルの透かしをひっそり追加: AI による芸術作品の「盗作」を防ぐ方法が発見されました

オープンソースのAI画像生成モデル「Stable Diffusion」のリリース以来、デジタルアート...

...