プリンストン DeepMind は数学を使用して、LLM はランダムなオウムではないことを証明します。 「規模が大きいほど能力が強くなる」には理論的根拠がある

プリンストン DeepMind は数学を使用して、LLM はランダムなオウムではないことを証明します。 「規模が大きいほど能力が強くなる」には理論的根拠がある

今日の物語の主人公は、サンジーヴ・アローラとアニルド・ゴヤルという二人の科学者です。

アローラ氏はプリンストン大学出身、ゴヤル氏はGoogle DeepMind出身です。

彼らはただ一つの疑問を探るために集まった。

つまり、LLM はただ鳴いて真似することしかできないランダムなオウムなのでしょうか、それとも本当に何かを学習して、新たな能力を備えた知的な存在に変身したのでしょうか?

AIの先駆者であるヒントン氏とアンドリュー・ン氏はかつてこの問題について議論したことがあったが、当時は明確な結論には至らなかった。

しかしヒントン氏は、この質問に対する答えで合意に達することができなければ、AIがどれほどの害をもたらすかについて合意に達することは不可能だろうと述べた。

アローラ氏とゴヤル氏の主張は、LLM はオウムではないということです。具体的には、LLM の出力が大量のトレーニング データの単なるランダムな組み合わせであるとは考えていません。

二人はこの件について論文を共同執筆した。

論文アドレス: https://arxiv.org/abs/2307.15936

真実は、多くのトレーニングを経て、LLM はますます大きくなり、関連する能力が効果的に向上し、新しい能力が開発されるということです。

これは通常の順列や組み合わせでは実現できないものです。

ビッグモデルの「ビッグ」

ご存知のとおり、LLM は個々の「ニューロン」を接続する巨大な人工ニューラル ネットワークです。

実際、それはモデルのパラメータを指します。パラメータの数が増えるほど、LLM のサイズが大きくなります。

まずはLLM研修の仕組みと手順を理解しましょう。

トレーニング プロセスでは、LLM に 1 つの文を提供し、最後の単語を非表示にして、確率に基づいて LLM に欠落している単語を予測させます。

LLM が 1000 語を知っている場合、1000 通りの確率が導き出されます。最後に、最も確率の高いものを選択します。

最初は、LLM が正しい単語を選択できない場合があり、アルゴリズムは損失値、つまり、高次元の数学的空間における LLM によって与えられた最初の回答と元の文に対する正しい回答との間の「距離」を与え、その後、この値を使用してパラメータを微調整します。

その後、同じ文に対して、LLM はより正確な確率分布を計算できるようになり、上記の損失値はわずかに減少します。

このようにして、LLM の全体的な損失値が適切なレベルまで減少するまで、トレーニング データ内の数十億の文がこのプロセスに実行されます。

同様に、LLM のテストもこのプロセスに従い、損失値に基づいてテスト結果を取得します (もちろん、テストに使用される文はトレーニング データには絶対に含まれません。そうでない場合は不正行為になります)。

トレーニングとテストの後、LLM は新しいテキスト プロンプトに遭遇したときに最も正しい単語を生成する可能性が高くなります。単語が出てきてプロンプトに投入され、次の単語が生成されます。

プロセスが進むにつれて、一見首尾一貫した答えが紙の上に現れました。

しかし、推論を必要とする質問に対して、より大きな LLM の方が優れた成績を収めたという証拠はありませんでした。

思考の流れに注意してください。これを示す証拠はなく、つまりこの結果を示す経験的証拠はありませんが、表面的な事実から判断すると、結論は正しいです。

言い換えれば、2 つのモデル間のトレーニング方法に違いはなく、唯一の違いは規模であるにもかかわらず、より大きな LLM の方がより小さなモデルよりも推論のパフォーマンスが優れています。

アローラは困惑した。この能力はどこから来たのだろうか?

ここからアローラ氏とゴヤル氏の研究が始まります。新しい能力がどのように出現するかを分析するための理論的枠組みを構築しようとするのです。

そこで彼らは数学の分野に目を向け、ランダム グラフと呼ばれるものに着目しました。簡単に言えば、この用語はグラフ理論と確率論の交差点にあります。

ランダム グラフでは、コインを投げるのと同じように、任意の 2 つのノードを接続するエッジがあるかどうかはランダムです。

コインが表になった場合、確率 p でエッジが発生します。

p の値が何らかの形で変化すると、ランダム グラフ全体の特性が突然変化する可能性があります。たとえば、p 値が特定のしきい値を超えると、一部の孤立したノード (つまり、他のノードと接続されていないポイント) が突然消えます。

2 人の科学者は、ランダム グラフのこの特徴が、大規模な言語モデルをシミュレートする直感的な方法になるかもしれないことに気付きました。

ニューラル ネットワークの複雑さは説明が難しく、分析するのはほぼ不可能ですが、ランダム グラフの概念は数学者によってかなり長い間研究されており、それを分析するためのさまざまなツールが開発されてきました。

おそらく、ランダム グラフの関連理論を通じて、ニューラル ネットワークの研究者は、大規模な言語モデルのいくつかの特性を理解し、分析しようと試みることができるでしょう。

ここで、2 人の研究者は 2 種類のノードを含む二部グラフに注目しました。

彼らのモデルでは、1 種類のノードがテキスト セグメントを表します。ここでの断片は、1 つの単語ではなく、少なくとも 1 段落の長さ、場合によっては数ページの長さになることに注意してください。

これらのノードは直線を形成します。

2 番目のタイプのノードは、上記のテキストを理解するために必要なスキルを表します。たとえば、論理的な関係を理解する能力、計算する能力、より具体的には皮肉を理解する能力などです。

これらの例は、この 2 番目のタイプのノードによって表される機能が多様であり、関連する機能はすべてカウントできることを明確にするために示されています。

アローラ氏は、LLM がテキストに皮肉が含まれていると認識できれば、全体的な理解に大きな変化が生じる可能性があると述べた。

ただし、前述したように、2 番目のタイプのノードによって表される機能は、トレーニング中の LLM の目的がこれらの機能を実現することであることを意味するものではありません。言い換えれば、LLM はトレーニング中に次の可能性のある単語を予測するようにのみトレーニングされます。

言い換えれば、2 番目のタイプのノードによって表される機能は、LLM によって実証される機能をよりよく理解するために、結果の観点から Arora と Goyal によって設計されています。

設定の説明が終わったので、2 種類のノードが相互に接続し始めます。この接続は、LLM が特定のテキストを理解するために必要な能力を表します。 1対1、1対多、多対1のいずれかになります。

皮肉を理解するという例を挙げると、このスキル ポイントは皮肉な要素を含むすべてのテキストとのつながりを確立します。

接続はそれほど簡単ではありません。 OpenAI や DeepMind のような大企業はトレーニング データやテスト データを公開しないことを知っておく必要があります。そのため、2人の研究者はそれらに頼ることはできませんでした。

さらに、彼らが理解したいのは、規模、行動、能力の関係です。

2021年以来、LLMやその他のニューラルネットワークのパフォーマンスを研究している研究者は、共通の特徴を観察してきました。

彼らは、モデルのサイズとトレーニング データの量の両方が大きくなるにつれて、テスト データでの損失 (トレーニング後の新しいテキストの予測と正解の差) が非常に特定の方法で減少することに気づきました。

これらの観察結果は、神経スケーリング則と呼ばれる方程式にコード化されています。

したがって、アローラとゴヤルは、彼らの理論は単一の LLM ケースや特定のトレーニング データとテスト データのセットに依存するのではなく、スケーリング法則によって予測される損失というある種の一般法則に依存すると述べています。

彼らのさらなる研究の鍵となるのは、上で紹介したニューラルスケーリング則と二部グラフの関係です。

二部グラフからの借用

まず、研究者らは、テストデータ上の LLM の動作に対応する二部グラフの存在を仮定しました。

テストデータにおける LLM の損失変動を活用するために、彼らは LLM がスキルを学習する方法を次のように記述することを思いつきました。

皮肉を理解するスキルを例に挙げてみましょう。

この概念はスキル ノードによって表されるため、研究者は、このスキル ノードがどのテキスト ノードに接続されているかを確認しました。

これらの接続されたテキスト ノードのほぼすべてが成功した場合 (つまり、この特定のスキルによって表されるテキストに対する LLM の予測が非常に正確である場合)、LLM はこの特定のスキルに精通していることになります。

ただし、特定の割合を超えるスキル ノードが失敗したテキスト ノードに接続されている場合、このスキルで LLM は失敗します。

これらの二部グラフと LLM とのつながりにより、Arora と Goyal はランダム グラフ理論のツールを使用して LLM の動作を分析できるようになりました。

これらのグラフを調べると、ノード間の特定の関係が明らかになります。これらの関係は、大規模な言語モデルが予期しない機能を獲得する方法を説明するための論理的かつテスト可能な方法に変換されます。

ここで、アローラとゴヤルはまず、なぜ大規模な LLM が比較的小規模なモデルよりも個々のスキルに優れているのかという重要な動作について説明します。

ニューラルスケーリング法則によって予測されるように、テスト損失は低く抑えて開始します。

失敗したテスト ノードの数が少ない場合は、失敗したテスト ノードとスキル ノード間の接続が少ないことを意味します。したがって、より多くのスキル ノードが成功したテスト ノードに接続され、モデルのスキル能力が強化されたことが示されます。

次に、2 人の研究者は、より大きなモデルによって得られたパワーを説明する方法を見つけました。LLM のサイズが大きくなり、テスト損失が減少するにつれて、スキル ノードのランダムな組み合わせが個々のテキスト ノードに接続し始めました。

これは、LLM が複数のスキルを同時に使用することもより上手になり、これらのスキルの組み合わせがトレーニング データ内のどのテキストにも現れていなくても、複数のスキルを使用してテキストを生成し始めることを示唆しています。

たとえば、LLM がすでに 1 つのスキルを使用してテキストを生成できる場合、LLM のパラメーターまたはトレーニング データの数を 1 桁増やすと、2 つのスキルを必要とするテキストの生成も同様に優れたものになります。

同様に、さらに桁違いにスケールアップすると、LLM は 4 つのスキルを同時に必要とするタスクを実行できるようになります。さらに、各能力の熟練度レベルは同じです。

したがって、LLM の規模が大きいほど、スキルを組み合わせる方法が増え、LLM 自体のパフォーマンスが大幅に向上します。

LLM が大きくなるにつれて、トレーニング データ内でこれらすべてのスキルの組み合わせに遭遇する確率は次第に小さくなり、最終的には 0 に達します。

各組み合わせは、ランダム グラフ理論のルールに従って、可能なスキルのランダム サンプリングから生成されます。したがって、グラフに約 1,000 個の基本的な個別スキル ノードがあり、4 つのスキルを組み合わせたい場合、約 1,000 の 4 乗、つまり 1,000 兆通りの組み合わせが可能です。

言い換えれば、LLM がこれらの 1,000 のスキルのうち 4 つを組み合わせてこれらのタスクを実際に実行できる場合、モデルには一般化能力が備わっているはずであり、さらに、このモデルはランダムなオウムではない可能性が高いことを意味します。

しかし、アローラ氏とゴヤル氏は理論を超えて、LLM は規模とトレーニング データが増えるにつれて、より多くのスキルを組み合わせる能力が向上し、一般化のパフォーマンスが向上するというアイデアをテストしたいと考えました。

彼らはチームの他のメンバーと協力して、複数のスキルを使用してテキストを生成する LLM の能力を評価するためのスキルブレンディングと呼ばれる方法を設計しました。

LLM をテストするために、研究チームはランダムに選択されたトピックに関する 3 つの文を生成するように依頼しました。これらの文は、最初に LLM がランダムに選択したスキル ポイントを示すことによって生成されました。

たとえば、GPT-4 に剣術についてのエッセイを書くように依頼し、次にモデルに、自己バイアス、メタファー、統計、物理学の習得の試みという 4 つの領域のスキルを実証するように依頼しました。

GPT-4 の出力は次のようになります。

この鋼鉄とのダンスにおいて、私の勝利(比喩的に言えば)は、物体が自由落下するのと同じくらい確実です(物理学的に言えば)。

そして、有名な決闘者として、私は生まれつき機敏です。ほとんどの人がそれを知っています(統計を使って)。失敗?それは私の欠点(自己偏見)によるものではなく、戦場が敵に偏っているからに他なりません。

実際の結果は、数学的に予測されているように、GPT-4 は GPT-3.5 よりもはるかに優れたパフォーマンスを発揮することを示しています。

アローラ氏は大胆に推測する。1年後にはGPT-4をはるかに上回るモデルが登場するのだろうか?

<<: 

>>: 

ブログ    
ブログ    

推薦する

...

RNN と LSTM は弱いです!注目モデルは王様!

リカレント ニューラル ネットワーク (RNN)、長期短期記憶 (LSTM)、これらの人気のニューラ...

Python とディープニューラルネットワークを使用して画像を認識する方法は?

[[219378]]見れば分かります。わずか 12 行の Python コードで、独自のマシン ビ...

...

TENSORFLOW を使用してリカレント ニューラル ネットワーク言語モデルをトレーニングする

[[201448]]私は、TensorFlow リカレント ニューラル ネットワークのチュートリアル...

双子: 効率的な視覚的注意モデルの設計を再考する

著者 | 湘湘天志 張波 他Twins は Meituan とアデレード大学が提案した視覚的注意モデ...

生成 AI は企業の知識管理をどのように改善できるのでしょうか?

生成 AI を使用すると、ナレッジ管理チームは知識の取得と維持のプロセスを自動化できます。この記事で...

研究のアイデアがない場合は、信頼できる機械学習のための革新的なアイデア1,000個をご紹介します。

I. はじめに1. まず話をしましょう約4〜5年前、私はカーネギーメロン大学(CMU)の博士課程の...

Huang が H100 を「ブースト」: NVIDIA が大規模モデル アクセラレーション パッケージを発表、Llama2 推論速度が 2 倍に

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

日本の警察は、AIを使って不審者の動きや表情を分析し、「一匹狼」犯罪に対処する予定

7月10日、日経中国版ウェブサイトの報道によると、日本の警察庁は早ければ年内にもAIによる捜査活動を...

上場企業141社がAIに騙された! Googleは偶然共犯者になる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習の発展の歴史と啓蒙

[[188091]]近年、人工知能の目覚ましい発展、特にAlphaGoと韓国のチェスプレイヤー、イ・...

CLIP と LLM を使用したマルチモーダル RAG システムの構築

この記事では、オープンソースの Large Language Multi-Modal モデルを使用し...

アルゴリズム王国では中国が他国を追い抜くかもしれない

今年の初め、世界中で人工知能の発展に注目していた人たちの注目を集めた出来事が2つありました。一つは、...