プリンストン DeepMind は数学を使用して、LLM はランダムなオウムではないことを証明します。「規模が大きいほど能力が強くなる」には理論的根拠がある

今日の物語の主人公は、サンジーヴ・アローラとアニルド・ゴヤルという二人の科学者です。

アローラ氏はプリンストン大学出身、ゴヤル氏はGoogle DeepMind出身です。

彼らはただ一つの疑問を探るために集まった。

つまり、LLM はただ鳴いて真似することしかできないランダムなオウムなのでしょうか、それとも本当に何かを学習して、新たな能力を備えた知的な存在に変身したのでしょうか?

AIの先駆者であるヒントン氏とアンドリュー・ン氏はかつてこの問題について議論したことがあったが、当時は明確な結論には至らなかった。

しかしヒントン氏は、この質問に対する答えで合意に達することができなければ、AIがどれほどの害をもたらすかについて合意に達することは不可能だろうと述べた。

アローラ氏とゴヤル氏の主張は、LLM はオウムではないということです。具体的には、LLM の出力が大量のトレーニングデータの単なるランダムな組み合わせであるとは考えていません。

二人はこの件について論文を共同執筆した。

論文アドレス: https://arxiv.org/abs/2307.15936

真実は、多くのトレーニングを経て、LLM はますます大きくなり、関連する能力が効果的に向上し、新しい能力が開発されるということです。

これは通常の順列や組み合わせでは実現できないものです。

ビッグモデルの「ビッグ」

ご存知のとおり、LLM は個々の「ニューロン」を接続する巨大な人工ニューラルネットワークです。

実際、それはモデルのパラメータを指します。パラメータの数が増えるほど、LLM のサイズが大きくなります。

まずはLLM研修の仕組みと手順を理解しましょう。

トレーニングプロセスでは、LLM に 1 つの文を提供し、最後の単語を非表示にして、確率に基づいて LLM に欠落している単語を予測させます。

LLM が 1000 語を知っている場合、1000 通りの確率が導き出されます。最後に、最も確率の高いものを選択します。

最初は、LLM が正しい単語を選択できない場合があり、アルゴリズムは損失値、つまり、高次元の数学的空間における LLM によって与えられた最初の回答と元の文に対する正しい回答との間の「距離」を与え、その後、この値を使用してパラメータを微調整します。

その後、同じ文に対して、LLM はより正確な確率分布を計算できるようになり、上記の損失値はわずかに減少します。

このようにして、LLM の全体的な損失値が適切なレベルまで減少するまで、トレーニングデータ内の数十億の文がこのプロセスに実行されます。

同様に、LLM のテストもこのプロセスに従い、損失値に基づいてテスト結果を取得します (もちろん、テストに使用される文はトレーニングデータには絶対に含まれません。そうでない場合は不正行為になります)。

トレーニングとテストの後、LLM は新しいテキストプロンプトに遭遇したときに最も正しい単語を生成する可能性が高くなります。単語が出てきてプロンプトに投入され、次の単語が生成されます。

プロセスが進むにつれて、一見首尾一貫した答えが紙の上に現れました。

しかし、推論を必要とする質問に対して、より大きな LLM の方が優れた成績を収めたという証拠はありませんでした。

思考の流れに注意してください。これを示す証拠はなく、つまりこの結果を示す経験的証拠はありませんが、表面的な事実から判断すると、結論は正しいです。

言い換えれば、2 つのモデル間のトレーニング方法に違いはなく、唯一の違いは規模であるにもかかわらず、より大きな LLM の方がより小さなモデルよりも推論のパフォーマンスが優れています。

アローラは困惑した。この能力はどこから来たのだろうか？

ここからアローラ氏とゴヤル氏の研究が始まります。新しい能力がどのように出現するかを分析するための理論的枠組みを構築しようとするのです。

そこで彼らは数学の分野に目を向け、ランダムグラフと呼ばれるものに着目しました。簡単に言えば、この用語はグラフ理論と確率論の交差点にあります。

ランダムグラフでは、コインを投げるのと同じように、任意の 2 つのノードを接続するエッジがあるかどうかはランダムです。

コインが表になった場合、確率 p でエッジが発生します。

p の値が何らかの形で変化すると、ランダムグラフ全体の特性が突然変化する可能性があります。たとえば、p 値が特定のしきい値を超えると、一部の孤立したノード (つまり、他のノードと接続されていないポイント) が突然消えます。

2 人の科学者は、ランダムグラフのこの特徴が、大規模な言語モデルをシミュレートする直感的な方法になるかもしれないことに気付きました。

ニューラルネットワークの複雑さは説明が難しく、分析するのはほぼ不可能ですが、ランダムグラフの概念は数学者によってかなり長い間研究されており、それを分析するためのさまざまなツールが開発されてきました。

おそらく、ランダムグラフの関連理論を通じて、ニューラルネットワークの研究者は、大規模な言語モデルのいくつかの特性を理解し、分析しようと試みることができるでしょう。

ここで、2 人の研究者は 2 種類のノードを含む二部グラフに注目しました。

彼らのモデルでは、1 種類のノードがテキストセグメントを表します。ここでの断片は、1 つの単語ではなく、少なくとも 1 段落の長さ、場合によっては数ページの長さになることに注意してください。

これらのノードは直線を形成します。

2 番目のタイプのノードは、上記のテキストを理解するために必要なスキルを表します。たとえば、論理的な関係を理解する能力、計算する能力、より具体的には皮肉を理解する能力などです。

これらの例は、この 2 番目のタイプのノードによって表される機能が多様であり、関連する機能はすべてカウントできることを明確にするために示されています。

アローラ氏は、LLM がテキストに皮肉が含まれていると認識できれば、全体的な理解に大きな変化が生じる可能性があると述べた。

ただし、前述したように、2 番目のタイプのノードによって表される機能は、トレーニング中の LLM の目的がこれらの機能を実現することであることを意味するものではありません。言い換えれば、LLM はトレーニング中に次の可能性のある単語を予測するようにのみトレーニングされます。

言い換えれば、2 番目のタイプのノードによって表される機能は、LLM によって実証される機能をよりよく理解するために、結果の観点から Arora と Goyal によって設計されています。

設定の説明が終わったので、2 種類のノードが相互に接続し始めます。この接続は、LLM が特定のテキストを理解するために必要な能力を表します。 1対1、1対多、多対1のいずれかになります。

皮肉を理解するという例を挙げると、このスキルポイントは皮肉な要素を含むすべてのテキストとのつながりを確立します。

接続はそれほど簡単ではありません。 OpenAI や DeepMind のような大企業はトレーニングデータやテストデータを公開しないことを知っておく必要があります。そのため、2人の研究者はそれらに頼ることはできませんでした。

さらに、彼らが理解したいのは、規模、行動、能力の関係です。

2021年以来、LLMやその他のニューラルネットワークのパフォーマンスを研究している研究者は、共通の特徴を観察してきました。

彼らは、モデルのサイズとトレーニングデータの量の両方が大きくなるにつれて、テストデータでの損失 (トレーニング後の新しいテキストの予測と正解の差) が非常に特定の方法で減少することに気づきました。

これらの観察結果は、神経スケーリング則と呼ばれる方程式にコード化されています。

したがって、アローラとゴヤルは、彼らの理論は単一の LLM ケースや特定のトレーニングデータとテストデータのセットに依存するのではなく、スケーリング法則によって予測される損失というある種の一般法則に依存すると述べています。

彼らのさらなる研究の鍵となるのは、上で紹介したニューラルスケーリング則と二部グラフの関係です。

二部グラフからの借用

まず、研究者らは、テストデータ上の LLM の動作に対応する二部グラフの存在を仮定しました。

テストデータにおける LLM の損失変動を活用するために、彼らは LLM がスキルを学習する方法を次のように記述することを思いつきました。

皮肉を理解するスキルを例に挙げてみましょう。

この概念はスキルノードによって表されるため、研究者は、このスキルノードがどのテキストノードに接続されているかを確認しました。

これらの接続されたテキストノードのほぼすべてが成功した場合 (つまり、この特定のスキルによって表されるテキストに対する LLM の予測が非常に正確である場合)、LLM はこの特定のスキルに精通していることになります。

ただし、特定の割合を超えるスキルノードが失敗したテキストノードに接続されている場合、このスキルで LLM は失敗します。

これらの二部グラフと LLM とのつながりにより、Arora と Goyal はランダムグラフ理論のツールを使用して LLM の動作を分析できるようになりました。

これらのグラフを調べると、ノード間の特定の関係が明らかになります。これらの関係は、大規模な言語モデルが予期しない機能を獲得する方法を説明するための論理的かつテスト可能な方法に変換されます。

ここで、アローラとゴヤルはまず、なぜ大規模な LLM が比較的小規模なモデルよりも個々のスキルに優れているのかという重要な動作について説明します。

ニューラルスケーリング法則によって予測されるように、テスト損失は低く抑えて開始します。

失敗したテストノードの数が少ない場合は、失敗したテストノードとスキルノード間の接続が少ないことを意味します。したがって、より多くのスキルノードが成功したテストノードに接続され、モデルのスキル能力が強化されたことが示されます。

次に、2 人の研究者は、より大きなモデルによって得られたパワーを説明する方法を見つけました。LLM のサイズが大きくなり、テスト損失が減少するにつれて、スキルノードのランダムな組み合わせが個々のテキストノードに接続し始めました。

これは、LLM が複数のスキルを同時に使用することもより上手になり、これらのスキルの組み合わせがトレーニングデータ内のどのテキストにも現れていなくても、複数のスキルを使用してテキストを生成し始めることを示唆しています。

たとえば、LLM がすでに 1 つのスキルを使用してテキストを生成できる場合、LLM のパラメーターまたはトレーニングデータの数を 1 桁増やすと、2 つのスキルを必要とするテキストの生成も同様に優れたものになります。

同様に、さらに桁違いにスケールアップすると、LLM は 4 つのスキルを同時に必要とするタスクを実行できるようになります。さらに、各能力の熟練度レベルは同じです。

したがって、LLM の規模が大きいほど、スキルを組み合わせる方法が増え、LLM 自体のパフォーマンスが大幅に向上します。

LLM が大きくなるにつれて、トレーニングデータ内でこれらすべてのスキルの組み合わせに遭遇する確率は次第に小さくなり、最終的には 0 に達します。

各組み合わせは、ランダムグラフ理論のルールに従って、可能なスキルのランダムサンプリングから生成されます。したがって、グラフに約 1,000 個の基本的な個別スキルノードがあり、4 つのスキルを組み合わせたい場合、約 1,000 の 4 乗、つまり 1,000 兆通りの組み合わせが可能です。

言い換えれば、LLM がこれらの 1,000 のスキルのうち 4 つを組み合わせてこれらのタスクを実際に実行できる場合、モデルには一般化能力が備わっているはずであり、さらに、このモデルはランダムなオウムではない可能性が高いことを意味します。

しかし、アローラ氏とゴヤル氏は理論を超えて、LLM は規模とトレーニングデータが増えるにつれて、より多くのスキルを組み合わせる能力が向上し、一般化のパフォーマンスが向上するというアイデアをテストしたいと考えました。

彼らはチームの他のメンバーと協力して、複数のスキルを使用してテキストを生成する LLM の能力を評価するためのスキルブレンディングと呼ばれる方法を設計しました。

LLM をテストするために、研究チームはランダムに選択されたトピックに関する 3 つの文を生成するように依頼しました。これらの文は、最初に LLM がランダムに選択したスキルポイントを示すことによって生成されました。

たとえば、GPT-4 に剣術についてのエッセイを書くように依頼し、次にモデルに、自己バイアス、メタファー、統計、物理学の習得の試みという 4 つの領域のスキルを実証するように依頼しました。

GPT-4 の出力は次のようになります。

この鋼鉄とのダンスにおいて、私の勝利（比喩的に言えば）は、物体が自由落下するのと同じくらい確実です（物理学的に言えば）。

そして、有名な決闘者として、私は生まれつき機敏です。ほとんどの人がそれを知っています（統計を使って）。失敗？それは私の欠点（自己偏見）によるものではなく、戦場が敵に偏っているからに他なりません。

実際の結果は、数学的に予測されているように、GPT-4 は GPT-3.5 よりもはるかに優れたパフォーマンスを発揮することを示しています。

アローラ氏は大胆に推測する。1年後にはGPT-4をはるかに上回るモデルが登場するのだろうか？

<<:

>>:

未来を検知する: 顔、指紋、虹彩、その他の生体認証技術、あなたはどれを支持しますか?

プリンストン DeepMind は数学を使用して、LLM はランダムなオウムではないことを証明します。「規模が大きいほど能力が強くなる」には理論的根拠がある

ビッグモデルの「ビッグ」

二部グラフからの借用

未来を検知する: 顔、指紋、虹彩、その他の生体認証技術、あなたはどれを支持しますか?

Google の覇権は崩壊するのか?支配から疑惑へ：20年間インターネットのトレンドを形作ってきたGoogle検索は謎に包まれている

COVID-19は非接触アクセス制御の新時代を加速させる

6つのトラックと10のテクノロジー: インテリジェントボディと3D生成がAIを活性化し、空間コンピューティングがターミナル変革を切り開く

メタバース技術は人間とコンピュータの相互作用の効率を向上させることができるか?

人工知能はクラウドストレージとデータサービスの革新を推進する

1日当たりの予算が508万だと、OpenAIは2024年までしか存続できないのでしょうか？

アイソレーションフォレスト: ビッグデータにおける最高の異常検出アルゴリズム

推薦する

Google が新モデル EfficientNet をオープンソース化: 画像認識効率が 10 倍に向上、パラメータが 88% 削減

5G+自動運転車の時代において、Car OSの主導権を握るのは誰でしょうか?

1008 個の機械翻訳モデルが一挙にリリース、GitHub で最も人気のある NLP プロジェクトがアップデート: 140 の言語の組み合わせをカバー

重度の下半身麻痺患者が再び歩けるようになった。彼は心で外骨格をコントロールしている。これはフランスの脳コンピューターインターフェースにおける新たなブレークスルーである。

3分で顔認識を始めましょう

大きな模型 = 容器に入った脳？同源病院の朱松春氏のチームがAGIの主な欠陥を分析

センサーがなければ、電子自動化もロボットも存在しないでしょう。

機械学習におけるアルゴリズムとモデルの違い

効果は爆発的！ OpenAIが初のビデオ生成モデルをリリース、1分間のスムーズなHDビデオ、ネットユーザー：業界全体が安らかに眠る

アルゴリズムの視覚化: 理解しにくいコードをゴッホの星空に描く