『Thinking Chain: Six Intuitions about Big Models』の著者、ジェイソン・ウェイ氏

ジェイソン・ウェイを覚えていますか?思考連鎖の創始者は、命令チューニングに関する初期の研究を共同で主導し、Yi Tay、Jeff Dean らとともに大規模モデルの新たな機能に関する論文を共同執筆しました。彼は現在、OpenAI で ChatGPT の開発に取り組んでいます。マシンハートはかつて、若いAI研究者に彼が与えたアドバイスのいくつかについて報告したことがある。

最近、彼はスタンフォード大学の CS 330 ディープマルチタスク学習およびメタ学習コースのゲスト講師として授業を行い、大規模言語モデルに関する彼の直感の一部を共有しました。スタンフォード大学はスピーチのビデオをまだ公開していないが、自身のブログで要点をまとめている。

今日の AI において未解決の疑問の 1 つは、「なぜ大規模言語モデルのパフォーマンスが優れているのか」です。この点に関して、ジェイソン・ウェイ氏は6つの直感的な洞察について語りました。こうした直感の多くは、データを手動で検査することで得られたものですが、Jason Wei 氏は、これは非常に役立つ実践であり、推奨する価値があると述べています。

言語モデルは、テキストコーパス内の次の単語を単純に予測するように事前にトレーニングされているという事実から、どれほど多くのことを学習できるかは驚くべきことです。次の単語を予測するタスクから何を学んだのでしょうか?いくつか例を挙げます。

直感1: 大規模な自己教師データに基づく次の単語予測は、大規模なマルチタスク学習である

次の単語の予測は非常に単純なタスクですが、データセットが大きい場合、モデルは多くのタスクを学習する必要があります。たとえば、次の従来の NLP タスクは、コーパステキスト内の次の単語を予測することによって学習できます。

上記の使命は明確ですが、少し理想主義的です。実際には、次の単語を予測するには多くの「奇妙な」タスクが伴います。次の文を例に挙げてみましょう。

このようにデータを見ると、次の単語の予測によって、モデルは構文や意味だけでなく、句読点の予測、事実の予測、さらには推論まで、言語について多くのことを学習しなければならないことが明らかになります。これらの例は、単純な目標と複雑なデータを組み合わせることで、非常にインテリジェントな動作を実現できるという考えを裏付けています (言語モデルがインテリジェントであることに同意する場合)。

直感 2: 入力と出力の関係を学習するタスクは、次の単語を予測するタスクとして考えることができます。これは、文脈学習とも呼ばれます。

過去数十年にわたり、機械学習は <入力、出力> ペア間の関係を学習することに重点が置かれてきました。次の単語の予測は非常に一般的なので、機械学習を次の単語の予測として簡単に考えることができます。これをコンテキスト学習（Few-Shot Learning または Few-Shot Cue Engineering とも呼ばれます）と呼びます。この分野における先駆的な研究は、自然言語の指示の後に <入力、出力> のペアを追加することを提案した GPT-3 論文でした。下の左の写真の通りです。

上図の右側では、コンテキスト内の例の数を増やすと、GPT-3 論文のタスクのパフォーマンスが向上することがわかります。つまり、モデルに <入力、出力> の例を提供すると便利です。

コンテキスト学習は、大規模な言語モデルを使用する標準的な形式であり、<入力、出力> ペアを使用して過去数十年間に機械学習が実行されてきたため便利です。しかし、なぜ <入力、出力> ペアを使い続ける必要があるのでしょうか?第一原理的な理由はまだありません。私たちは人間とコミュニケーションをとるときも、指示や説明を与え、対話形式で教えていきます。

直感3: トークンの情報密度は大きく異なる可能性があるので、モデルに考える時間を与える

異なるトークンには異なる量の情報が含まれているというのは基本的な事実です。

いくつかのトークンは次のトークンを予測しやすく、含まれる情報も少ないです。たとえば、「私は OpenAI で大規模言語に取り組んでいる研究者 Jason Wei です」という文があった場合、次の単語が「モデル」であると予測するのは難しくありません。このトークンは予測が非常に簡単なので、省略しても文の情報は失われません。

その他のトークンは予測が非常に難しく、大量の情報が含まれています。たとえば、「ジェイソン・ウェイの好きな色は」という文は、基本的に正しく予測することは不可能です。このトークンには多くの新しい情報が含まれているからです。

一部のトークンは計算が難しい場合もあります。たとえば、「質問：（（8-2×3+4）^3/8の2乗はいくらですか？（A）1,483,492、（B）1,395,394、（C）1,771,561、答え：（」）という文章では、次のトークンを予測するには多くの作業（数式の計算）が必要になります。

もしあなたが ChatGPT で、プロンプトを見たらすぐに応答を入力し始めなければならないとしたら、質問に正しく答えるのは難しいでしょう。

この問題を解決するには、言語モデルにさらに多くの計算機能を提供し、最終的な答えを出す前に推論を実行できるようにすることです。これは、思考連鎖プロンプトエンジニアリングという簡単なトリックによって実現できます。このエンジニアリングでは、下の図で青で強調表示されているように、数回の「思考連鎖」の例を提供することで、モデルが推論を実行するように促すことができます。

この技術は、人間でも処理に時間のかかる複雑な推論タスクのパフォーマンスを向上させるために使用できる可能性があります。上記の算術問題よりも複雑な問題の場合、言語モデルでは、まずプロンプトをサブ問題に分解し、次にそれらのサブ問題を順番に（プロンプトエンジニアリングの最小値から最大値まで）解決すると役立ちます。

このパラダイムが強力なのは、AI が最終的には人類が直面している最も困難な問題 (貧困、気候変動など) を解決することを期待しており、推論能力はそのような問題を解決するための基本的な要素だからです。

上記の次の単語予測タスクが機能する主な理由は規模です。つまり、より多くのデータでより大きなニューラルネットワークをトレーニングすることを意味します。最先端の言語モデルのトレーニングには多額の費用がかかることは明らかですが、私たちは、より大きなニューラルネットワークとより多くのデータを使用することで、より優れたモデルを取得できると確信しているため、トレーニングを行っています (つまり、モデルとデータのサイズを大きくしてもパフォーマンスが飽和することはありません)。

直感4: 言語モデルのサイズ（モデルサイズとデータ）を増やすと、損失が改善されると予想される

スケール拡張によってモデルのパフォーマンスが向上する現象はスケーリング則と呼ばれ、下の左の図に示すように、計算量が増えるとテスト損失も着実に減少します。

右の図はもう 1 つの証拠です。小さいモデルの損失曲線を追跡することで、10,000 分の 1 の計算量で GPT-4 の損失を予測できます。

スケーリングがなぜ役立つのかはまだ解明されていませんが、まだ証明されていない理由が 2 つあります。まず、小さな言語モデルのパラメータはそれほど多くの知識を記憶できませんが、大きなモデルは世界に関する多くの事実情報を記憶できます。 2 番目の推測は、小規模な言語モデルでは機能が限られており、データ内の一次相関関係しか学習できない可能性があるということです。大規模言語モデルは、データ内の複雑なヒューリスティックを学習できます。

直感5: 全体的な損失はスムーズに拡大するが、個々の下流タスクの拡大は急激になる可能性がある

損失が減少すると何が起こるか見てみましょう。全体的な損失は、学習される多数のタスクの加重平均として考えることができます。

ここで、損失が 4 から 3 に減ったとします。それで、あなたのすべてのタスクは改善されるのでしょうか?おそらくそうではないでしょう。おそらく、 loss = 4 のモデルの構文はすでに完璧で飽和状態ですが、 loss = 3 の場合にはモデルの数学的パワーが大幅に向上しています。

研究によると、200 の下流タスクにおけるモデルのパフォーマンスを見ると、一部のタスクは着実に改善される一方で、他のタスクはまったく改善されず、さらに他のタスクは突然改善されることがわかります。下の図は、そのようなタスクの 8 つの例を示しています。モデルが小さい場合のパフォーマンスはランダムですが、モデルサイズが特定のしきい値に達すると、パフォーマンスはランダムを大幅に上回ります。

この量的変化によって質的変化が引き起こされる現象を「創発」と呼びます。より具体的には、ある機能が小規模なモデルには存在しないが、大規模なモデルには存在する場合、その機能は創発的機能であると言えます。このようなタスクでは、小さなモデルの機能はほぼランダムであるのに対し、特定のしきい値サイズを超えるモデルは、下の図に示すように、ランダム性を大幅に超えることがよくあります。

出現には 3 つの重要な意味があります。

小規模なモデルの拡張曲線を単純に外挿するだけでは、出現を予測することはできません。
言語モデルのトレーナーによって、出現する能力は明示的に指定されません。
スケーリングによって新たな機能が解放されるため、さらにスケーリングするとさらに多くの機能が生成されることが期待されます。

直感6: 文脈学習は確かに存在するが、それは十分に大きな言語モデルがある場合のみである

GPT-3 の論文では、コンテキスト内の例の数を増やすとパフォーマンスが向上することがすでに示されています。これは、モデルがコンテキスト例から <入力、出力> マッピングを実際に学習したためであると考えられますが、パフォーマンスの向上は、例がモデルに形式や可能なラベルに関する情報を伝えているなどの他の理由による可能性もあります。

実際、「デモンストレーションの役割の再考：文脈内学習を機能させるものは何ですか？」という論文では、文脈上の例にランダムなラベルを使用した場合でも、GPT-3 のパフォーマンスはほとんど低下しないことが示されています。パフォーマンスの向上は、<入力、出力> マッピング関係の学習によるものではなく、コンテキストによってモデルが形式や可能なラベルを理解できるためであると考えられます。

しかし、今日の最も強力なモデルと比較すると、GPT-3 は「スーパー」言語モデルではありません。ラベルを反転させるというより極端な設定（つまり、正を負に、負を正に）をすると、言語モデルは反転されたラベルに厳密に準拠しますが、小さなモデルはまったく影響を受けないことがわかります。下の図に示すように、大規模言語モデル (PaLM-540B、code-davinci-002、text-davinci-002) の機能が低下しています。

これは、言語モデルが <入力、出力> マッピングを考慮に入れていることを示していますが、それは言語モデルが十分に大きい場合に限られます。

ブログの最後で、ジェイソン・ウェイ氏は、これらの直感は非常に基本的なものだと思われるが、役に立つことを願っていると述べました。さらに、彼はデータを手動で確認することで多くのことを学べることを発見しました。これは彼が最近好んで行っていることであり、皆さんにも試してみることを勧めています。

<<: Metaは独立したAI画像ジェネレーターを立ち上げました。現在は無料ですが、英語のプロンプトのみをサポートしています。

>>: