大規模言語モデルのパラメータサイズは拡大しているものの、モデル内のパラメータがどのように機能するかを理解することは依然として難しく、大規模モデルを直接分析するにはコストと労力がかかります。この状況に対して、マイクロソフトの 2 人の研究者が優れたエントリー ポイントを思いつきました。それは、さまざまな一般的なロジックと文法を網羅した簡潔な童話の生成をモデル生成タスクとして使用することです。これにより、モデルの学習負荷を軽減しながら、モデルのロジックと文法を学習する能力を維持し、小さなモデルを使用してパラメーターの役割を分析できます。このアプローチは新たな研究の道を切り開くかもしれない。 英語を学ぶのは簡単なことではないことは誰もが知っています。しかし、「生徒」がコンピュータであれば、インターネット上の膨大なテキストをニューラルネットワークと呼ばれる巨大な数学モデルに入力するだけで、効率的に英語を学習できます。 これは、OpenAI の ChatGPT のような大規模な生成モデルの動作原理です。このモデルは、過去 1 年間、幅広いトピックについて (「幻覚」を呈しながらも) 首尾一貫した会話ができることで、すべての人を驚かせてきました。 しかし、このアプローチには欠点もあります。まず、膨大なテキスト アーカイブを言語モデルに必要なトレーニング コーパスに変換するには、コストがかかり、時間がかかります。一方、大規模な言語モデルをトレーニングする人でさえ、その内部の仕組みを理解するのは困難であり、その結果、設計上の失敗を避けることが難しくなります。 これらの困難に直面して、一部の研究者は、より小さなデータセットでより小さなモデルをトレーニングし、その後モデルの動作を研究することを選択します。 「これはショウジョウバエのゲノムを解読するのと人間のゲノムを解読するのと同じようなものだ」とブラウン大学の言語モデル研究者、エリー・パヴリック氏は言う。 最近発表された論文では、マイクロソフトの研究者 2 人が、おとぎ話を使って小さな言語モデルをトレーニングする新しい方法を紹介しました。 論文リンク: https://arxiv.org/pdf/2305.07759.pdf ChatGPT インターフェースを動かす大規模言語モデル GPT-3.5 には、約 2,000 億のパラメータがあり、数千億語からなるデータセットでトレーニングされました (OpenAI はまだ GPT-4 に対応するデータをリリースしていません)。このような大規模なモデルをトレーニングするには、通常、GPU と呼ばれる少なくとも 1,000 個の専用プロセッサを数週間にわたって並列実行する必要があります。さまざまなモデルをトレーニングして比較できるどころか、そのようなリソースを調達できる企業はほんの一握りです。 2人の研究者の研究は、今日の最先端のシステムよりも何千倍も小さい言語モデルでも、このおとぎ話ベースのアプローチで訓練すれば、首尾一貫した文法的な物語を語れるようになることをすぐに学習できることを示しています。彼らの研究結果は、より大きなモデルのトレーニングとその動作の理解に役立つ可能性のある新しい研究の方向性を示しています。 「この論文は非常に有益で、概念自体も非常に興味深いと思いました」と、アレン人工知能研究所の言語モデル研究者であるチャンドラ・バガヴァトゥラ氏は言う。 おとぎ話から言語モデルの中心となるニューラル ネットワークは、人間の脳にヒントを得た数学的構造です。各ニューラル ネットワークには、層状に配置された多数の人工ニューロンが含まれており、隣接する層のニューロン同士が接続されています。ニューラル ネットワークの動作は、パラメーターと呼ばれるこれらの接続ポイントによって制御されます。言語モデルでは、最初のプロンプトとすでに生成された単語に基づいて、パラメータによってモデルが次に吐き出す単語が制御されます。 トレーニング中に、モデルが自身の出力をトレーニング データセット内のテキストと繰り返し比較し、類似性を向上させるためにパラメータを調整するときのみ、モデルは真に「活性化」します。ランダムなパラメータを持つ未トレーニングのネットワークは、数行のコードで簡単に組み立てられますが、意味不明な結果しか生成されません。トレーニング後は、通常、未知のテキストを妥当な信憑性を持って処理し続けることができます。大規模なモデルは、質問に答えたり指示に従ったりすることを学習できるようにさらに微調整されることが多いですが、トレーニングの大部分は単語予測の習得に重点が置かれています。 単語予測を成功させるには、言語モデルがさまざまなスキルを習得する必要があります。たとえば、英語の文法の規則によれば、記事のトピックに関係なく、「going」の次の単語は「to」になる可能性が高いです。さらに、「フランスの首都は」という文章を完成させるには事実に関する体系的な知識が必要であり、「ではない」という単語を含む段落を完成させるには基本的な論理に関する体系的な知識が必要です。 「生の言語は非常に複雑です」と、DeepMind の機械学習研究者 Timothy Nguyen 氏は言います。 「興味深い言語能力を生み出すために、人々はデータが多ければ多いほど良いというアプローチを取っています。」 Ronen Eldan は、生成言語モデルを研究するために 2022 年に Microsoft Research に入社した数学者です。最も直感的な方法は、小さなデータセットを使用することです。つまり、特定のタスクに特化したモデルをトレーニングして、分散しすぎないようにするということです。当初、彼はモデルをトレーニングして特定の種類の数学の問題を解こうと考えていましたが、ある日の午後、5歳の娘と過ごしているときに、おとぎ話がぴったりであることに気付きました。 「彼女に物語を読んで聞かせた後に、このアイデアが思い浮かんだ」と彼は語った。 ロネン・エルダン。 首尾一貫したおとぎ話を生成するには、言語モデルは世界についての事実を学習し、登場人物や出来事を追跡し、文法規則に従う必要があります。これらはすべて、大規模なモデルが直面する課題の簡易版です。しかし、膨大なデータセットでトレーニングされた大規模モデルは、本当に重要なルールとともに、無数の重要でない詳細も学習します。エルダン氏は、子供向けの物語の単純さと限られた語彙によって、小さなモデルでも学習が管理しやすくなり、訓練しやすくなり、理解しやすくなることを期待しています。 しかし、言語モデルの世界では、「小さい」というのは相対的なものです。GPT-3.5 のトレーニングに使用されたデータセットの 1000 分の 1 の小ささであっても、何百万ものストーリーが含まれている必要があります。 「いくらかけたいのかは分かりませんが、プロを雇って何百万もの短編小説を書かせるつもりはないのではないでしょうか」とグエン氏は言う。 これほど貪欲な読者を満足させるには非常に多作な作家が必要だが、エルダンは数人の候補を念頭に置いていた。大きな言語モデルよりも小さな言語モデル向けに書くのに適した作家はいるだろうか? トイストーリーエルダンはすぐに、大規模な言語モデルによって生成された合成おとぎ話のライブラリの作成に取り掛かりました。しかし、彼はすぐに、最も先進的なモデルでさえ「本質的に」創造的ではないことに気づきました。彼は、GPT-4 に 4 歳児に適した物語を書くように指示するだけでは、「物語の約 5 分の 1 は、子供たちが公園に行って滑り台を怖がる話になるだろう」と気づきました。インターネット上では、どうやらこれが典型的な幼稚園の話のようです。 解決策は、プロンプトに少しランダム性を加えることです。まず、エルダンは GPT-4 を使用して、4 歳児が知っている可能性のある 1,500 個の名詞、動詞、形容詞のリストを生成しました。このリストは、4 歳児が自分で簡単に確認できるほど短いものでした。次に彼は、GPT-3.5 または GPT-4 に、リストからランダムに抽出された 3 つの単語と、ハッピーエンドやどんでん返しなどのランダムに選択された種類の詳細を含む、年齢に適したストーリーを生成するよう繰り返し指示する簡単なコンピューター プログラムを作成しました。幸いなことに、生成されたストーリーはホラーストーリーでいっぱいではありません。 Eldan は、オンデマンドでトレーニング データを提供するプロセスを確立しましたが、機能モデルをトレーニングするために必要なストーリーの数や、必要なモデルのサイズがどの程度になるかはわかりませんでした。当時、彼はマイクロソフトとカーネギーメロン大学の機械学習研究者であるYuanzhi Li氏と協力し、小さなモデルはすぐにトレーニングできるという事実を利用して、さまざまな可能性を試しました。 Yuan-Tseh Lee 氏と Eldan 氏は協力して、合成された子供向けストーリーでトレーニングされたさまざまなモデルを比較しました。彼らは、驚くほど小さなモデルでも一貫したストーリーを伝えることを学習できることを発見しました。 最初のステップは、モデルを評価する方法を決定することです。教室と同様に、採点は言語モデル研究でも議論の多いトピックです。研究者が知りたいことすべてを網羅する完璧なスコアリング指標は存在せず、一部のタスクで優れたパフォーマンスを発揮するモデルが、他のタスクではまったくうまく機能しないことがよくあります。研究者たちは、時間の経過とともに、明確な答えのある質問に基づいてさまざまな標準ベンチマークを開発してきました。これは、特定のスキルを評価するのに適した方法です。 しかし、エルダンとリーはもっと曖昧なことに興味を持っていました。言語モデルを可能な限りシンプルにするには、どれくらいの大きさが必要なのでしょうか? 「モデルが英語を話せるかどうかを直接テストするには、モデルに無制限に英語のコンテンツを生成させることしかできないと思います」とエルダン氏は語った。 このような定性的な質問に対するモデルのパフォーマンスを測定するには、人間の評価者に頼るか、再び GPT-4 に頼るかの 2 つの方法しかありません。 2 人の研究者は後者を選択し、実質的には大規模なモデルに教科書の作成と採点の両方を行わせることにしました。 バガヴァトゥラ氏は、GPT-4 の評価が人間のレビュー担当者の評価とどう違うのかを見たいと語った。GPT-4 はトレーニングに役立ったモデルに対して偏りがある可能性があり、言語モデルの不透明な性質によりその偏りを定量化することが難しいからだ。しかし、エルダン氏とリー氏の研究の焦点である、類似の合成物語セットで訓練された異なるモデル間の比較には、こうした微妙な違いは影響しないと彼は考えている。 Eldan 氏と Li 氏は、トレーニング後に各小規模モデルを評価するために 2 段階の手順を使用しました。まず、研究チームは、トレーニング データセットとは異なるストーリーの前半を小さなモデルに提示して新しい結末を生成させ、その後、50 の異なるテスト ストーリーでこのプロセスを繰り返しました。次に、研究者らは GPT-4 に、創造性、文法、物語の冒頭との一貫性という 3 つのカテゴリに基づいて、それぞれの小さなモデルの結末を採点するように指示しました。次に、各カテゴリーのスコアの平均を出して、各モデルの最終評価を 3 つにまとめました。 このプログラムにより、エルダンとリーは最終的にさまざまなモデルを比較し、どのモデルが「優秀な生徒」であるかを見つけることができました。 テスト結果最初の調査の後、2 人の研究者は約 200 万のストーリーからなるトレーニング データセットを選択しました。次に、研究者たちは TinyStories と呼ばれるデータセットを使用して、100 万から 3,000 万までのさまざまなレイヤー数とパラメーター サイズを持つモデルをトレーニングしました。この作業は時間がかかりません。使用された GPU は 4 つだけで、最大のモデルのトレーニングには 1 日もかかりませんでした。 モデルは小さすぎることはできません。たとえば、あるテストストーリーは、威圧的な顔をした男性が女の子に猫を連れ去ると言うところから始まりました。 100万のパラメータを持つモデルが、女の子が男の子に友達になりたいと繰り返し伝えるという無限ループに陥りました。しかし、より大きなモデル(それでも GPT-3.5 より数千倍小さい)は驚くほど優れたパフォーマンスを発揮しました。 2800万パラメータ版は、悲劇的な結末ではあるものの、一貫したストーリーを語っています。「ケイティは泣き出しますが、男性は気にしません。男性は猫を連れ去り、ケイティは二度と猫に会うことはありません。それで終わりです。」 エルダン氏とリー氏は、自らのモデルをテストするだけでなく、2019年にリリースされた15億のパラメータを持つモデルであるOpenAIのGPT-2にも同じ課題を課した。さらに事態は悪化し、男は少女を法廷、刑務所、病院、遺体安置所、そして最後に火葬場に送ると脅し、物語は突然終わる。 研究紹介グエン氏は、このような小さなモデルがこれほどスムーズに動作するのは驚きだが、このタスクにおける GPT-2 のパフォーマンスはおそらく驚くべきことではないと述べた。これはより大きなモデルではあるが、最先端のものからは程遠く、非常に異なるデータセットでトレーニングされたものである。 「おもちゃで遊ぶといった幼児の課題だけを訓練された子どもは、あなたや私よりもそれを上手にできるかもしれない」と彼は言う。「しかし、私たちはこの単純なことに特化しているわけではない」 異なる TinyStories モデル間の比較には、同じ交絡因子はありません。エルダンとリーが観察した手がかりは、層は少ないが各層のニューロンが多いネットワークは、事実の知識を必要とする質問に答えるのが得意であり、逆に、層は多く、各層のニューロンが少ないネットワークは、物語の早い段階で登場人物や筋書きを追跡するのが得意であるという点でした。 Bhagavathullah はこの結果が特に興味深いと感じました。もしこの結果がより大規模なモデルで再現できれば、「それはこの研究の非常に素晴らしい成果となるだろう」と彼は語った。 エルダン氏とリー氏は、小規模モデルの能力がトレーニング期間の長さとどのように関係するかについても研究しました。複数の実験により、モデルはまず文法を習得し、次に一貫性を習得することが示されています。エルダン氏は、このパターンは報酬構造の違いが子供間の神経ネットワークと言語習得パターンの違いを決定することを示していると考えています。単語を予測して学習する言語モデルの場合、「『欲しい』という単語に対する報酬は、『アイスクリーム』という単語に対する報酬と同じくらい大きい」と彼は述べた。一方、子どもたちは「『アイスクリームが欲しい』と言うか、『アイスクリーム、アイスクリーム、アイスクリーム』と言うかは気にしない」。 定性分析と定量分析Eldan 氏と Li 氏は、この研究が他の研究者に刺激を与え、TinyStories データセットでさまざまなモデルをトレーニングし、その機能を比較するきっかけになることを期待しています。しかし、小さなモデルのどの特徴が大きなモデルにも現れるかを予測することは難しい場合がよくあります。 「マウスの視覚モデルは人間の視覚の良い代替となるかもしれないが、マウスのうつ病モデルは人間のうつ病の良いモデルとなるだろうか?」とパヴリック氏は語った。 「状況はそれぞれ少しずつ異なります。」 TinyStories モデルの成功は、より広範な意味合いももたらします。トレーニング データセットをコンパイルするための標準的なアプローチには、インターネットからテキストを収集して不要なテキストを除外する以上の作業が含まれます。大規模なモデルによって生成された合成テキストは、それほど大きくすることなく高品質のデータセットを構築する別の方法を提供できる可能性があります。 「TinyStories サイズのモデルだけでなく、もっと大きなモデルでもこれが非常にうまく機能するという証拠が増えています」とエルダン氏は語った。 この証拠は、Eldan、Li、および他の Microsoft 研究者による 10 億パラメータ モデルに関する 2 つのフォローアップ論文から得られています。最初の論文では、GPT-3.5 によって生成されたコード スニペットとインターネットから慎重に選択されたコードを使用して、Python プログラミング言語を学習するモデルをトレーニングしました。 2 番目の論文では、幅広いトピックを網羅した合成「教科書」をトレーニング データセットに追加して、一般的な言語モデルをトレーニングしました。テストでは、両方のモデルが、より大きなデータセットでトレーニングされたより大きなモデルよりも優れたパフォーマンスを発揮しました。しかし、言語モデルの評価は常に難しいものであり、トレーニング データを合成する方法はまだ初期段階にあるため、より独立したテストが必要です。 最先端の言語モデルがますます大きくなる一方で、そのより小さなモデルに関する驚くべき発見は、最も単純なモデルについてさえ、私たちがまだどれほど理解していないかを思い出させてくれます。グエン氏は、TinyStories が開拓したアプローチを探求する論文がさらに発表されることを期待している。 「今の問題は、パラメータのサイズはどれくらい大きくすべきか、そしてなぜそれが重要なのかということです。これは科学であるべきであり、この論文が一連の研究の始まりとなることを願っています。」 |
<<: アンドリュー・ン氏がチューリングトリオに加わり、サム・アルトマン氏を非難: AI規制は「規制がないよりはまし」、ルカン氏はそれを歓迎
>>: ChatGPT パラメータが 200 億しかないとは思いませんでした。
OpenAIのCEO、サム・アルトマン氏は昨夜Twitterで、ChatGPTに音声と画像の機能が...
19 世紀以前、人々が集まるときには、人生の物語を語り、感情や考えを伝えるために、常に最も原始的な...
自動運転車の急速な発展は、自動車業界や輸送業界を再定義するだけでなく、保険業界にも混乱をもたらすでし...
CRF は、品詞タグ付け、単語分割、固有表現認識などのタスクに使用できる、一般的に使用されるシーケン...
さまざまな状況情報を記憶し、推論できるパーソナル AI アシスタントは、常にすぐそこまで来ているよう...
IoT 分野の拡大と発展により、多くの変革的テクノロジーがもたらされるでしょう。家庭から自動車、ウ...
世界がますますデジタル化されるにつれて、かつてない量のデータが毎日生成され、組織にはこの膨大な量のデ...
2022年11月30日のChatGPTのリリース以来、OpenAIが新しい機能をリリースするたびに...
アメリカは、いまだに人工知能技術の最先端にいます。アメリカが警戒すればするほど、私たちはアメリカのや...
【51CTO.com クイック翻訳】はじめに列車が走行しているとき、線路には大きな圧力がかかることが...