Huggingfaceによる大規模モデル進化ガイド：GPT-4を完全に再現する必要はない

ビッグデータダイジェスト制作

ChatGPTが人気を博した後、AIコミュニティは「百式戦争」を開始しました。最近、Huggingface の機械学習科学者である Nathan Lambert 氏がブログ記事で、オープンソースの観点から現在の大規模モデルの威力を整理し、多くの深い洞察を提示しました。

これは、GPT4 が宣伝されていた巨大なスコアカードを採用する代わりに、オープンソースモデルの目標として 10 ～ 50% を採用し、GPT4 に勝つということになります。

オープンソースモデルは、すべての面で GPT4 を上回ろうとするのではなく、一部の領域 (指標全体の 10 ～ 50% を占める) で優位性を獲得することにのみ重点を置く必要があります。

その理由としては、言語モデルは推論能力、予測能力、制御度合いなどにおいて多様性に富んでおり、単にChatGPTの再現を「目指す」ことは単なる雰囲気的な目標であり、必ずしも必要ではない、としている。

さらに、彼は OpenAI の成功は幸運によるものであり、オープンソースコミュニティでは達成できないかもしれないとも述べました。

写真

以下は中国語訳であり、原文の意味を変えずに若干の修正を加えています。

ChatGPT が登場する前は、言語モデルは学者のための単なる研究プロジェクトであり、その使いやすさやコスト拡張は非常に粗雑で、モデルの使用や展開が困難であると誰もが考えていました。 ChatGPT がリリースされた後、突然、研究室に「置いてある」言語モデルが ChatGPT と同じくらい優れていると誰もが期待するようになりました。実際には、この期待は現実的ではありません。言語モデルは推論能力、予測能力、制御の度合いなどにおいて多様性に富んでおり、まだ探索の初期段階にあります。したがって、ChatGPT を再現することは、むしろ「雰囲気」の目標であり、必須ではありません。

次に、オープンソースコミュニティは、特定のニーズに合わせてより具体的な機能を備えた大規模言語モデル (LLM) を開発する可能性がありますが、これらのモデルは全体的な機能において GPT4 ほど優れていない可能性があります。オープンソースモデルは、すべての面で GPT4 を上回ろうとするのではなく、一部の領域 (指標全体の 10 ～ 50% を占める) で優位性を獲得することにのみ重点を置きます。他の指標では、オープンソースモデルは GPT4 と同等ではなく、遅れをとる可能性があります。違いは次のとおりです。

異なるモデルとデータの開始点: ChatGPT が話題になったとき、GPT-3 はまだオープンソースではありませんでした。現在、データ標準は大幅に改善されており、実証済みの技術的実装である RLHF (Reinforcement Learning from Human Feedback) も存在します。

ベースモデルの開発では、データとインフラストラクチャを使用して小さなベースモデルを作成し、パラメータを微調整して小さなドメインでのパフォーマンスを向上させることが重要です。次に、最終的な大規模モデルがトレーニングされます。明らかに、現在のモデルとインフラストラクチャは、OpenAI が数年前にたどっていた実験の道とは異なる一連の道へと導いています。

さまざまなデータセットと評価: 現在、多くのオープンソースプロジェクトの進捗は、GPT4 によるモデルの評価に依存しています。しかし、OpenAI が社内で意思決定を行う際に、開発中の言語モデルの実際の動作を評価しているわけではないことは明らかであり、評価方法や評価スタイルは異なります。さまざまなデータセットと評価方法のおかげで、オープンソースチームはモデルに関するフィードバックをより迅速に受け取ることができ、モデルの完成からリリースまでの待ち時間が短縮されます。

異なるチーム: OpenAI と Google は非常にモジュール化されたチーム構造を持ち、それぞれの小さなチームがモデルの特定の部分を担当していると言われています。このため、GPT モデルのこれまでの開発は非常に狭い範囲にとどまり、各チームが担当部分を継続的に反復して最適化してきました。対照的に、オープンソースの世界では、多くの小規模なチームがさまざまなアイデアを試し、再現しているため、どのアプローチが信頼性が高く効果的で、どれが単なる幸運によるものなのかを判断しやすくなります。正直に言うと、OpenAI の成功は幸運によるものであり、オープンソースコミュニティが達成するのは不可能なことかもしれません。

したがって、上記の見方によれば、基本モデルの不足によりオープンソースコミュニティにイノベーションの余地が生まれ、企業は既存のモデルを継続的に最適化することで着実に進歩できる可能性があります。明らかに、この傾向は LLaMA プロジェクトの開発経路で検証されています。

写真

図のキャプション: 大規模言語モデルの進化ツリー: 同じブランチ上のモデルは比較的密接な関係にあります。トランスフォーマーベースのモデルは灰色以外で表示されます。青いブランチにはデコーダーのみのモデル、ピンクのブランチにはエンコーダーのみのモデル、緑のブランチにはエンコーダー/デコーダーモデルが表示されます。タイムライン上のモデルの垂直位置は、リリース日を示します。オープンソースモデルは実線の四角で表され、クローズドソースモデルは白抜きの四角で表されます。右下の積み上げ棒グラフには、各企業および機関のモデルの数が表示されます。

ChatGPT のようなモデルを再現したいのですが、ギャップは受け入れる必要があります。コンピューティング能力に数千万ドルを投資している企業であっても、実際に得られるコンピューティング能力 (AWS GPU や TPU など) によって、トレーニングスループットが 2 ～ 4 倍異なることがあります。

OpenAI と Google はすでにこれらの問題を解決しています。テクノロジースタック全体のあらゆる側面を最適化する際に、大きな相乗効果を生み出すからです。この相乗効果があるからこそ、短期間でOpenAIやGoogleのような大企業の技術レベルに到達することはできないのです。

現在の環境では、今後数か月間の大規模言語モデル開発の方向性に影響を与えるために、さまざまなタイプのプレーヤーが競争しています。今はリソースが豊富な時代なので、これらのプレーヤーが成功をどう捉えるかは、彼らと業界の他のプレーヤーとの相対的なギャップによって大きく左右されます。これらのプレーヤー間の最も興味深い対比は、a) モデルをどのようにトレーニングするか、b) モデルをどのように使用するか、c) 誰がモデルを使用しているかです。

1. 垂直分野のテクノロジー企業: つまり、独自のモデルをトレーニングし、その結果を使用する、OpenAI などの大規模言語モデル運動の先駆者です。しかし、テキスト出力を除いて、他のすべては秘密にされているようです。これは革新性に欠ける比較的単調な開発経路です。

2. 水平型大規模テクノロジー企業: これらの企業は社内サービスにモデルを使用しますが、ユーザーがエッジデバイスでビデオを生成する場合など、推論プロセスは分散環境で実行できます。これらの企業は、オープンソースモデルが広く普及し、一般的なシステムの最適化が自社のエコシステムに統合されることを期待しています。 Meta は今後も機械学習モデルを公開し続けると予想していますが、情報発信の制限があるため、完全にオープンソースのプロジェクトほど迅速に反復することはできないでしょう。

3. オープンソースの力: 多くの人がモデルのトレーニングに携わっており、さらに多くの人々がさまざまな商用および非商用のタスクでこれらのモデルを使用しています。オープンソース空間は、更新頻度が高い (開発が速く、独立したチームが多く関与する) ことから、今後も大規模な言語モデル開発の中心的な推進力であり続けると思われます。

4. 学術分野: 学術分野では、研究者は、より少ないリソースでより多くの成果を達成したり、パフォーマンスの上限を改善したりするための新しい方法の開発に重点を置く場合があります。

最後の 3 つのグループ (水平型大規模テクノロジー企業、オープンソース、学術界) では、技術的成果を相互に共有および統合しているため、初期段階では開発の道筋が絡み合っているように見えます。

もちろん、これらのカテゴリーの間には重複したり、グレーゾーンに該当する企業も存在し、これらの企業は上記の異なるグループの特徴を同時に示すこともよくあります。

ビクーニャやコアラのような学術的かつ重要な進歩について議論する前に、これらの成果は中核的な学者の継続的な貢献というよりも、急速に変化する環境の結果であることを認識する必要があります。学者の大多数は、トップクラスのモデルを定期的に発表するのではなく、人間によるフィードバックや微調整技術などに関する最先端の結果を示すことに重点を置くでしょう。

注: Vicuna と Koala はどちらも LLaMA モデルに基づく大規模なオープンソースモデルです。

現在、オープンモデルは、命令の微調整 (IFT) から人間のフィードバックに完全に基づいた強化学習 (RLHF) に移行している段階にあります。明らかに、将来的には、RLHF を正常に適用したすべての組織が、強力なコマンド/チャット調整機能を備えたモデルをリリースできるわけではありません。

正直に言うと、現段階では、私は現在の学術界について少し混乱しています。大規模言語モデルが製品化される前は、人工知能研究の発展は比較的安定していました。

ChatGPT が登場する前は、自然言語処理 (NLP) の研究は衰退し、GPT-3 の微調整作業だけが残っていたという噂があります。大規模言語モデルに対する現在の熱狂は新しい現象ではありません。大規模言語モデルの微調整などの分野に徐々に焦点を当てる自然言語処理 (NLP) 研究のプロセスを加速させただけです。

大規模言語モデルが研究のホットスポットになった後も、学界と産業界の共同研究はこれまでと同じように継続される可能性があります。しかし、こうした特別なパートナーシップに関与していない研究者（実際には大多数）は、異なるアプローチを取ることを選択する場合があります。

言い換えれば、独立した学術研究者の研究は、その分野の発展の傾向を大まかに予測する可能性が高いということです。

多くの欠陥があるにもかかわらず、学術システムは定期的に洞察を生み出しています。現在、業界とオープンソースの競争の両方でこの分野が成長するにつれて、OpenAI API の微調整を超えて、大規模な言語モデルの研究を実施する方法が模索され始めるでしょう。しかし、LLM 研究に対する AI 安全性に関する多額の資金提供などの新たな研究インセンティブが実を結ぶには時間がかかるでしょう。