Huggingfaceによる大規模モデル進化ガイド:GPT-4を完全に再現する必要はない

Huggingfaceによる大規模モデル進化ガイド:GPT-4を完全に再現する必要はない

ビッグデータダイジェスト制作

ChatGPTが人気を博した後、AIコミュニティは「百式戦争」を開始しました。最近、Huggingface の機械学習科学者である Nathan Lambert 氏がブログ記事で、オープンソースの観点から現在の大規模モデルの威力を整理し、多くの深い洞察を提示しました。

これは、GPT4 が宣伝されていた巨大なスコアカードを採用する代わりに、オープンソース モデルの目標として 10 ~ 50% を採用し、GPT4 に勝つということになります。

オープンソース モデルは、すべての面で GPT4 を上回ろうとするのではなく、一部の領域 (指標全体の 10 ~ 50% を占める) で優位性を獲得することにのみ重点を置く必要があります。

その理由としては、言語モデルは推論能力、予測能力、制御度合いなどにおいて多様性に富んでおり、単にChatGPTの再現を「目指す」ことは単なる雰囲気的な目標であり、必ずしも必要ではない、としている。

さらに、彼は OpenAI の成功は幸運によるものであり、オープンソース コミュニティでは達成できないかもしれないとも述べました。

写真

以下は中国語訳であり、原文の意味を変えずに若干の修正を加えています。

ChatGPT が登場する前は、言語モデルは学者のための単なる研究プロジェクトであり、その使いやすさやコスト拡張は非常に粗雑で、モデルの使用や展開が困難であると誰もが考えていました。 ChatGPT がリリースされた後、突然、研究室に「置いてある」言語モデルが ChatGPT と同じくらい優れていると誰もが期待するようになりました。実際には、この期待は現実的ではありません。言語モデルは推論能力、予測能力、制御の度合いなどにおいて多様性に富んでおり、まだ探索の初期段階にあります。したがって、ChatGPT を再現することは、むしろ「雰囲気」の目標であり、必須ではありません。

次に、オープンソース コミュニティは、特定のニーズに合わせてより具体的な機能を備えた大規模言語モデル (LLM) を開発する可能性がありますが、これらのモデルは全体的な機能において GPT4 ほど優れていない可能性があります。オープンソース モデルは、すべての面で GPT4 を上回ろうとするのではなく、一部の領域 (指標全体の 10 ~ 50% を占める) で優位性を獲得することにのみ重点を置きます。他の指標では、オープンソース モデルは GPT4 と同等ではなく、遅れをとる可能性があります。違いは次のとおりです。

異なるモデルとデータの開始点: ChatGPT が話題になったとき、GPT-3 はまだオープンソースではありませんでした。現在、データ標準は大幅に改善されており、実証済みの技術的実装である RLHF (Reinforcement Learning from Human Feedback) も存在します。

ベースモデルの開発では、データとインフラストラクチャを使用して小さなベースモデルを作成し、パラメータを微調整して小さなドメインでのパフォーマンスを向上させることが重要です。次に、最終的な大規模モデルがトレーニングされます。明らかに、現在のモデルとインフラストラクチャは、OpenAI が数年前にたどっていた実験の道とは異なる一連の道へと導いています。

さまざまなデータセットと評価: 現在、多くのオープンソース プロジェクトの進捗は、GPT4 によるモデルの評価に依存しています。しかし、OpenAI が社内で意思決定を行う際に、開発中の言語モデルの実際の動作を評価しているわけではないことは明らかであり、評価方法や評価スタイルは異なります。さまざまなデータセットと評価方法のおかげで、オープンソース チームはモデルに関するフィードバックをより迅速に受け取ることができ、モデルの完成からリリースまでの待ち時間が短縮されます。

異なるチーム: OpenAI と Google は非常にモジュール化されたチーム構造を持ち、それぞれの小さなチームがモデルの特定の部分を担当していると言われています。このため、GPT モデルのこれまでの開発は非常に狭い範囲にとどまり、各チームが担当部分を継続的に反復して最適化してきました。対照的に、オープンソースの世界では、多くの小規模なチームがさまざまなアイデアを試し、再現しているため、どのアプローチが信頼性が高く効果的で、どれが単なる幸運によるものなのかを判断しやすくなります。正直に言うと、OpenAI の成功は幸運によるものであり、オープンソース コミュニティが達成するのは不可能なことかもしれません。

したがって、上記の見方によれば、基本モデルの不足によりオープンソース コミュニティにイノベーションの余地が生まれ、企業は既存のモデルを継続的に最適化することで着実に進歩できる可能性があります。明らかに、この傾向は LLaMA プロジェクトの開発経路で検証されています。

写真

図のキャプション: 大規模言語モデルの進化ツリー: 同じブランチ上のモデルは比較的密接な関係にあります。トランスフォーマーベースのモデルは灰色以外で表示されます。青いブランチにはデコーダーのみのモデル、ピンクのブランチにはエンコーダーのみのモデル、緑のブランチにはエンコーダー/デコーダー モデルが表示されます。タイムライン上のモデルの垂直位置は、リリース日を示します。オープンソース モデルは実線の四角で表され、クローズド ソース モデルは白抜きの四角で表されます。右下の積み上げ棒グラフには、各企業および機関のモデルの数が表示されます。

ChatGPT のようなモデルを再現したいのですが、ギャップは受け入れる必要があります。コンピューティング能力に数千万ドルを投資している企業であっても、実際に得られるコンピューティング能力 (AWS GPU や TPU など) によって、トレーニング スループットが 2 ~ 4 倍異なることがあります。

OpenAI と Google はすでにこれらの問題を解決しています。テクノロジースタック全体のあらゆる側面を最適化する際に、大きな相乗効果を生み出すからです。この相乗効果があるからこそ、短期間でOpenAIやGoogleのような大企業の技術レベルに到達することはできないのです。

現在の環境では、今後数か月間の大規模言語モデル開発の方向性に影響を与えるために、さまざまなタイプのプレーヤーが競争しています。今はリソースが豊富な時代なので、これらのプレーヤーが成功をどう捉えるかは、彼らと業界の他のプレーヤーとの相対的なギャップによって大きく左右されます。これらのプレーヤー間の最も興味深い対比は、a) モデルをどのようにトレーニングするか、b) モデルをどのように使用するか、c) 誰がモデルを使用しているかです。

1. 垂直分野のテクノロジー企業: つまり、独自のモデルをトレーニングし、その結果を使用する、OpenAI などの大規模言語モデル運動の先駆者です。しかし、テキスト出力を除いて、他のすべては秘密にされているようです。これは革新性に欠ける比較的単調な開発経路です。

2. 水平型大規模テクノロジー企業: これらの企業は社内サービスにモデルを使用しますが、ユーザーがエッジデバイスでビデオを生成する場合など、推論プロセスは分散環境で実行できます。これらの企業は、オープンソース モデルが広く普及し、一般的なシステムの最適化が自社のエコシステムに統合されることを期待しています。 Meta は今後も機械学習モデルを公開し続けると予想していますが、情報発信の制限があるため、完全にオープンソースのプロジェクトほど迅速に反復することはできないでしょう。

3. オープンソースの力: 多くの人がモデルのトレーニングに携わっており、さらに多くの人々がさまざまな商用および非商用のタスクでこれらのモデルを使用しています。オープンソース空間は、更新頻度が高い (開発が速く、独立したチームが多く関与する) ことから、今後も大規模な言語モデル開発の中心的な推進力であり続けると思われます。

4. 学術分野: 学術分野では、研究者は、より少ないリソースでより多くの成果を達成したり、パフォーマンスの上限を改善したりするための新しい方法の開発に重点を置く場合があります。

最後の 3 つのグループ (水平型大規模テクノロジー企業、オープンソース、学術界) では、技術的成果を相互に共有および統合しているため、初期段階では開発の道筋が絡み合っているように見えます。

もちろん、これらのカテゴリーの間には重複したり、グレーゾーンに該当する企業も存在し、これらの企業は上記の異なるグループの特徴を同時に示すこともよくあります。

ビクーニャやコアラのような学術的かつ重要な進歩について議論する前に、これらの成果は中核的な学者の継続的な貢献というよりも、急速に変化する環境の結果であることを認識する必要があります。学者の大多数は、トップクラスのモデルを定期的に発表するのではなく、人間によるフィードバックや微調整技術などに関する最先端の結果を示すことに重点を置くでしょう。

注: Vicuna と Koala はどちらも LLaMA モデルに基づく大規模なオープン ソース モデルです。

現在、オープン モデルは、命令の微調整 (IFT) から人間のフィードバックに完全に基づいた強化学習 (RLHF) に移行している段階にあります。明らかに、将来的には、RLHF を正常に適用したすべての組織が、強力なコマンド/チャット調整機能を備えたモデルをリリースできるわけではありません。

正直に言うと、現段階では、私は現在の学術界について少し混乱しています。大規模言語モデルが製品化される前は、人工知能研究の発展は比較的安定していました。

ChatGPT が登場する前は、自然言語処理 (NLP) の研究は衰退し、GPT-3 の微調整作業だけが残っていたという噂があります。大規模言語モデルに対する現在の熱狂は新しい現象ではありません。大規模言語モデルの微調整などの分野に徐々に焦点を当てる自然言語処理 (NLP) 研究のプロセスを加速させただけです。

大規模言語モデルが研究のホットスポットになった後も、学界と産業界の共同研究はこれまでと同じように継続される可能性があります。しかし、こうした特別なパートナーシップに関与していない研究者(実際には大多数)は、異なるアプローチを取ることを選択する場合があります。

言い換えれば、独立した学術研究者の研究は、その分野の発展の傾向を大まかに予測する可能性が高いということです。

多くの欠陥があるにもかかわらず、学術システムは定期的に洞察を生み出しています。現在、業界とオープンソースの競争の両方でこの分野が成長するにつれて、OpenAI API の微調整を超えて、大規模な言語モデルの研究を実施する方法が模索され始めるでしょう。しかし、LLM 研究に対する AI 安全性に関する多額の資金提供などの新たな研究インセンティブが実を結ぶには時間がかかるでしょう。

再出現により熱が下がる

私は常に、企業がすぐに妥協してしまう「これまでずっとこのやり方でやってきた」や「説明責任」という理由だけではなく、オープンソースの言語モデルと研究をサポートする理由をもっと見つけようとしています。

私がぜひ実施したい反事実的分析は、ChatGPT と GPT-4 を完全な技術論文とともに公開することで、現在社会に蔓延している誇大宣伝を払拭できるかどうかです。プロセスが不透明になると、企業やオピニオンリーダーが現実ではなく感情に基づいてコミュニケーションの傾向を操作することが容易になります。

オープン性と再現性は、ますます稀な話題になってきています。社会におけるコミュニケーションがより現実的になるよう、より多くのチームが大規模言語モデルの進捗状況を公に共有してくれることを願っています。

経由

https://www.interconnects.ai/p/llm-development-paths

<<:  Stability AIのCEOが大胆な発言:5年後には人間のプログラマーは存在しなくなる

>>:  AIがコスト削減、生産性、雇用に与える影響

ブログ    
ブログ    

推薦する

制御可能な人工知能には未来がある

8月29日、2019年世界人工知能会議が上海で開幕した。世界各国の著名なテクノロジー企業や学界、産業...

賢くなる方法: 神経科学にヒントを得た人工知能

[[201067]]私はデイビッド・マーが「神経科学のチューリング」のような存在だといつも感じていま...

生成型人工知能に関する簡単な議論

生成AIには長い歴史があります。いくつかの情報源によれば、1950 年代にはすでに登場していたようで...

AIの発展が遺伝子工学を推進している

CRISPRは遺伝子編集技術の専門用語です。簡単に言えば、ウイルスは細菌に自身の遺伝子を組み込み、細...

...

...

5G、自動運転、AIがどの段階に到達したかを示す曲線

最近、世界で最も権威のあるIT市場調査およびコンサルティング会社であるガートナーは、新しいテクノロジ...

...

予測分析アルゴリズムを効果的に使用するための 10 のステップ

予測分析プロジェクトを成功させるには、ソフトウェアを導入してそれを使用してデータを分析するだけではあ...

十分なデータを使用してモデルをトレーニングしたかどうかをどのように確認しますか?

[51CTO.com クイック翻訳]ディープニューラルネットワーク (DNN) には大量のトレーニ...

ロボット「シェフ」がニューヨークに登場、1時間で300個の巻き寿司を作れる!

マンハッタンのファストカジュアルチェーン「ダルプ・モダン・インディアン」にあるドーサを自動で作る機械...

AI聴覚技術は国際紛争に関与したことがあるか?

AI視覚技術がさまざまな業界で応用されるのはもはや目新しいことではなく、現在ではAI聴覚技術も戦場...

...

ビッグデータとAIの連携

人工知能と機械学習は、組織がビッグデータからより優れたビジネス洞察を得るのにどのように役立つのでしょ...