ChatGPT がリリースされてから 1 年が経ちました。主要なオープンソースモデルはすべて追いついたのでしょうか?

1年前の今日、ChatGPTが誕生し、人工知能の新しい時代が到来したように思えました。 ChatGPTはわずか2か月で1億人のユーザーを獲得し、TikTokやYouTubeなどの人気アプリをはるかに上回るスピードを誇っています。生成型人工知能をベースにした新しいスタートアップが数日ごとに登場しているようです。ChatGPTとGPT-4を中核とするインテリジェントアシスタントもさまざまな業界に参入し始めており、一般ユーザーのワークフローを簡素化し、効率を向上させるのに役立っています。

しかし、ご存知のとおり、ChatGPT はオープンソースではありません。技術的な詳細が不明なだけでなく、一部の国や地域は OpenAI のサービスの範囲外です。この閉鎖性は、サービスの安定性、API コストの高さ、データの所有権とプライバシーの問題など、一連の問題を引き起こします。したがって、クローズドソースモデルと比較して、オープンソースコミュニティの力は大いに期待されています。多くの基本モデルは、最初にリリースされたときはまだ ChatGPT のパフォーマンスに近づくことができませんでしたが、多くの技術的研究と調査により、いくつかの大規模なオープンソースモデルや小規模な独自モデルが追いつきました。図 1 に示すように、いくつかのタスクでは、最高のオープンソースの大規模モデルが ChatGPT よりも優れたパフォーマンスを発揮しました。

今週、南洋理工大学、Salesforce Research、および科学技術研究庁 (A*STAR) の研究者らが、さまざまな分野やタスクで ChatGPT と同等かそれ以上のパフォーマンスを発揮する大規模なオープンソースモデルを調査した概要論文を発表しました。この論文は、研究部門と商業部門にとって重要なリソースとなり、オープンソースのビッグモデルの現状と将来の可能性を理解するのに役立つことを目指しています。

論文リンク: https://arxiv.org/pdf/2311.16989.pdf
Chen Hailin*、Jiao Fangkai*、Li Xingxuan*、Qin Chengwei*、Mathieu Ravaut*、Zhao Ruochen*、Caiming Xiong、Shafiq Joty (* 共著者)
データコード: https://github.com/ntunlp/OpenSource-LLMs-better-than-OpenAI/tree/main

I. 総合的な能力

Llama-2-70B は、オープンソースコミュニティで最も多くのコアモデルと派生モデルを備えた LLM です。事前トレーニングプロセスでは、2 兆個のトークンを含む大規模なコーパスが使用されます。ベースモデルとして、Llama-2-70B は総合的なベンチマークで優れたパフォーマンスを実証しました。指示の微調整と調整を行った後、Llama-70b-chat-70B は一般的な対話タスクでさらなるパフォーマンスの向上を示し、AlpacaEval (指示に従う機能をテストするためのデータセット) で 92.66% の勝率を達成し、絶対的なパフォーマンスで ChatGPT を 10.95% 上回りました。さらに、GPT-4 は勝率が 95.28% で、依然としてすべての LLM の中でトップです。

Zephyr-7Bは、Huggingface チームによってトレーニングされた小さな言語モデルです。 ChatGPT や Llama-2 とは異なり、アライメントを実行するために Direct Preference Optimization (DPO) を使用します。 AlpacaEval では、Zephyr-7B は 90.6% の勝率を達成しました。これは 70B レベルの LLM パフォーマンスに匹敵し、ChatGPT よりも優れたパフォーマンスを発揮しました。 MT-Bench (複数ラウンドの会話とコマンド追従機能をテストするデータセット) では、Zephyr-7B は Llama-2-chat-70B よりも優れたパフォーマンスを発揮します。

WizardLM-70B は、微調整のために自動的に構築されたさまざまな複雑さの大量の命令データを使用しており、MT-Bench で 7.71 という最高スコアを獲得したオープンソース LLM となっています。また、AlpacaEval では ChatGPT よりも優れたパフォーマンスを発揮します。

GodziLLa2-70B は、さまざまな独自の LoRA および Guanaco Llama 2 1K データセットを Llama-2-70B と組み合わせ、Open LLM Leaderboard (複数の推論と質問応答タスクを組み合わせたデータセット) で ChatGPT に匹敵するパフォーマンスを発揮します。ただし、WizardLM-70B と GodziLLa-70B は依然として GPT-4 より大幅に遅れています。

UltraLlama は、微調整のためにより多様で高品質のデータを使用しており、提案されたベンチマーク (上のグラフには示されていません) では ChatGPT と同等のパフォーマンスを発揮し、専門知識を必要とする質問への回答では ChatGPT を上回っています。

II. 特定のタスクで ChatGPT を上回るオープンソースの大規模モデル

1. AIエージェント

Lemur-70B-chatチームは、トレーニングデータ内のコードとテキストのより適切な比率を調査しました。 Lemur-70B-chat は、900 億のトークンと 30 万の例を含むコードとテキストの混合コーパスでトレーニングと微調整を行うことで、環境から自然言語のフィードバックを受け取り、エンコードタスクを実行して目標を達成できる設定で、ChatGPT のパフォーマンスを上回ります。 AgentTuning は、独自に構築された AgentInstruct データセットと一般的なドメイン命令データを組み合わせて、Llama-2 で命令の微調整を実行します。特に、AgentLlama-70B は、目に見えないエージェントタスクで ChatGPT と同等のパフォーマンスを実現します。

ToolBench で Llama-2-7B を微調整することにより、ToolLLaMA はツール使用評価において ChatGPT と同等のパフォーマンスを示します。

FireAct は、Llama-2-13B を微調整することで、HotpotQA 上の ReAct ベースのプロンプト付き ChatGPT よりも優れたパフォーマンスを発揮します。

さらに、Llama-7B から微調整されたGorilla は、API 呼び出しの書き込みにおいて GPT-4 を上回ります。

2. 論理的推論

WizardCoderとWizardMatch はWizardLM をベースとしており、知識の幅と広さの点で微調整に使用される命令データセットを拡張します。実験では、WizardCoder は HumanEval で ChatGPT よりもパフォーマンスが優れており、19.1% 向上していることが示されています。 WizardMath は、ChatGPT と比較して GSM8K で 42.9% の改善も達成しました。

Lemur は、エージェント関連のタスクにおける優れたパフォーマンスに加えて、プログラミングや数学の問題の解決などのロジックベースのタスクにおけるパフォーマンスも大幅に向上しました。一方、Lemur-70B は、タスク固有の微調整を行わなくても、HumanEval および GSM8K で ChatGPT を大幅に上回ります。さらに、 Phi は事前トレーニングの主なデータとして高品質の教科書コーパスを使用しているため、より小規模な言語モデルでも強力な機能を実現できます。結果から、13億個のパラメータしかないPhi-1は、ChatGPTと比較してHumanEvalで約3%のパフォーマンス向上を達成しました。

3. 長いテキスト機能のモデリング

Llama-2-long は、 16k のコンテキストウィンドウを使用して Llama-2 の継続的なトレーニングを実行します。その中で、 Llama-2-long-chat-70B はZeroSCROLLS で 37.7 のパフォーマンスを発揮し、ChatGPT-16k の 36.7 よりも優れています。長いテキストタスクを処理するには、一般的に 2 つのアプローチがあります。(1) 位置補間によってコンテキストウィンドウを拡張する方法 (これには、より長いコンテキストウィンドウでの微調整の別のラウンドが含まれます)、および (2) 検索拡張 (これには、関連情報を見つけるためにリトリーバーにアクセスする必要があります) です。これら2つの一見相反する技術を組み合わせることで、Llama2-70B-32k-ret [1]は、7つの長いテキストタスク（ZeroSCROLLSの4つのデータセットを含む）で平均してChatGPT-16kを上回りました。

4. その他の特定分野における応用能力

（１）クエリに焦点を当てた要約：[2]は、微調整トレーニングがChatGPTよりも優れたパフォーマンスを発揮することを発見した。 CovidET、NEWTS、QMSum、SQuALITYなどのデータセットでは、このタイプの方法により、ChatGPTと比較してROUGE-1が平均2ポイント向上します。

（2）オープンドメイン質問応答：InstructRetroは、NQ、TriviaQA、SQuAD 2.0、DROPデータセットでGPT-3よりも優れたパフォーマンスを示します。同様のパラメータサイズを持つ独自の GPT-instruct モデルと比較すると、InstructRetro は、さまざまな短いテキストと長いテキストのオープンドメインの質問応答データセットで 7 ～ 10% のリードを実現します。

（３）ヘルスケア：メンタルヘルスの面では、 MentalLlama-chat-13BはIMHIトレーニングセットに基づいてLlama-chat-13Bモデルを微調整しました。ゼロショットプロンプトでは、MentalLlama-chat-13B モデルは IMHI の 10 個のタスクのうち 9 個で ChatGPT よりも優れたパフォーマンスを発揮します。 Radiology-Llama-2モデルは、放射線レポートに基づいて Llama を微調整し、MIMIC-CXR および OpenI データセットで ChatGPT や GPT-4 よりもはるかに優れたパフォーマンスを発揮します。

（４）構造化データに基づく生成：Struc-Benchは、構造化された生成データに基づいてLlama-7Bモデルを微調整します。微調整された 7B モデルは、ベンチマークで ChatGPT を上回ります。

（５）レビュー生成：Shepherdは、コミュニティが収集したレビューデータと1,317件の高品質な手動注釈データに基づいてLlama-7B上で微調整されています。 GPT-4 を評価ツールとして使用した場合、Shepherd は 60% 以上のケースで ChatGPT を上回るか同等のパフォーマンスを発揮します。人間を評価者として用いる場合、Shepherd は ChatGPT とほぼ同等です。

5. 信頼できるAIに向けて

LLM を実際のアプリケーションで使用できるようにするには、信頼性が重要です。 LLM が幻覚や安全でないコンテンツを生成するのではないかという懸念は、LLM に対するユーザーの信頼を低下させ、大きな潜在的リスクをもたらすことになります。

（１）幻覚：微調整中にデータの精度と関連性を向上させることで、モデル幻覚の発生を減らすことができます。 Platypus は、STEM 分野の高品質データのコンテンツフィルタリングされたデータセットを収集し、このデータセットに基づく一連の LLM で微調整を行い、最終的に TruthfulQA 上の ChatGPT よりも大幅な改善 (約 20%) を示しました。推論段階でモデルの幻覚を減らすための既存の技術には、主に3つのタイプがあります：(1)特定のデコード戦略（Chain-of-Verification）、(2)外部知識強化（Chain-of-Knowledge（CoK）、LLM-AUGMENTER、Knowledge Solver、CRITIC、Parametric Knowledge Guiding（PKG）など）、(3)マルチエージェント対話（[3]、[4]）。これらの推論技術により、ChatGPT のみを使用する一般的なプロンプト戦略と比較して、回答の精度が向上します。現在、ChatGPT は、幻覚を軽減するために外部知識にアクセスするための検索プラグイン (OpenAI、2023a) もリリースしています。

（２）セキュリティ：既存の評価結果によると、ChatGPTとGPT-4モデルは依然としてセキュリティ評価の面で優位な地位にある。これは主に、人間からのフィードバックによる強化学習 (RLHF) によるものです。 RLHF では、大量の高価な人手による注釈の収集が必要であり、オープンソースの大規模モデルでの使用が妨げられています。現在、RLHF のコストを大幅に削減するために、人間のフィードバックを AI フィードバックに置き換える (RLAIF) や直接選好最適化 (DPO) などの方法が提案されています。これらのアプローチを組み合わせて改善することで、オープンソース LLM のセキュリティが向上する可能性があります。

III. 結論

1. 大型モデルの開発動向

GPT-3 の登場以来、研究者は LLM の開発を促進するために多くの作業を行ってきました。重要な研究方向の 1 つは、モデルのパラメータの数を増やすことです (Gopher、MT-NLG、PaLM など)。これらの大規模モデルは強力な機能を備えていますが、クローズドソースであるため、広範囲にわたる適用も制限されます。そのため、OPT や BLOOM などのオープンソースの大規模言語モデルの開発に重点を置く作業も始まっています。同時に、より小さなモデル（Chinchilla や UL2 など）を事前トレーニングする方法や、命令の調整（Flan-T5 など）を調査することも重要な研究方向です。

1年前のChatGPTの出現により、NLPコミュニティの研究の焦点は大きく変わりました。 OpenAIに追いつくために、GoogleとAnthropicはそれぞれBardとClaudeを開発しました。多くのタスクで ChatGPT と同様のパフォーマンスを達成できますが、OpenAI の最新モデル GPT-4 との間にはまだ若干のギャップがあります。そして、これらのモデルの成功は主に人間によるフィードバックによる強化学習 (RLHF) によるものであるため、研究者は RLHF を改善するためのさまざまな方法も模索してきました。

オープンソースの LLM 研究を促進するために、Meta は Llama シリーズのモデルをリリースしました。それ以来、Llama をベースにしたオープンソースモデルが爆発的に登場し始めました。代表的な研究方向は、Alpaca、Vicuna、Lima、WizardLM などの指示データを使用して Llama を微調整することです。研究者らは、ラマベースのインテリジェントエージェント、論理的推論、および長期コンテキストモデリング機能についても調査しました。さらに、Llama をベースにした LLM の開発とは異なり、MPT、Falcon、XGen、Phi、Baichuan、Mistral、Grok、Yi など、LLM をゼロからトレーニングすることに特化した作業も数多くあります。より強力で効率的なオープンソース LLM を開発することが、将来的に非常に有望な方向性になると信じています。

2. より優れたオープンソースのビッグモデルを作成するにはどうすればよいでしょうか?

詳細な頭部モデリングの実践方法は秘密にされることが多いですが、コミュニティで一般的に認められているベストプラクティスをいくつか紹介します。

（１）データ：事前トレーニングには、公開されているソースからの何兆ものトークンの使用が含まれます。対照的に、微調整データは量は少ないですが、質は高くなります。高品質のデータで微調整された LLM は、特に専門分野において一定のパフォーマンス向上を実現できます。

（２）モデルアーキテクチャ：ほとんどのLLMはデコーダーのみのTransformerアーキテクチャを使用していますが、多くのモデルは結果を最適化するためにさまざまな手法も使用しています。たとえば、Llama-2 は Ghost attention を使用して複数ラウンドのダイアログ制御機能を改善し、Mistral はスライディングウィンドウ attention を使用してより長いコンテキスト長を処理します。

（３）トレーニング：指示調整データを用いた教師あり微調整（SFT）のプロセスが重要である。 27,540 個のアノテーションを使用する Llama-2 のように、数万個の SFT アノテーションがあれば、高品質の結果を生成するのに十分です。このデータの多様性と品質は非常に重要です。 RLHF ステージでは、モデルの動作を人間の好みや指示の遵守とよりよく一致させるために、近似ポリシー最適化 (PPO) が推奨されるアルゴリズムであることが多く、これは LLM の安全性を高める上で重要な役割を果たします。直接選好最適化 (DPO) は PPO の代替として使用できます。たとえば、Zephyr-7B は DPO を使用しており、さまざまな従来のベンチマークで 70B-LLM と同等の結果を示し、AlpacaEval では ChatGPT を上回ります。

3. 脆弱性と潜在的な問題

（１）事前学習中のデータ汚染：データ汚染問題の根本的な原因は、ベンチマークデータのソースが事前学習コーパスにすでに含まれていることである。したがって、LLM の事前トレーニングコーパスの検出、既存のベンチマークと広く使用されている事前トレーニングコーパスの重複の調査、ベンチマークへの過剰適合の評価などの課題に対処することが重要です。これらの取り組みは、LLM の忠実度と信頼性を向上させるために不可欠です。将来的には、事前トレーニングコーパスの詳細を公開するための標準化されたプラクティスを確立し、モデル開発ライフサイクル中にデータ汚染の問題を軽減する方法を開発する必要があります。

（２）クローズドアラインメント開発：一般化された嗜好データに対する人間からのフィードバックによる強化学習（RLHF）は、コミュニティ内でますます注目を集めています。ただし、アライメントに RLHF を使用するオープンソース LLM はごくわずかです。主な理由は、高品質で公開されている嗜好データセットと事前トレーニング済みの報酬モデルが不足していることです。私たちは、複雑な推論、プログラミング、セキュリティのシナリオにおいて、多様で高品質かつスケーラブルな嗜好データが不足しているという課題に依然として直面しています。

（３）基本機能の継続的な改善の難しさ：この記事で述べた基本機能のブレークスルーを検討すると、いくつかの困難な状況が明らかになります。1. より強力な基本モデルを構築するためのバランスと堅牢性を向上させるために、事前トレーニング中のデータ混合を改善する方法の探求に多くの労力が費やされてきました。しかし、関連する探査コストを考えると、このアプローチは非現実的であることが多いです。 2. ChatGPT や GPT-4 を超えるモデルは、主にクローズドソースモデルからの知識の抽出と追加の専門家の注釈に基づいています。効率的ではありますが、知識の蒸留に過度に依存すると、提案されたアプローチを教師モデルに拡張する際に、その有効性に関する根本的な問題が隠れてしまう可能性があります。さらに、LLM はインテリジェントエージェントとして機能し、意思決定をサポートするためにもっともらしい説明を提供することが期待されていますが、LLM を実際のシナリオに適用できるようにするには、エージェントタスクの形式でデータに注釈を付ける作業にコストと時間がかかります。本質的に、モデルの継続的な改善は、知識の蒸留や専門家の注釈の最適化だけでは達成できず、上限がある可能性があります。将来の研究の方向性としては、LLM の基盤となる機能を継続的に改善しながら、関連するコストを軽減するために、教師なし学習や自己教師学習のパラダイムなどの新しい方法論を探求することが含まれる可能性があります。

IV. 結論

ChatGPT のリリース 1 周年を記念して、本稿では高性能なオープンソース LLM の体系的な調査を実施します。結果は、多くの大規模なオープンソースモデルが特定の分野で ChatGPT に追いついたり、それを上回ったりしていることを示しています。さらに、オープンソース LLM の潜在的な問題についての洞察、分析、および議論を提供します。この調査は、オープンソース LLM の有望な方向性についての洞察を提供し、この分野でのさらなる研究開発を刺激し、有料のクローズドソースモデルとのギャップを埋めるのに役立つと信じています。

<<: DAMOアカデミーのAI研究により、初めて大規模な膵臓がんの早期スクリーニングが可能に

>>: SDXL TurboやLCMが次々とリリースされ、AI描画はリアルタイム生成の時代に入り、入力が速いほど描画も速くなります。