数学的能力はChatGPTを超え、700億のオープンソース大規模モデルが人気：AIを使用してAIを微調整、Microsoftの中国人チームが制作

AI生成の指示を使用してAlpacaモデルを微調整すると、数学的能力はChatGPTを超える——

Microsoft の最新のオープンソースビッグモデル WizardMath が登場しました。

下の図に示すように、GSM8k データセットをテストした結果、WizardMath の数学的能力は ChatGPT、Claude Instant 1、PaLM 2-540B などの多数の大規模モデルを直接上回りました。

そして、パラメータの数はわずか 700 億で、後者の 3 つよりもはるかに少ないです。

HuggingFace は、オンラインでプレイ可能な 3 つのバージョン (それぞれ 7B、13B、70B のパラメータ) をリリースしており、さまざまな数学の問題を直接投入して試すことができます。

たとえば、次の 4 次多項式方程式を解きます。

あるいは簡単な計算:

あるいは、ラグランジュ方程式を少し修正した導出は次のようになります。

すべて正しいです（プロセスにそれほど時間がかかりません）。

一部のネットユーザーは著者にこう語った。

結果は本当に素晴らしいです。オープンソース LLM に貢献していただきありがとうございます。

現在、関連するコードや再現方法、論文などもオープンソース化またはオンライン化されており、GitHubではわずか数日間で4.8kのスターを獲得しています。

それで、WizardMath はどうやってそれを実現するのでしょうか?

AI生成の指示で大規模モデルの機能を強化

OpenAI の大規模モデル (InstructGPT、GPT-4 など) は、実際の人間のユーザーによって生成されたオープンドメインの指示データを使用して微調整されたこともあり、さまざまな複雑で多様なタスクの実行に大きな成功を収めています。

しかし、この会社のように誰もがこのような指示データセットにアクセスできるわけではありません。

まず、注釈付けプロセス全体は非常にコストがかかり、時間がかかります。また、難易度の高い指示を十分な割合で手動で作成することは困難です。

そのため、比較的低コストで大規模なオープンドメイン命令自動生成方法の開発が、現在の命令チューニング言語モデルの鍵となっている。

ここで、著者らは自分たちの方法を Evol Instruction と名付けました。

これは、人間に代わって AI を使用し、さまざまな難易度レベルをカバーするオープンドメインの指示を自動的に生成する新しいアプローチです。

具体的には、Evol 命令は命令進化器と命令削除器に分かれています。

命令進化器は、深い進化 (青い線) または広い進化 (赤い線) の 2 つのパスを通じて、単純な命令をより複雑な命令にアップグレードしたり、まったく新しい命令を作成したりできます。

具体的にどれを実装すべきでしょうか?ランダムに選択してください。

その中で、ディープ進化の具体的な「進化方法」は、以下の5種類の操作を通じて完成されます。

制約を追加し、深め、具体化し、推論ステップを増やし、入力を複雑にします。

すべての指示は AI によって完了されるため、エラーが発生する場合があります。したがって、失敗した命令を除外するために命令エリミネータが使用されます。

以下は具体的な例です。この方法は「1+1=?」から始まり、最終的には上記の手順を経てかなりの数の新しい命令を自動的に生成します。

この生成プロセスを繰り返すことで、最終的に十分な数の命令を取得し、それらをマージしてランダムにシャッフルし、難易度が均一に分布した命令セットを形成して、基本的な大規模モデルを微調整できるようになります。

ここで、著者らは、Alpaca のトレーニングデータ (手動で作成された 175 個のシード命令のみで生成) を初期データセットとして選択し、ChatGPT の API を使用して 4 回の進化サイクルを実行し、最終的に 250,000 個の命令を取得しました。

Vicuna の 7 万の実際のユーザーデータ (ShareGPT) と公平に比較するために、著者らはこれらの 25 万のデータから同量のサンプルを抽出し、LLaMA 7B モデルをトレーニングして、最終的に WizardLM を取得しました。結果は、WizardLM が Vicuna よりも大幅に優れたパフォーマンスを示したことを示しました。

(アルパカ: LLaMa-7B に基づくスタンフォードの微調整モデル、ビクーナ: LLaMa-13B に基づくカリフォルニア大学バークレー校の微調整モデル)

さらに、より複雑なテスト命令の場合、人間は ChatGPT よりも WizardLM の出力を好みます。これは、この方法により LLM の複雑な命令を処理する能力が大幅に向上することを示しています。

これを基に、著者はEvol Instructionを使用して数学分野に関連する多くの命令を生成し、その後アルパカモデルを微調整してWizardMathを取得しました。

結果は冒頭に示した通りです。GSM8kデータセットで測定されたその数学的能力は、ChatGPT、Claude Instant 1、PaLM 2-540Bなど、多くの大規模モデルを上回り、5400億のパラメータを持つGPT-4、Claud1.3と2.0、Flan-PaLM 2に次ぐ5位にランクされています。

類推により、筆者はアルパカに加えてコーディングスキルに特化したWizardCoderも取得し、その効果はClaudeやBardを上回りました（詳細は記事末尾のアドレスをクリックしてください）。

チームについて

この記事には 9 人の著者がいますが、全員が中国人です。

第一著者は3名です。

Can Xu 氏は、Microsoft Asia Internet Engineering Institute の S+D NLP グループの上級応用科学者です。以前は、Microsoft XiaoIce Research Group および Microsoft Asia Research Institute でチャットボットシステムに携わっていました。

Microsoft Research の科学者であるQingfeng Sun は、自然言語処理と情報検索に重点を置いています。彼は効率的な検索システムの構築に精通しており、Microsoft Bing と Office 365 にコアディープモデルを提供してきました。

Kai Zheng は、Microsoft Research の科学者です。彼の研究対象は、自然言語処理、検索、推奨ランキングなどです。また、Microsoft Bing と Office 365 のコアディープモデルにも貢献しています。

責任著者は、マイクロソフトのグローバルパートナー、副社長、元マイクロソフトリサーチアジアの主任科学者である江大新氏です。同氏はマイクロソフトで16年以上勤務し、かつてはマイクロソフトのBing検索エンジンやCortanaスマートアシスタントの自然言語理解部門の責任者を務めていました。同氏が大手モデル事業を立ち上げるために辞職したことが最近明らかになりました。

もう一人の著者は北京大学の学生である Jiazhan Feng です。この共著論文は、彼が Microsoft でインターンシップをしていたときに作成されました。

プロジェクトのホームページ: https://github.com/nlpxucan/WizardLM/tree/main/WizardMath。

論文アドレス: https://arxiv.org/abs/2304.12244 (WizardLM) https://arxiv.org/abs/2306.08568 (WizardCoder)。

<<: 年間5億ドルの損失で、OpenAIは2024年に破産するのでしょうか？アルタマン、GPU不足を明らかに、優秀な人材が退社

>>: AIツール：音楽から生成される画像の未来を探り、