数学的能力はChatGPTを超え、700億のオープンソース大規模モデルが人気:AIを使用してAIを微調整、Microsoftの中国人チームが制作

数学的能力はChatGPTを超え、700億のオープンソース大規模モデルが人気:AIを使用してAIを微調整、Microsoftの中国人チームが制作

AI生成の指示を使用してAlpacaモデルを微調整すると、数学的能力はChatGPTを超える——

Microsoft の最新のオープン ソース ビッグ モデル WizardMath が登場しました。

下の図に示すように、GSM8k データセットをテストした結果、WizardMath の数学的能力は ChatGPT、Claude Instant 1、PaLM 2-540B などの多数の大規模モデルを直接上回りました。

そして、パラメータの数はわずか 700 億で、後者の 3 つよりもはるかに少ないです。

HuggingFace は、オンラインでプレイ可能な 3 つのバージョン (それぞれ 7B、13B、70B のパラメータ) をリリースしており、さまざまな数学の問題を直接投入して試すことができます。

たとえば、次の 4 次多項式方程式を解きます。

あるいは簡単な計算:

あるいは、ラグランジュ方程式を少し修正した導出は次のようになります。

すべて正しいです(プロセスにそれほど時間がかかりません)

一部のネットユーザーは著者にこう語った。

結果は本当に素晴らしいです。オープンソース LLM に貢献していただきありがとうございます。

現在、関連するコードや再現方法、論文などもオープンソース化またはオンライン化されており、GitHubではわずか数日間で4.8kのスターを獲得しています。

それで、WizardMath はどうやってそれを実現するのでしょうか?

AI生成の指示で大規模モデルの機能を強化

OpenAI の大規模モデル (InstructGPT、GPT-4 など) は、実際の人間のユーザーによって生成されたオープンドメインの指示データを使用して微調整されたこともあり、さまざまな複雑で多様なタスクの実行に大きな成功を収めています。

しかし、この会社のように誰もがこのような指示データセットにアクセスできるわけではありません。

まず、注釈付けプロセス全体は非常にコストがかかり、時間がかかります。また、難易度の高い指示を十分な割合で手動で作成することは困難です。

そのため、比較的低コストで大規模なオープンドメイン命令自動生成方法の開発が、現在の命令チューニング言語モデルの鍵となっている。

ここで、著者らは自分たちの方法を Evol Instruction と名付けました。

これは、人間に代わって AI を使用し、さまざまな難易度レベルをカバーするオープンドメインの指示を自動的に生成する新しいアプローチです。

具体的には、Evol 命令は命令進化器と命令削除器に分かれています。

命令進化器は、深い進化 (青い線) または広い進化 (赤い線) の 2 つのパスを通じて、単純な命令をより複雑な命令にアップグレードしたり、まったく新しい命令を作成したりできます。

具体的にどれを実装すべきでしょうか?ランダムに選択してください。

その中で、ディープ進化の具体的な「進化方法」は、以下の5種類の操作を通じて完成されます。

制約を追加し、深め具体化し、推論ステップを増やし、入力を複雑にします

すべての指示は AI によって完了されるため、エラーが発生する場合があります。したがって、失敗した命令を除外するために命令エリミネータが使用されます。

以下は具体的な例です。この方法は「1+1=?」から始まり、最終的には上記の手順を経てかなりの数の新しい命令を自動的に生成します。

この生成プロセスを繰り返すことで、最終的に十分な数の命令を取得し、それらをマージしてランダムにシャッフルし、難易度が均一に分布した命令セットを形成して、基本的な大規模モデルを微調整できるようになります。

ここで、著者らは、Alpaca のトレーニング データ (手動で作成された 175 個のシード命令のみで生成) を初期データセットとして選択し、ChatGPT の API を使用して 4 回の進化サイクルを実行し、最終的に 250,000 個の命令を取得しました。

Vicuna の 7 万の実際のユーザー データ (ShareGPT) と公平に比較​​するために、著者らはこれらの 25 万のデータから同量のサンプルを抽出し、LLaMA 7B モデルをトレーニングして、最終的に WizardLM を取得しました。結果は、WizardLM が Vicuna よりも大幅に優れたパフォーマンスを示したことを示しました。

(アルパカ: LLaMa-7B に基づくスタンフォードの微調整モデル、ビクーナ: LLaMa-13B に基づくカリフォルニア大学バークレー校の微調整モデル)

さらに、より複雑なテスト命令の場合、人間は ChatGPT よりも WizardLM の出力を好みます。これは、この方法により LLM の複雑な命令を処理する能力が大幅に向上することを示しています。

これを基に、著者はEvol Instructionを使用して数学分野に関連する多くの命令を生成し、その後アルパカモデルを微調整してWizardMathを取得しました。

結果は冒頭に示した通りです。GSM8kデータセットで測定されたその数学的能力は、ChatGPT、Claude Instant 1、PaLM 2-540Bなど、多くの大規模モデルを上回り、5400億のパラメータを持つGPT-4、Claud1.3と2.0、Flan-PaLM 2に次ぐ5位にランクされています。

類推により、筆者はアルパカに加えてコーディングスキルに特化したWizardCoderも取得し、その効果はClaudeやBardを上回りました(詳細は記事末尾のアドレスをクリックしてください)。

チームについて

この記事には 9 人の著者がいますが、全員が中国人です。

第一著者は3名です。

Can Xu 氏は、Microsoft Asia Internet Engineering Institute の S+D NLP グループの上級応用科学者です。以前は、Microsoft XiaoIce Research Group および Microsoft Asia Research Institute でチャットボット システムに携わっていました。

Microsoft Research の科学者であるQingfeng Sun は、自然言語処理と情報検索に重点を置いています。彼は効率的な検索システムの構築に精通しており、Microsoft Bing と Office 365 にコア ディープ モデルを提供してきました。

Kai Zheng は、Microsoft Research の科学者です。彼の研究対象は、自然言語処理、検索、推奨ランキングなどです。また、Microsoft Bing と Office 365 のコア ディープ モデルにも貢献しています。

責任著者は、マイクロソフトのグローバルパートナー、副社長、元マイクロソフトリサーチアジアの主任科学者である江大新氏です。同氏はマイクロソフトで16年以上勤務し、かつてはマイクロソフトのBing検索エンジンやCortanaスマートアシスタントの自然言語理解部門の責任者を務めていました。同氏が大手モデル事業を立ち上げるために辞職したことが最近明らかになりました。

もう一人の著者は北京大学の学生である Jiazhan Feng です。この共著論文は、彼が Microsoft でインターンシップをしていたときに作成されました。

プロジェクトのホームページ: https://github.com/nlpxucan/WizardLM/tree/main/WizardMath。

論文アドレス: https://arxiv.org/abs/2304.12244 (WizardLM) https://arxiv.org/abs/2306.08568 (WizardCoder)。

<<:  年間5億ドルの損失で、OpenAIは2024年に破産するのでしょうか?アルタマン、GPU不足を明らかに、優秀な人材が退社

>>:  AIツール:音楽から生成される画像の未来を探り、

ブログ    
ブログ    

推薦する

...

プリンストン DeepMind は数学を使用して、LLM はランダムなオウムではないことを証明します。 「規模が大きいほど能力が強くなる」には理論的根拠がある

今日の物語の主人公は、サンジーヴ・アローラとアニルド・ゴヤルという二人の科学者です。アローラ氏はプリ...

成功するビジネス インテリジェンス戦略を開発する方法

ビジネス インテリジェンス戦略の策定は、企業が検討する必要がある重要なステップであり、ビジネス イン...

女性の労働はAIに置き換えられやすいのか?

最近の多くの研究では、主に人工知能や自動化における技術の進歩が、男性よりも女性の雇用に大きな影響を与...

[GPT-4理論] GPT-4のコア技術を探る

序文GPT-4はリリースされてからしばらく経ちますが、セキュリティなどのさまざまな理由から、Open...

識別的か生成的か: どちらが視覚的理解の未来を表すのでしょうか?

これまで、視覚システムに関する基本的な研究の多くは、動物に画像を見せ、そのニューロンの反応を測定し、...

ジオメトリテクスチャ再構築における新しい SOTA!浙江大学がSIFUを提案:一枚の画像で高品質の3D人体モデルを再構築可能

AR、VR、3Dプリント、シーン構築、映画制作など多くの分野において、衣服を着た人体の高品質な3Dモ...

「アルゴリズムの構成」は「ブラックボックス」を明らかにする:アルゴリズムは数学に関するものだが、人間に関するものである

アルゴリズムは私たちの生活の中でますます一般的なものになってきています。しかし、アルゴリズムに関する...

OpenAIが数学定理推論モデルGPT-fを初めてリリース、23の導出結果が専門データベースに収録

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

星が輝くとき - WOT グローバル テクノロジー イノベーション カンファレンス 2021 が間もなく開催されます

【51CTO.comオリジナル記事】​​​ 100年前、シュテファン・ツヴァイクは彼の有名な著作「星...

...

製造業者はデジタルツインをどのように活用して生産性を向上できるでしょうか?

メーカーは、競争上の優位性を獲得し、コストを削減し、顧客によりカスタマイズされた体験を提供するために...

世界主要7カ国のAI戦略を総ざらい

21 世紀が近づくにつれ、各国の成功または失敗はもはや国民と政府指導者だけに依存するものではなくなり...

2018 年に注目すべき 10 個の機械学習ツール

[[215148]] [51CTO.com クイック翻訳] 2017年は機械学習が輝いた年でした。多...

生産効率の向上以外に、AI テクノロジーは製造業に何をもたらすのでしょうか?

現代科学技術の発展は製造業の変革と向上に新たな活力をもたらしており、人工知能技術もその一つです。 [...