「模倣学習」とは、決まり文句を使うことだけでしょうか?説明: 微調整 + 130億のパラメータ Orca: 推論能力はChatGPTに匹敵

ChatGPT APIが公開されて以来、多くの研究でChatGPTやGPT-4などの大規模基本モデル（LFM）の出力をトレーニングデータとして使用し、模倣学習を通じて小規模モデルの機能を向上させることが選択されています。

しかし、表面的な模倣信号、不十分なトレーニングデータ、厳密な評価基準の欠如などの問題により、小規模モデルの実際のパフォーマンスは過大評価されています。

パフォーマンスの点では、小規模モデルは推論プロセスではなく LFM の出力スタイルを模倣する傾向があります。

論文リンク: https://arxiv.org/pdf/2306.02707.pdf

これらの課題に対処するため、Microsoft は最近、LFM の推論プロセスを模倣することを学習できる 130 億パラメータの Orca モデルを提案する 51 ページの論文を発表しました。

研究者らは、大規模モデル向けに豊富なトレーニング信号を設計し、OrcaがGPT-4から説明の痕跡、段階的な思考プロセス、複雑な指示などを学習し、ChatGPTの教師による支援と指導を受けられるようにしました。また、大規模で多様な模倣データをサンプリングして選択的にマイニングすることで、増分学習効果をさらに向上させることができます。

実験的評価では、Orca は他の SOTA 命令微調整モデルを上回り、BigBench Hard (BBH) などの複雑なゼロショット推論ベンチマークで Vicuna-13B の 2 倍のパフォーマンスを達成し、AGIEval では 42% のパフォーマンス向上を達成しました。

さらに、Orca は BBH ベンチマークで ChatGPT と同等の結果を達成し、SAT、LSAT、GRE、GMAT などの専門試験や学術試験でわずか 4% のパフォーマンスギャップしかなく、これらはすべて思考連鎖のないゼロショット設定で測定されています。

調査結果は、モデルが段階的な説明から学習するようにすることが、その説明が人間によって作成されたものであろうと、より高度な AI モデルによって作成されたものであろうと、モデルの機能とスキルを向上させるための有望な研究方向であることを示唆しています。

説明チューニング

データセットの構築

トレーニングデータでは、各インスタンスは、システムメッセージ、ユーザークエリ、LFM 応答の 3 つの部分で構成されます。

システムメッセージはプロンプトの先頭に配置され、LFM に基本的なコンテキスト、ガイダンス、およびその他の関連する詳細を提供します。

システムメッセージを使用して、応答の長さを変えたり、AI アシスタントの性格を説明したり、許容される LFM 動作と許容されない LFM 動作を確立したり、AI モデルの応答の構造を決定したりできます。

研究者たちは、LFM に対するさまざまな種類の応答を設計するために 16 個のシステムメッセージを手作業で作成しました。これらの応答は、創造的なコンテンツを生成したり、情報クエリを解決したりできるだけでなく、最も重要な点として、プロンプトに基づいて説明と段階的な推論を含む回答を生成できることです。

ユーザークエリは、 LFM で実行する実際のタスクを定義します。

研究者らは、多様なユーザークエリを大量に取得するために、FLAN-v2コレクションを使用し、500万のユーザークエリ（FLAN-5M）を抽出し、ChatGPTの応答を収集しました。その後、500万の命令からさらに100万の命令（FLAN-1M）を抽出し、GPT-4の応答を収集しました。

FLAN-v2 コレクションは、CoT、NiV2、T0、Flan 2021、Dialogue の 5 つのサブセットで構成され、各サブセットには複数のタスクが含まれており、各タスクはクエリのコレクションです。

各サブセットは複数の学術データセットに関連しており、各データセットには 1 つ以上のタスクがあり、主にゼロショットクエリと少数ショットクエリに重点が置かれています。

この研究では、研究者はOrcaのトレーニングのためにゼロショットクエリのみをサンプリングし、Dialogueサブセットからはサンプリングしませんでした。これらのクエリにはコンテキストが欠けていることが多く、ChatGPTから有用な応答を引き出すことができないためです。

ChatGPTをティーチングアシスタントとして活用しましょう

Orca は最初に FLAN-5M データ (ChatGPT 拡張) でトレーニングされ、その後、第 2 フェーズとして FLAN-1M (GPT-4 拡張) でトレーニングされます。

ChatGPT を中級教師アシスタントとして使用する主な理由は 2 つあります。

1. 能力ギャップ

GPT-4のパラメータ数は非公開ですが、130億のパラメータを持つOrcaは確かにGPT-4より何倍も小さく、ChatGPTとOrcaの能力差も小さいため中級教師としてより適しており、このアプローチは知識蒸留におけるより小さな学生モデルの模倣学習パフォーマンスを向上させることが示されています。

このアプローチは、漸進的学習またはカリキュラム学習の一形態と見ることもできます。この学習では、長い応答は短い応答よりも模倣が難しいと想定して、生徒は最初に簡単な例から学習し、次に難しい例に進みます。また、より大きな教師モデルから推論能力と段階的な説明能力を向上させることができます。

2. コストと時間

Azure OpenAI API からの大規模なデータ収集には、過剰なトラフィックを防ぐための 1 分あたりのリクエストのレート制限、サービス待機時間の問題により 1 分あたりに利用できるトークンの数が制限される、プロンプトの長さとトークンの完了にかかる金銭的コストなど、いくつかの制限があります。

比較すると、ChatGPT API は GPT-4 エンドポイントよりも高速で安価であるため、ChatGPT からは GPT-4 よりも 5 倍多くのデータが収集されます。

異なるシステムメッセージに対応する ChatGPT と GPT-4 の応答長の分布から、GPT-4 の応答は ChatGPT よりも平均で 1.5 倍長く、Orca が教師の説明の複雑さから徐々に学習できることがわかり、アブレーション実験を通じて教師の支援の影響が実証されています。

電車

単語分割の段階では、研究者らは LLaMA のバイトペアエンコーディング (BPE) 単語分割器を使用して入力サンプルを処理し、複数桁の数字を複数の 1 桁の数字に分割し、バイトに戻して未知の UTF-8 文字を分解しました。

可変長シーケンスを処理するために、フィラーワード [[PAD]] が LLaMA トークナイザーの語彙に導入されました。最終的な語彙には 32,001 個のトークンが含まれています。

トレーニングプロセスを最適化し、利用可能なコンピューティングリソースを効果的に活用するために、研究者はモデルをトレーニングする前に、パッキングテクノロジを使用して複数の入力インスタンスをシーケンスに連結しました。

パッキングプロセス中、連結されたシーケンスの合計長はmax_len=2048トークンを超えません。入力サンプルはランダムにシャッフルされ、いくつかのグループに分割されます。各連結シーケンスの長さは最大でmax_lenです。

トレーニングデータ内の拡張命令の長さ分布を考慮すると、各シーケンスのパッキング係数は2.7である。

Orca をトレーニングするために、研究者は教師モデルによって生成されたトークンの損失のみを計算することを選択しました。つまり、システム情報とタスクの指示に基づいて応答を生成するように学習することで、モデルは最も関連性が高く有益なトークンからの学習に重点を置くようになり、トレーニングプロセスの全体的な効率と有効性が向上します。

最後に、Orca は 80 GB のメモリを搭載した 20 個の NVIDIA A100 GPU でトレーニングされました。最初に FLAN-5M (ChatGPT 拡張) で 4 エポックトレーニングされ、これには 160 時間かかりました。その後、FLAN-1M (GPT-4 拡張) でさらに 4 エポックトレーニングされました。

トラフィック制限、端末負荷、返信の長さなどの理由により、GPT-3.5-turbo (ChatGPT) と GPT-4 では、複数の端末からデータを収集するのにそれぞれ 2 週間と 3 週間かかりました。

実験セクション

研究者たちは主にオルカの推論能力を検証した。

AGIEval 実験では、Orca のパフォーマンスは Text-da-Vinci-003 と同等で、ChatGPT のパフォーマンスの 88% を達成していますが、GPT-4 より大幅に遅れていることがわかります。

分析および推論タスクの場合、Vicuna のパフォーマンスは大幅に低下し、ChatGPT の品質の 62% しか保持していません。これは、このオープンソース言語モデルの推論能力が貧弱であることを示しています。

Orca のパフォーマンスは Text-da-Vinci-003 と同等ですが、それでも ChatGPT より 5 ポイント低く、数学関連のタスク (SAT、GRE、GMAT) では Orca の方が ChatGPT よりもはるかに優れています。

オルカはビクーナと比較して優れたパフォーマンスを示し、平均相対改善率が 42% で、すべてのカテゴリーでビクーナを上回りました。

GPT-4 は他のすべてのモデルを大幅に上回るパフォーマンスを発揮しますが、このベンチマークではまだ改善の余地が大きく、現時点ではすべてのモデルのパフォーマンスが人間のスコアを大幅に下回っています。

Orca のパフォーマンスはシステムメッセージの種類によって大きく異なり、トレーニング済みのモデルの場合、空のシステムメッセージは適切に機能する傾向があります。

Orca は、さまざまなタスクからの 325 のサンプルで ChatGPT を上回ります (Orca-beats-ChatGPT の例)。そのほとんどは LogiQA (29%) からのものですが、その他の LSAT タスクと SAT-English タスクはそれぞれ 10% 未満を占めています。

Big-Bench Hard Results データセットの推論評価結果によると、Orca はすべてのタスクの全体的なパフォーマンスの点で ChatGPT よりわずかに優れていますが、GPT-4 より大幅に劣っており、Vicuna より 113% 高いことがわかります。

<<: 18のAIリーディングカンパニー、大学、研究機関が共同で初のAIフレームワークエコシステムイニシアチブを発表

>>: LeCun はもう一つの有名な引用を残しました: ChatGPT?犬ほども良くない！それは言語モデルによって供給されるだけである

AI はあらゆる人間の声を再現できます。これはポッドキャストにとって何を意味するのでしょうか?

「模倣学習」とは、決まり文句を使うことだけでしょうか?説明: 微調整 + 130億のパラメータ Orca: 推論能力はChatGPTに匹敵

説明チューニング

実験セクション

AI はあらゆる人間の声を再現できます。これはポッドキャストにとって何を意味するのでしょうか?

インタビュー必須：バックトラッキングアルゴリズムの詳細な説明

調査によると、米国の公共部門のIT意思決定者の70%にとってAIは「ミッションクリティカル」

ドローンはサメに対する私たちの考え方を変えている、と研究で判明

2020年の世界コンサルティング会社の新ランキング：AI時代の新たな課題

検索意味モデルの大規模定量化実践

初心者にも優しい！楽しくて簡単に始められる AI プロジェクト 10 選 (Python ソースコード付き)

リアルスティールの実写版！山東省の3人組のチームが、最小遅延12ミリ秒の史上最速ボクシングロボットを開発した。

推薦する

CLImF アルゴリズムを使用して推奨システムを設計する方法

Java プログラミングスキル - データ構造とアルゴリズム「ツリー」

データ構造とアルゴリズムソート - 理解できないなら、私に相談してください

5G時代、移動ロボットは知能でどのように勝利できるのでしょうか?

因果関係に着想を得た解釈可能なフレームワーク：大規模モデルを説明する効率的な方法

マスク氏は突然、xAI の「奇妙な」モデルを公開し、ユーモアのセンスを見せつけた。 ChatGPTのメジャーアップデートが事前にリークされる

ビッグデータとAIの連携

Google の最新のオープンソース Gemma モデルが Llma-2 を数秒で上回りました。

火山エンジンは大型モデル用の大きなベースを作ります! MiniMax、Zhipu AIなどが上陸

2021年の世界人工知能産業の市場規模と投資・資金調達状況を分析人工知能は今後スパイラル状に発展する