ChatGPT APIが公開されて以来、多くの研究でChatGPTやGPT-4などの大規模基本モデル(LFM)の出力をトレーニングデータとして使用し、模倣学習を通じて小規模モデルの機能を向上させることが選択されています。 しかし、表面的な模倣信号、不十分なトレーニングデータ、厳密な評価基準の欠如などの問題により、小規模モデルの実際のパフォーマンスは過大評価されています。 パフォーマンスの点では、小規模モデルは推論プロセスではなく LFM の出力スタイルを模倣する傾向があります。 論文リンク: https://arxiv.org/pdf/2306.02707.pdf これらの課題に対処するため、Microsoft は最近、LFM の推論プロセスを模倣することを学習できる 130 億パラメータの Orca モデルを提案する 51 ページの論文を発表しました。 研究者らは、大規模モデル向けに豊富なトレーニング信号を設計し、OrcaがGPT-4から説明の痕跡、段階的な思考プロセス、複雑な指示などを学習し、ChatGPTの教師による支援と指導を受けられるようにしました。また、大規模で多様な模倣データをサンプリングして選択的にマイニングすることで、増分学習効果をさらに向上させることができます。 実験的評価では、Orca は他の SOTA 命令微調整モデルを上回り、BigBench Hard (BBH) などの複雑なゼロショット推論ベンチマークで Vicuna-13B の 2 倍のパフォーマンスを達成し、AGIEval では 42% のパフォーマンス向上を達成しました。 さらに、Orca は BBH ベンチマークで ChatGPT と同等の結果を達成し、SAT、LSAT、GRE、GMAT などの専門試験や学術試験でわずか 4% のパフォーマンス ギャップしかなく、これらはすべて思考連鎖のないゼロ ショット設定で測定されています。 調査結果は、モデルが段階的な説明から学習するようにすることが、その説明が人間によって作成されたものであろうと、より高度な AI モデルによって作成されたものであろうと、モデルの機能とスキルを向上させるための有望な研究方向であることを示唆しています。 説明チューニングデータセットの構築 トレーニング データでは、各インスタンスは、システム メッセージ、ユーザー クエリ、LFM 応答の 3 つの部分で構成されます。 システム メッセージはプロンプトの先頭に配置され、LFM に基本的なコンテキスト、ガイダンス、およびその他の関連する詳細を提供します。 システム メッセージを使用して、応答の長さを変えたり、AI アシスタントの性格を説明したり、許容される LFM 動作と許容されない LFM 動作を確立したり、AI モデルの応答の構造を決定したりできます。 研究者たちは、LFM に対するさまざまな種類の応答を設計するために 16 個のシステム メッセージを手作業で作成しました。これらの応答は、創造的なコンテンツを生成したり、情報クエリを解決したりできるだけでなく、最も重要な点として、プロンプトに基づいて説明と段階的な推論を含む回答を生成できることです。 ユーザー クエリは、 LFM で実行する実際のタスクを定義します。 研究者らは、多様なユーザークエリを大量に取得するために、FLAN-v2コレクションを使用し、500万のユーザークエリ(FLAN-5M)を抽出し、ChatGPTの応答を収集しました。その後、500万の命令からさらに100万の命令(FLAN-1M)を抽出し、GPT-4の応答を収集しました。 FLAN-v2 コレクションは、CoT、NiV2、T0、Flan 2021、Dialogue の 5 つのサブセットで構成され、各サブセットには複数のタスクが含まれており、各タスクはクエリのコレクションです。 各サブセットは複数の学術データセットに関連しており、各データセットには 1 つ以上のタスクがあり、主にゼロショット クエリと少数ショット クエリに重点が置かれています。 この研究では、研究者はOrcaのトレーニングのためにゼロショットクエリのみをサンプリングし、Dialogueサブセットからはサンプリングしませんでした。これらのクエリにはコンテキストが欠けていることが多く、ChatGPTから有用な応答を引き出すことができないためです。 ChatGPTをティーチングアシスタントとして活用しましょう Orca は最初に FLAN-5M データ (ChatGPT 拡張) でトレーニングされ、その後、第 2 フェーズとして FLAN-1M (GPT-4 拡張) でトレーニングされます。 ChatGPT を中級教師アシスタントとして使用する主な理由は 2 つあります。 1. 能力ギャップ GPT-4のパラメータ数は非公開ですが、130億のパラメータを持つOrcaは確かにGPT-4より何倍も小さく、ChatGPTとOrcaの能力差も小さいため中級教師としてより適しており、このアプローチは知識蒸留におけるより小さな学生モデルの模倣学習パフォーマンスを向上させることが示されています。 このアプローチは、漸進的学習またはカリキュラム学習の一形態と見ることもできます。この学習では、長い応答は短い応答よりも模倣が難しいと想定して、生徒は最初に簡単な例から学習し、次に難しい例に進みます。また、より大きな教師モデルから推論能力と段階的な説明能力を向上させることができます。 2. コストと時間 Azure OpenAI API からの大規模なデータ収集には、過剰なトラフィックを防ぐための 1 分あたりのリクエストのレート制限、サービス待機時間の問題により 1 分あたりに利用できるトークンの数が制限される、プロンプトの長さとトークンの完了にかかる金銭的コストなど、いくつかの制限があります。 比較すると、ChatGPT API は GPT-4 エンドポイントよりも高速で安価であるため、ChatGPT からは GPT-4 よりも 5 倍多くのデータが収集されます。 異なるシステムメッセージに対応する ChatGPT と GPT-4 の応答長の分布から、GPT-4 の応答は ChatGPT よりも平均で 1.5 倍長く、Orca が教師の説明の複雑さから徐々に学習できることがわかり、アブレーション実験を通じて教師の支援の影響が実証されています。 電車 単語分割の段階では、研究者らは LLaMA のバイトペアエンコーディング (BPE) 単語分割器を使用して入力サンプルを処理し、複数桁の数字を複数の 1 桁の数字に分割し、バイトに戻して未知の UTF-8 文字を分解しました。 可変長シーケンスを処理するために、フィラーワード [[PAD]] が LLaMA トークナイザーの語彙に導入されました。最終的な語彙には 32,001 個のトークンが含まれています。 トレーニング プロセスを最適化し、利用可能なコンピューティング リソースを効果的に活用するために、研究者はモデルをトレーニングする前に、パッキング テクノロジを使用して複数の入力インスタンスをシーケンスに連結しました。 パッキングプロセス中、連結されたシーケンスの合計長はmax_len=2048トークンを超えません。入力サンプルはランダムにシャッフルされ、いくつかのグループに分割されます。各連結シーケンスの長さは最大でmax_lenです。 トレーニングデータ内の拡張命令の長さ分布を考慮すると、各シーケンスのパッキング係数は2.7である。 Orca をトレーニングするために、研究者は教師モデルによって生成されたトークンの損失のみを計算することを選択しました。つまり、システム情報とタスクの指示に基づいて応答を生成するように学習することで、モデルは最も関連性が高く有益なトークンからの学習に重点を置くようになり、トレーニング プロセスの全体的な効率と有効性が向上します。 最後に、Orca は 80 GB のメモリを搭載した 20 個の NVIDIA A100 GPU でトレーニングされました。最初に FLAN-5M (ChatGPT 拡張) で 4 エポックトレーニングされ、これには 160 時間かかりました。その後、FLAN-1M (GPT-4 拡張) でさらに 4 エポックトレーニングされました。 トラフィック制限、端末負荷、返信の長さなどの理由により、GPT-3.5-turbo (ChatGPT) と GPT-4 では、複数の端末からデータを収集するのにそれぞれ 2 週間と 3 週間かかりました。 実験セクション研究者たちは主にオルカの推論能力を検証した。 AGIEval 実験では、Orca のパフォーマンスは Text-da-Vinci-003 と同等で、ChatGPT のパフォーマンスの 88% を達成していますが、GPT-4 より大幅に遅れていることがわかります。 分析および推論タスクの場合、Vicuna のパフォーマンスは大幅に低下し、ChatGPT の品質の 62% しか保持していません。これは、このオープンソース言語モデルの推論能力が貧弱であることを示しています。 Orca のパフォーマンスは Text-da-Vinci-003 と同等ですが、それでも ChatGPT より 5 ポイント低く、数学関連のタスク (SAT、GRE、GMAT) では Orca の方が ChatGPT よりもはるかに優れています。 オルカはビクーナと比較して優れたパフォーマンスを示し、平均相対改善率が 42% で、すべてのカテゴリーでビクーナを上回りました。 GPT-4 は他のすべてのモデルを大幅に上回るパフォーマンスを発揮しますが、このベンチマークではまだ改善の余地が大きく、現時点ではすべてのモデルのパフォーマンスが人間のスコアを大幅に下回っています。 Orca のパフォーマンスはシステム メッセージの種類によって大きく異なり、トレーニング済みのモデルの場合、空のシステム メッセージは適切に機能する傾向があります。 Orca は、さまざまなタスクからの 325 のサンプルで ChatGPT を上回ります (Orca-beats-ChatGPT の例)。そのほとんどは LogiQA (29%) からのものですが、その他の LSAT タスクと SAT-English タスクはそれぞれ 10% 未満を占めています。 Big-Bench Hard Results データセットの推論評価結果によると、Orca はすべてのタスクの全体的なパフォーマンスの点で ChatGPT よりわずかに優れていますが、GPT-4 より大幅に劣っており、Vicuna より 113% 高いことがわかります。 |
<<: 18のAIリーディングカンパニー、大学、研究機関が共同で初のAIフレームワークエコシステムイニシアチブを発表
>>: LeCun はもう一つの有名な引用を残しました: ChatGPT?犬ほども良くない!それは言語モデルによって供給されるだけである
数日前、多くのユーザーが GPT-4 が愚かになったと不満を述べていましたが、どれほど愚かになったの...
この記事では、コンピューター ビジョンにおけるオブジェクト検出問題を解決するときに画像データに対して...
Adobe が 2020 年 12 月 31 日をもって有名な Flash ソフトウェアのサポートを...
Facebook の研究者は最近、インターネット上のランダムなラベルなし画像のセットから学習できる新...
[[313080]]政府は、医療、輸送、防衛、国家安全保障など、多くの分野で AI とロボット工学を...
これは大問題だ! Google が大きな動きを見せました!昨日、フェイフェイ・リーとジェフ・ディーン...
この小さなロボットはエネルギーに溢れています。体は昆虫ほどの大きさですが、自分の体重の22倍の重さの...
米国では、白人警官による黒人市民に対する過剰な法執行が日常茶飯事である。最近、白人警官が黒人男性を膝...
最近、またデータベース削除事件が起こっていると聞きました。しかし、今回はこれまでとは異なります。作業...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
変化だけが唯一不変です。これはあなたのキャリアにも当てはまります。テクノロジーが急速に進化していると...
自転車が「自力で歩ける」ようになるのはいつでしょうか? [[404743]]自転車は劣駆動システムで...
10 年前、ほとんどの人は、今日では現金やカードを持ち歩かずに携帯電話だけを持って街を歩き回り、買...