67トピック、11528の質問、新しい中国の大規模モデルマルチタスクベンチマークCMMLUがリリースされました

MBZUAI、上海交通大学、Microsoft Research Asia は協力して、包括的な中国の大規模モデルベンチマークである CMMLU を完成させました。

自然科学、社会科学、工学、人文科学、常識など67のテーマを網羅し、中国語の知識蓄積と言語理解におけるビッグモデルの能力を総合的に評価できます。彼らは最新のGPT4、ChatGLM2、Baichuan-7Bを含む約20の高度な大規模モデルをテストし、ほとんどの既存モデルは50％の精度に到達するのが困難であり、ランダム精度は25％であることを発見しました。

写真

論文アドレス: https://arxiv.org/abs/2306.09212
データと評価コード: https://github.com/haonan-li/CMMLU

本論文では、中国語と文化的背景における法学修士の高度な知識と推論能力を評価するために特別に設計された、新しい包括的な中国語評価データセットである CMMLU を提案します。

CMMLU は、小学校から大学、専門レベルまで、67 の科目をカバーしています (図 1 を参照)。自然科学、人文科学、社会科学の分野の学問を網羅し、「中国の食文化」「民族学」「中国の運転ルール」など中国特有の内容を多く含んでいます。研究チームはデータを完全に公開しており、コミュニティは自由に簡単に使用して、そのモデルが中国を中心とした中国語圏の人口に適用可能かどうかを評価できます。科目の完全なリスト、各科目でテストされる概念の数、質問と回答の長さに関する統計が論文に記載されています。

写真

LLM の中国語知識処理能力をより深く理解するために、包括的な分析実験が実施されました。研究ではまず、さまざまな分野でモデルがどのように機能するかを調べました。あらゆるモデルのパフォーマンスには分野間で不均衡があり、人文科学と社会科学のスコアは比較的高く、中国特有のトピックと自然科学のスコアは低くなっています。この問題をさらに研究するために、この研究では、モデルがタスクを理解し、推論能力を向上させる上での思考の連鎖プロンプトと少数の例の有効性を調査しました。さらに、研究チームはモデルのサイズがパフォーマンスに与える影響を研究し、質問の長さと難易度の関係を分析し、既存の言語モデルではまだ効果的に対処されていない 2 つの特定の質問タイプを調査しました。

CMMLU テストベンチ

データ収集

CMMLU データセットには、67 の科目をカバーする 11,528 の質問が含まれています。各科目には少なくとも 105 問の質問があり、5 問の質問を含む少数発の開発セットと 100 問以上の質問を含むテストセットに分かれています。

データ形式

データセット内の各質問は、4 つのオプションを持つ複数選択の質問です。図 2 はプロンプトが添付された例です。数式、化学式、その他の数式表現では、LaTex とプレーンテキストを半分ずつ組み合わせて使用します。プレーンテキストは、表現が広く使用されており、あいまいさが生じにくい場合にのみ許可されます (注釈者の裁量による)。たとえば、水の化学式は、プレーンテキスト「H2O」として記述することも、LaTeX 形式「$H_{2}O$」を使用して記述することもできます。

実験

本研究では、中国語の文脈における言語理解のための既存のオープンソース LLM の概要を示すために、さまざまな規模、言語指向、段階 (事前トレーニング済みまたは微調整済み) の約 20 種類の最先端の LLM を評価し、この知識中心のベンチマークでのパフォーマンスを分析し、LLM のパフォーマンスに影響を与える可能性のあるいくつかの要因を調査します。

実験のセットアップ

この研究の目的は、事前トレーニングおよび/または微調整中に LLM によって活用される知識を評価することです。オープンソースモデルの場合、この研究では MMLU 方式に従ってプロンプト後の次のトークンの確率を取得し、A'、B'、C'、D' の中で最も確率の高いオプションをモデルの選択肢として選択します。 ChatGPT などの非オープンソースモデルの場合、生成された出力を調査し、さまざまな正規表現を使用してモデルの選択肢を抽出します。正規表現が何にも一致しない場合は、モデル間の公平な比較を行うために、A'、B'、C'、D' のいずれかを答えとしてランダムに選択します。ゼロショット（入力例なし）と少数ショット（入力例が少ない）の両方の設定で実験しました。

プロンプトワード

この研究では、各質問は「以下は[トピック]に関する複数選択の質問です。正しい回答のオプションに直接進んでください」というフレーズを使用して紹介されました。ゼロサンプル評価の場合、研究ではプロンプトの直後に質問が提示されました。少数ショット評価の場合、質問の前に最大 5 つの例と回答が提供されます。図 2 の例に示すように、プロンプトは「答えは:」というフレーズで終わります。少数の例を含むテキストの長さがモデルの最大長を超えると、最も長い（サブトークンの観点から）例が動的に削除されます。 (最新のリストについてはgithubをご覧ください)

写真

主な結果

表 1 は、5 ショット設定におけるいくつかのモデルのパフォーマンスを示しています。 GPT4 は精度が 70.95% で、総合的なパフォーマンスが最も優れたモデルであることがわかります。中国固有の LLM の中では、ChatGLM2-6B はモデルサイズが最も小さいにもかかわらず総合的なパフォーマンスが最も優れており、Baichuan-7B は ChatGLM2 に次ぐ 2 位です。

科目の種類の観点から見ると、すべてのモデルは、STEM科目に比べて人文科学、社会科学、およびその他の科目で優れたパフォーマンスを示しており、これはSTEM科目の本質的な難しさによるものだと考えられています。さらに、中国特有のカテゴリーにおけるすべてのモデルのパフォーマンスは比較的低く、STEM 科目でのパフォーマンスをわずかに上回っているものの、他のカテゴリーに比べると大幅に遅れをとっています。

写真

この研究では、中国語モデル ChatGLM と多言語モデル ChatGPT を各被験者で比較し、被験者を分類して、結果を図 3 に示しました。具体的な数値結果については論文を参照してください。

図からわかるように、モデルのパフォーマンスはバランスが取れていません。一部の科目 (世界史など) ではパフォーマンスが良好ですが、他の科目 (数学など) ではパフォーマンスが低くなっています。研究チームは、ChatGLM と ChatGPT では、古代中国語と大学の保険数理科学が最も難しい科目であり、結果がランダムに近いことを観察しました。法律と倫理の基礎は、どちらのモデルでも最も簡単な科目の 1 つです。

ほとんどの場合、ChatGPT は ChatGLM よりも大幅に優れたパフォーマンスを発揮します。たとえば、機械学習とコンピューターセキュリティの場合、ChatGPT は ChatGLM のほぼ 2 倍の精度を誇ります。ただし、中国特有のカテゴリでは、ChatGLM のパフォーマンスは ChatGPT に大幅に近くなります。中国の歴史と高校政治の分野でもChatGPTを上回りました。彼らは、これは特に中国特有のカテゴリにおいて、ChatGLM が ChatGPT と比較して異なるデータソースに遭遇するためであると考えています。これらの調査結果は、多言語 LLM がさまざまな言語背景を持つユーザーに対応するために適切なデータソースを見つけることが重要であることを示唆しています。

分析する

さまざまな条件下での LLM のパフォーマンスを完全に理解するために、この研究では、モデルのパフォーマンスを向上させる可能性のある 3 つの要因と、モデルのパフォーマンスを低下させる可能性のある 3 つの要因を調査しました。分析の大部分では、上位 3 つの多言語モデル (ChatGPT、Falcon-40B、LLaMA-65B) と、上位 2 つの中国語モデル (ChatGLM-6B と BatGPT-15B) が使用されました。

（詳しい分析については論文を参照してください）

（１）段階的な思考プロンプトを使用する：

この研究では、プロンプトを「正しい回答の選択肢を直接示してください」から「段階的に分析して正しい回答を選択してください」に変更しました。結果は表 2 に示されており、すべてのサブカテゴリの内訳は論文に記載されています。

写真

研究では、微調整されていないモデル（LLaMA および Falcon）の場合、段階的な思考プロンプトを使用しても STEM および全体的な精度が大幅に向上しないことが判明しました。微調整されたモデル（表2の最初の部分）の場合、中国語向けモデル（ChatGLMとBatGPT）の全体的なパフォーマンスは約3％低下し、ChatGPTのパフォーマンスもわずかに0.2％低下しました。これらの結果は、段階的な思考プロンプトがこれらのモデルが STEM 関連の質問に答えるのに役立つことを示唆しています。

（２）入力例を増やす：

図 4 は、異なる数の少数ショット例に対するさまざまなモデルの平均精度を示しています。ほとんどのモデルでは、いくつかの例を提供するとパフォーマンスが向上することは明らかです。例の数が増えるにつれて変動が生じる可能性がありますが、全体的な傾向としてはパフォーマンスが向上していることがわかります。ただし、ChatGLM モデルと BLOOMZ モデルの場合、0 ショット設定のパフォーマンスは、少数ショット設定のパフォーマンスよりも優れています。研究チームは、これらのモデルが事前トレーニングや微調整を通じてすでに類似した質問と回答のペアを広範囲に使用しており、例のサポートを必要とせずに質問を完全に理解する能力を獲得しているためだと推測しています[3]。

（３）同じモデルファミリー内でより大きなモデルサイズを使用する：

写真

この研究では、LLaMA シリーズモデルの 4 つの異なるスケール (7B、13B (1.0T トークンでトレーニング)、30B、および 65B (1.4T トークンでトレーニング)) を調査しました。 0 ショットおよび 5 ショット設定でのこれらのモデルの全体的な精度を図 5 に示します。研究チームは結果から、モデルのサイズが約 2 倍になると、精度が約 5 パーセントポイント着実に向上することを確認しました。 500B パラメータを持つ LLaMA モデルが ChatGPT と同等のパフォーマンスレベルを達成できる可能性はありますか?最近の研究では、パラメータは少ないが高品質のトレーニングデータを使用するモデルは、いくつかの大規模モデル（Falcon-40B対LLaMA-65B）と同等かそれ以上の結果を達成できることが示されています[1]。 LLM のパフォーマンスを効率的にさらに向上させる方法は、未解決の問題のままです。

（４）より長い質問：

モデルの真のラベル信頼度（4 つのオプション間のソフトマックス）を質問の難易度の推定値として考慮し、図 6 で Falcon-40B の質問の難易度と質問の長さの関係を比較します。回帰分析を実行したところ、質問の長さと真のラベル信頼度の間にわずかに正の相関関係があることがわかりました。

（５）否定語を含む質問：

これまでの研究では、言語モデルは否定文の処理が難しい可能性があることが示されている[2]。この問題が中国語の文脈に存在するかどうかを調べるために、否定語を含む質問と含まない質問のサブセットでさまざまなモデルのパフォーマンスを比較します。結果を表3に示す。

すべてのモデルは否定的な単語を含む質問に対して比較的パフォーマンスが低く、大規模言語モデルに共通するこの制限が浮き彫りになっています。興味深いことに、微調整のないモデルでは、少数ショットの例によって、負の問題におけるパフォーマンスの低下が軽減されます。これにより、研究チームは、これらのモデル (LLaMA-65B と Falcon-40B) が事前トレーニングプロセス中にかなりの知識を獲得したと推測しました。その後のガイド付き微調整や人間からのフィードバックによる強化学習は、ネガティブな問題に効果的に対処するのに役立ちます。

写真

（６）サブオプション付きの質問：

中国のさまざまな試験には、「サブ選択肢問題」と呼ばれる典型的な問題形式があります。これらの質問は、メインステートメントと複数のサブオプションで構成され、サブオプションの数、順序、または選択について尋ねるため、モデルにはより深い推論および推論機能が必要です (図 7 の例を参照)。評価結果を表4に示す。

これらの LLM はすべて、サブオプションの質問に対して低い成績でした。 ChatGPT のサブオプション問題におけるパフォーマンスは約 20% 大幅に低下しますが、他のモデルの低下は 5% から 15% の範囲です。多言語モデルと中国語方向モデルを比較すると、サブオプションの質問と他の質問のパフォーマンスのギャップは 10% を超えていますが、後者のパフォーマンスのギャップは 10% 未満です。これは、トレーニングデータ内のこの状況が中国語でより一般的であるためである可能性があります。

結論は

この論文では、中国語のマルチタスク言語理解を評価するために設計された画期的なベンチマークである CMMLU を紹介します。私たちの実験結果は、既存の大規模言語モデルを改善する機会を明らかにしました。この研究では、広範な分析を通じて、モデルのパフォーマンスに影響を与えるいくつかの要因を特定し、LLM を改善するための実行可能な方向性を提案しました。研究チームはそう信じている。彼らのベンチマークデータセットと分析的洞察により、研究者は中国の LLM を効果的に評価および設計できるようになります。

詳しい研究内容については原著論文を参照してください。

<<: OpenAIの競合InflectAIがマイクロソフトとビル・ゲイツの支援を受けて13億ドルを調達

>>: Ctrip における Flutter マップのベストプラクティス