人気の「GPT-4 MIT学部数学フルスコア」論文が不正、データセット自体に問題あり

過去 2 日間で、GPT-4 が MIT EECS と数学の学部試験に満点で合格したという論文が Twitter で話題になりました。

論文アドレス: https://arxiv.org/pdf/2306.08997.pdf

要約すると、MIT の研究チームは、同校の数学、電気工学、コンピューターサイエンス (EECS) 専攻の授業問題、中間試験、期末試験から 4,550 の問題と解答の包括的なデータセットをまとめました。

その後、研究チームはさまざまな大規模言語モデルにこのデータセット内の質問に回答するよう依頼しました。結果は恐ろしいものでした。GPT-3.5 は質問の 3 分の 1 を正解することができ、GPT-4 はほぼ満点で合格しました。

論文の著者らは、モデルのパフォーマンスの向上は主に「4つの装備」、すなわち、Few-shot Learning、CoT、Self-critique、および Expert に依存すると述べています。

上記の表に示すように、GPT-4 に追加されるテクニックが増えるほど、質問に答えるモデルの精度が高くなります。オリジナルの GPT-4 は 90% の精度スコアを獲得でき、いくつかの操作を行った後、フルスコアを獲得しました。

しかし、熱く議論していたネットユーザーのほとんどは、このスコアが実際には GPT-4 を使用してスコア付けされたことに気付いていないかもしれません...

MIT の学生 3 名もこの論文を初めて発見しました。GPT-4 に追い抜かれそうになったグループとして、彼らはこの人気論文の方法論をすぐに理解したいと考えていました。

1時間研究した後、彼らはその論文の方法論に懐疑的になった。

2時間後、彼らはデータセット自体に問題があることに気付きました。

元の論文の著者らは、公開されたデータセットの品質を手作業で確認したと主張していたが、3人はテストデータセットの大部分が汚染されているという明らかな兆候を発見した。

言い換えれば、このモデルは、試験を受ける前に答えを教えられる学生のようなもので、これは明らかに「カンニング」です。

疑問を抱いた後、彼らはすぐにデータセットに対してゼロショットGPT-4を実行し、データの最初の30％を手動でスコア付けしました。その結果は元の論文の結果とはかけ離れており、まったく異なるものだったと言えます。

「MITの学部生として、少なくとも私たちの経験では、このテストセットはMITでEECSの学位を取得するのに必要な理解の幅と深さを正確に表していない」と3人はブログ投稿に書いた。

最新の進捗状況: ゼロショット GPT-4 の精度は 62.5% に達しますが、論文で主張されている 90% にはまだまだ遠く及びません。

3人はまた、「過剰な宣伝」の傾向にも疑問を呈した。「こうした論文は、正当な査読を受ける前にArxivにアップロードされ、Twitterで広く共有されることが多い。この場合、誤った情報が広まり、将来の研究に悪い前例が作られる可能性がある」

「ディープラーニング」ファイターのゲイリー・マーカス氏も意外にもこの疑念の波を支持した。

同時に、3人はブログで、論文「大規模言語モデルを用いたMIT数学およびEECSカリキュラムの調査」に名前が挙がっている著者の何人かは学部生研究者であり、彼らの研究で起きたいかなる間違いについても責任を問うのは不適切だとも指摘した。代わりに、責任は指導著者にあるべきです。指導著者には、その研究が自分の分野の一般的な学術基準を満たしていることを確認することが期待されているのです。

次に、この「爆発的な」論文の問題点を見てみましょう。

データセットの何が問題なのでしょうか?

まず、元の論文から、研究者が収集したデータセットには、MIT の学位試験の取得に必要な 30 の数学と EECS コースから、コアコースと選択コースを網羅した 4,550 の問題と対応する解答が含まれていることがわかります。

「画像がなく解答付きの問題からランダムに288問のテストセットが選択された」と論文には記されている。

このデータセット (オープンソース LLM を微調整するために使用されるトレーニングセットを除く) も、報告されたテストパフォーマンスを生成するために使用されたコードとともに、論文とともに GitHub で公開されています。しかし、著者のドロリ教授は最近の提出物でそれを削除しました。

確認と比較した後、評価コード内のすべてのデータのファイルパスがそのファイルを指し示しており、その内容を変更するコードは提供されておらず、そのファイルは元々リリースされたGitHubリポジトリで入手可能であったため、3人は削除されたファイルが論文で分析されたテストセットを表していると確信しました。さらに、ファイルは論文で指定されたすべてのスキーマ要件 (行数など) を満たしています。証拠は、以下の主張すべてを強力に裏付けているようです。

「しかし、このファイルがテストに使用された別のファイルに置き換えられた可能性があることは認めます。もしそうだとすれば、このデータとそれを使って行われたすべての分析を公表する立証責任は著者にあると私たちは考えています。」

では、隠蔽されている問題とは何でしょうか? 3人はそれぞれ独自の分析を行った。

解けない問題（テストセットの約4％）

元の論文では、GPT-4 のどの形式であってもテストセットで満点のスコアが得られると述べられていたため、3 人は個々のデータポイントを調べ始めました。彼らはすぐに、データセット内の少なくとも 10 の問題が提供された情報では解決不可能であり、他のいくつかの問題はこのコンテキストでは単純に有効な質問ではないため、満点を取ることは不可能であることに気づきました。

このような「問題のある質問」は、テストセットの少なくとも 4% を占めます。

拡張された Excel ドキュメントで、3 人は問題があると判明したデータセットの例に注釈を付けました。「赤」は提供された情報では解決できない問題を表し、「黄色」は不合理な問題を表します。

ページアドレス: https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70WP3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit?usp=sharing

繰り返しの質問（テストセットの約5％）

テキスト類似性検出を使用して、3 人は 288 の質問のテストセットで 14 の質問 (7 組) が重複していることを発見しました。これらのケースでは、質問文字列間の唯一の違いは、最小限の文字レベルのノイズ、またはまったくの重複でした。

これらの解決不可能な問題を考慮すると、GPT-4 が何らかの方法で 100% の精度を達成できたというのは信じられないことです。ある段階で回答がプロンプトに漏れたか、質問が正しくマークされていませんでした。

これらの初期の調査結果を受けて、少数のショットの例（モデルがゼロショットの精度で失敗した場合）から始めてさらに調査を進め、最終的に問題解決情報の漏洩とモデルの出力を評価するために使用される方法の問題の両方が明らかになりました。詳細は以下の通りです。

少数例における情報漏洩

元の論文でも「サンプル例が少ない」という問題に言及されていたことは注目に値します。

簡単に言うと、この論文では、OpenAI 埋め込みデータセット内の類似した問題に対してコサイン類似度検索を実行し、これらの問題と解決策をモデルのプロンプトに追加のコンテキストとして組み込んで、モデルが問題を解決できるようにします。

例が問題となっている問題と十分に異なっており、不公平な情報を明らかにしていない限り、このアプローチ自体は問題ありません。

公開されたテストデータセットをランダムにスキャンしているときに、3人は奇妙なことに気づきました。モデルに入力された「少数の例」の多くは、質問自体とほぼそのままだったのです。

これをさらに理解するために、彼らは、提供されたいくつかの例について、問題ステートメントとリストされた問題との重複を調べ、ヒストグラムをプロットする簡単なスクリプトを作成しました。

提供されたいくつかの例の多くは、質問自体とほぼ同じです。つまり、モデルは質問に対する回答、または質問に非常に類似した質問を取得していることになります。通常、これは、共通の背景を持つ多数の複数ステップの問題の繰り返しから生じます。

彼らは、GPT の問題解決能力を適切に評価するためには、複数ステップの問題の他の部分を問題の少数ショットの例から完全に除外する必要があると主張しています。実際、研究者たちは、これらの複数の部分から成る問題に対する解決策は、モデルが解決するように求められた問題の別の部分に直接言及したり、その部分の答えを与えたりすることがよくあることを発見しました。

それだけでなく、データのマイニング中に、質問全体が繰り返されるサンプルも見つかりました。例えば：

どちらの場合も、答えはまったく同じです。これは情報漏洩ではないとは言い難い。

GPT-4自動スコアリングには問題がある

さらに、3 人は元のオープンソース論文のスコアリングメカニズムにも問題を発見しました。

 def repeat_grading(input_path, output_path, num_experts = 3, num_fs = 3, most_recent_q = 0): df = pd.read_csv(input_path) df = df.iloc[most_recent_q:] for index, row in df.iterrows(): print('Completing question', index) question_output = row.values.tolist() course_name = row['Course Name'] question = row['Question'] solution = row['Solution'] fs_qs = [[row['Few shot question 1'], row['Few shot solution 1']], [row['Few shot question 2'], row['Few shot solution 2']], [row['Few shot question 3'], row['Few shot solution 3']]] experts = get_experts(course_name, question, num_experts).split(', ') prompts = [lambda expert: zero_shot_response(question, expert), lambda expert: few_shot_response(expert, question, fs_qs), lambda expert: few_shot_response(expert, question, fs_qs, True) ] critiques = [["Review your previous answer and find problems with your answer.", "Based on the problems you found, improve your answer."], ["Please provide feedback on the following incorrect answer.","Given this feedback, answer again."]] for expert in experts: print("Using expert", expert) question_output.append(expert) crit = True for prompt in prompts: prompt_response = prompt(expert) # calls fresh ChatCompletion.create prompt_grade = grade(course_name, question, solution, prompt_response) # GPT-4 auto-grading comparing answer to solution question_output+=[prompt_response, prompt_grade] if correct(prompt_grade): crit = False break if crit: for critique in critiques: crit_response = self_critique_response(expert, course_name, question, question_output[-2], critique) # calls fresh ChatCompletion.create crit_grade = grade(course_name, question, solution, crit_response) # GPT-4 auto-grading comparing answer to solution question_output+=[crit_response,crit_grade] if correct(crit_grade): break repeat_grading('MIT_test_set.csv', 'MIT_test_set_graded.csv')

コードを見ると、採点処理のプロセスに重大な問題があることがわかります。論文は GPT-4 を使用して評価およびチェックされますが、これには a) 元の質問、b) 解決策、c) GPT 自身の回答が採点プロンプトのパラメーターとして含まれています。

より技術的な分野では、GPT は暗黙の誤解を生じる可能性が高く、この自動スコアリングによって「自己欺瞞的な」結果が生成される可能性が高くなります。

さらに、プロンプトカスケードは最近の GPT 論文の多くで一般的な手法ですが、ここではデータ漏洩の可能性が高くなります。各レベルでは、グラウンドトゥルースに基づいたバイナリ情報を提供するだけでなく、正しい答えに達するまでプロンプトを表示し続けます。

これらの作成されたプロンプトでは実際の回答は表示されませんが、正解に到達するまで再度プロンプトを表示するパターンは十分です。特に、テストセットの 16% を占める複数選択問題の場合、無制限の試行によって正解が表示されることが (ほぼ) 保証されます。

これは、誰かが解答用紙を持って、試験を受ける生徒に答えが正しいかどうかを告げ、生徒が正解するまで繰り返し注意し続けるようなものです。

要約する

ブログの最後で、3人はこう書いている。

この論文は、人工知能に関する最近の研究におけるより大きな傾向について述べている。この分野の進歩が加速するにつれ、新たな発見の時間的流れは短縮され、多くの場合、近道も行われるようになっているようです。特に懸念される傾向の 1 つは、モデルの精度を評価するために GPT-4 などの言語ベースのモデルを使用することです。

便利なツールではありますが、その結論を誇張したり、真実として受け止めたりしてはいけません。最近の研究では、正確なグラウンドトゥルース情報がなければ、GPT-4 評価ツールを検証に確実に使用できないことが示されています。少なくとも、GPT-4 のパフォーマンスを人間の評価と比較するには、データセットのランダムなサブセットを選択する必要があります。言語モデルはまだ、グラウンドトゥルースを生成するためのオラクルとして使用することはできません。

さらに、トレーニング、推論、ベンチマークなど、データを使用する前に、すべてのデータポイントを再評価し、基本的なチェックを実行することが非常に重要です。問題となるデータセットのサイズが小さいため、作業の範囲内で簡単な手動検証を簡単に行うことができます。

私たちの批判は、この研究の内容ではなく、主に研究の方法論と厳密さに向けられています。大規模言語モデルが実際に MIT のカリキュラムを解く能力があることには何の問題もありませんが、この論文では科学的に厳密な方法でこれを実証できていないと考えています。

<<: 自動化から拡張現実まで: 製造業を混乱させる 12 の革新的なテクノロジートレンド

>>: ヤン・ニン氏の新しい論文が突然ネイチャーのサブジャーナルに掲載された: 構造はAIの手の届かないところにある