GPT-4 は MIT の学部数学試験に満点合格しました!しかし、クラスメイトから「カンニング」を疑われました。データセット自体に問題があったのです。

ビッグデータダイジェスト制作

著者: カレブ

ここ 2 日間、GPT-4 が MIT の学部数学試験に満点で簡単に合格したというニュースが、皆さんのところに溢れていると思います。

ご存じない方のために説明すると、このテストは MIT、ボストン大学、コーネル大学の研究チームによって共同で実施され、MIT で学位を取得するために必要なすべての数学、電気工学、コンピューターサイエンス (EECS) コースに基づいて 4,550 問の問題がまとめられました。

テストに使用されたAIモデルは、GPT-3.5、GPT-4、StableVicuna-13B、LLaMA-30B、LLaMA-60Bです。予想通り、GPT-4 は満点で合格しましたが、GPT-3.5 は回答の 3 分の 1 しか正解しませんでした。

論文リンク: https://huggingface.co/papers/2306.08997

このような結果は当然多くのネットユーザーから議論を呼びました。ネットユーザーたちの驚きの声の中、同じくMITの学生3人がその手がかりを発見しました。

「インターネット詐欺」GPT-4の公開

6月16日にこの論文を発見した後、3人はさらに深く調査することにした。しかし、1時間以内に彼らは論文の方法論に疑問を抱き、2時間以内にデータセット自体に問題があることに気づきました。

研究者らは論文の中で、「画像のない問題と解答のある問題からランダムに288問のテストセットを選択した」と記している。このデータセット (オープンソース LLM を微調整するために使用されるトレーニングセットを除く) も、レポートの生成に使用されたテストパフォーマンスコードとともに、論文とともに GitHub でオープンソース化されています。

しかし、ドロリ教授はそのプロジェクトを削除しました。

現在、このテストセットの注釈付きコピーが公開されています: https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70WP3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit#gid=1598949010

また、3人は、評価コード内のデータのファイルパスがすべてこのファイルを指し示しており、内容を変更するコードは提供されておらず、元々リリースされたGitHubリポジトリでも入手可能であったため、このファイルが論文で分析されたテストセットを表していると確信していると述べた。さらに、このドキュメントは、論文で指定されたすべてのモデル要件も満たしています。

証拠は、ファイルがテスト目的で別のファイルに置き換えられた可能性が高いという主張を強く裏付けているようです。これが事実である場合、このデータとそれを用いて行われた分析を公表する立証責任は著者にあります。

そこで彼らは個々のデータポイントを調べ始めました。

すぐに、データセット内の問題のうち少なくとも 10 件は提供された情報では解決できないことが明らかになりました。つまり、満点を取ることは不可能だということです。さらに、与えられた文脈ではまったく有効な質問ではない質問がいくつかあり、質問の少なくとも 4% を占めています。

質問自体が議論を呼んでいることに加え、調査した 288 の質問のうち 14 が重複しており、これらの場合、質問文字列間の唯一の違いは文字レベルのノイズが最小限であるか、または質問文字列が同一であったことが分かりました。

これを考慮すると、GPT-4 が満点を獲得できるかどうかは疑問です。この結論に至るには、ある段階で解答がプロンプトに漏れたか、質問が正しく採点されなかったかのいずれかになります。

これにより、彼らはさらに調査を進めることになりました。結局、私は両方の側面を持っていることに気づきました。

より高度な「不正行為」を実証している

ここで、論文に記載されている「少数の例」についても簡単に説明する必要があります。つまり、研究者たちは OpenAI 埋め込みデータセット内の類似した問題に対してコサイン類似度検索を実行し、それらの問題と解決策を追加のコンテキストとしてモデルに組み込み、モデルが問題を解決できるようにしたのです。不公平な情報を明らかにしない程度に、示された例と質問が異なっている限り、それ自体は問題ありません。

しかし、公開されたテストデータセットをランダムにスキャンしているときに、奇妙なことに気付きました。モデルに提供される小さなサンプル例の多くは、問題のほぼ逐語的なバージョンであり、この重複は棒グラフで表すことができます。

つまり、モデルは質問に対する回答、または質問に非常に類似した質問を取得します。通常、これは同様の背景を持つ多くの質問が何度も繰り返されることから生じます。

彼らの見解では、GPT の問題解決能力を適切に評価するためには、「複数部分から成る質問」の他の部分を特定の質問の小さなサンプル例から完全に除外する必要がある。実際、研究者たちは、これらの複数部分の問題に対する解決策は、モデルが解決するように求められた問題の別の部分に直接言及したり、その部分の解決策を示したりすることがよくあることも発見しました。

スコアリングに関しては、オープンソースのスコアリングメカニズムに基づくいくつかの問題も発見されました。

たとえば、プロセスで採点がどのように処理されるかなどです。実際、研究者たちは、元の質問、解決策、GPT 自身の回答を採点プロンプトのパラメータとして含め、GPT-4 を使用して採点しました。

GPT が他の技術分野よりも暗黙の誤解を生み出す可能性が高いのと同様に、このタイプの自動スコアリングは自己満足のいく結果を生み出す可能性が高くなります。

さらに、プロンプトカスケードは最近の GPT 論文の多くで一般的な手法ですが、ここではデータ漏洩の可能性が高くなります。各レベルでは、グラウンドトゥルースに基づいたバイナリ情報を提供するだけでなく、正しい答えに達するまでプロンプトも表示されます。

これらの作成されたプロンプトでは実際の解決策は表示されませんが、正解に到達するまで正解を再度プロンプトするバイナリフィードバックは十分です。特に、テストセットの 16% を占める複数選択問題の場合、無制限の試行によって正解が保証されます。

それは、誰かが解答用紙を持って、生徒が答えられるまで正解かどうかを教えるようなものです。

この錯覚を打ち破った後、研究チームはデータセットに対してゼロショット GPT-4 を実行し、データの最初の 30% を手動でスコア付けしました。その結果は、元の論文とはまったく異なるものでした。

言語モデルはまだ真実を生成するためのオラクルとして使用できない

最後に、3人は、これまで指摘した問題は、数時間のレビューで見つかった最も明白な問題に過ぎず、今後、より多くの人がより注意深くチェックすることで、より多くの抜け穴が発見されるだろうと述べた。

また、読者にデータセットをダウンロードして自分で確認することを推奨しています。結局のところ、査読に合格して初めて最終的な承認を得ることができるのです。

同時に、彼らはデータ分析方法の完全性についての観察が懸念されると述べた。この論文は、人工知能研究における最近の大きな傾向を指摘している。つまり、この分野がどんどん進歩するにつれて、研究のタイムラインは短くなり、近道は避けられないということだ。

特に懸念される傾向の 1 つは、モデルの精度を評価するために GPT-4 などの言語ベースのモデルを使用することです。これは便利なツールではありますが、結論を誇張したり、真実として受け止めたりしてはいけません。

最近の論文では、正確な実際の情報がなければ、GPT-4 検証は信頼できないと書かれています。少なくとも、GPT-4 のパフォーマンスを人間のパフォーマンスと比較するには、データセットのランダムなサブセットを選択する必要があります。言語モデルはまだ、グラウンドトゥルースを生成するオラクルとしてみなすことはできません。

さらに、トレーニング、推論、ベンチマークなどの目的でデータを使用する前に、すべてのデータポイントを再評価し、基本的な健全性チェックを実行することが非常に重要です。問題となるデータセットのサイズが小さいため、作業の範囲内で簡単な手動検証を簡単に行うことができます。

あるネットユーザーはツイッターで「これはLLMと著者が推奨する絶対に食べるべきデザートです。急いでいる場合は、GPT-4に次のどれが一番美味しいかを予測させましょう」と冗談を言った。

GPT に関する研究とそれに関連する論争は、しばらく続くと思われます。