数日前、「大規模言語モデルを使用した MIT 数学および EECS カリキュラムの調査」と題された論文が世論の嵐に見舞われました。 論文アドレス: https://arxiv.org/pdf/2306.08997.pdf 当初、研究チームは、MITの数学、電気工学、コンピューターサイエンス(EECS)専攻、中間試験、期末試験からの4,550の質問と解答の包括的なデータセットをまとめ、さまざまな大規模言語モデルにこのデータセットの質問を解くように依頼し、「GPT-4はMITのEECSと数学の学部試験にほぼ満点で合格した」という結論に達しました。 この結果はすぐに厳密さが不十分であると指摘され、データセット自体に問題があること、GPT-4 を使用した自動スコアリングの評価メカニズムにも問題があることを示す複数の証拠と詳細な分析が示されました。 「私たちの批判は、主に研究の内容ではなく、研究の方法論と厳密さに関するものです。大規模言語モデルが実際にMITのカリキュラムを解く能力があることには何の問題もありません。ただ、この論文が科学的に厳密な方法でこれを実証できていないという点だけです。」 圧倒的な質問に直面した研究チームは、翌週、認めることも謝罪することもせず、公に何の反応も示さなかった。 しかし昨日、数人の教授(論文の著者でもある)が署名した公式発表が届きました。 6月24日、Armando Solar-Lezama氏(MIT EECS教授、CSAIL COO/副所長)、Tonio Buonassisi氏(MIT機械工学教授)、Yoon Kim氏(MIT EECSおよびCSAIL助教授)が、論文の現状に関する公式声明を発表しました。 声明は次の通りです。
このような調査声明は本当に十分なのでしょうか? 1週間前に3人の質問者が提出した分析を思い出すと、データセットは汚染されており、手動検査の結果は論文に記載されている「ほぼ満点」からは程遠いものでした。これは少なくとも、論文の内容を再度見直す必要があることを意味します。 明らかに、この調査結果に誰もが満足しているわけではなく、結果を捏造した誤りについては触れず、データを使うべきではなかったという事実だけに焦点を当てた、ごまかし的な声明だと言う人もいる。 「それで、この3人のMIT教授は、この論文の唯一の問題はデータが同意なしに使用されたことだと考えているのです。」 「これはもともと非常に興味深く価値のある論文である」という発言に対して、さらに多くの人がクリックして反論しました。「GPT-4 に生成した回答を評価させましょう。これは興味深く価値のあることでしょうか?」 さらに、イド・ドロリ氏の個人ホームページが更新され、「MIT客員教授」の肩書きが削除されていることに気付いた人もいる。そして彼のLinkedInページの情報によると、彼は今月中にMIT訪問を終了する予定だ。 「一部の教授は論文を批判することなく、特別講師をスケープゴートにし、全員の注意を方法論からデータプライバシーの問題へとそらそうとしました。これは典型的な学術政治の問題です。」 3人の懐疑論者はブログ記事で次のように書いている。「この論文は、最近のAI研究における大きな傾向を示している。この分野の進歩が加速するにつれ、新しい発見の時間的流れは短くなっているようで、多くの場合、近道が見られる。特に心配な傾向の1つは、GPT-4のような言語ベースのモデルを使用してモデルの精度を評価することである。」 これについてどう思いますか? |
<<: スタンフォード大学がトランスフォーマー代替モデルを訓練:1億7000万のパラメータ、バイアスを除去可能、制御可能、解釈可能
データ拡張は、人工知能と機械学習の分野における重要な技術です。モデルのパフォーマンスと一般化を向上さ...
[51CTO.com からのオリジナル記事] コンピューターで何か面白いものを見つけたときにスクリー...
今後20年間で、人工知能やロボット、ドローン、自動運転車などの関連技術により、中国での雇用は約12%...
ディープラーニングが加わったことで、コンピュータグラフィックスには多くの新しい分野が生まれました。 ...
誰もが知っているように、昔は銀行に行って業務を処理するには長い列に並ばなければなりませんでした。業務...
ジョージタウン大学の科学者が率いる国際研究チームは、COVID-19パンデミックの原因ウイルスである...
2019年INFORMS年次総会が米国時間10月20日から23日までシアトルで開催されました。同総...
前回の記事では、写真に写っている顔を検出し、顔の特徴(鼻、目、眉毛など)をマークしました。この記事で...
[51CTO.com クイック翻訳] インターネットが誕生して以来、あらゆる種類のジャンク情報や悪意...
業界ではよく知られているデータサイエンスのウェブサイトである KDnuggests は昨日、4 月の...
[[395543]] Python AI プロジェクトは、あらゆる形態や規模の企業の間で非常に人気...