GPT-4はMITの学位を取得できない、MITの研究チームは「不正行為」と反応したが、ネットユーザーはそれを信じない

GPT-4はMITの学位を取得できない、MITの研究チームは「不正行為」と反応したが、ネットユーザーはそれを信じない

数日前、「大規模言語モデルを使用した MIT 数学および EECS カリキュラムの調査」と題された論文が世論の嵐に見舞われました。

論文アドレス: https://arxiv.org/pdf/2306.08997.pdf

当初、研究チームは、MITの数学、電気工学、コンピューターサイエンス(EECS)専攻、中間試験、期末試験からの4,550の質問と解答の包括的なデータセットをまとめ、さまざまな大規模言語モデルにこのデータセットの質問を解くように依頼し、「GPT-4はMITのEECSと数学の学部試験にほぼ満点で合格した」という結論に達しました。

この結果はすぐに厳密さが不十分であると指摘され、データセット自体に問題があること、GPT-4 を使用した自動スコアリングの評価メカニズムにも問題があることを示す複数の証拠と詳細な分析が示されました。

「私たちの批判は、主に研究の内容ではなく、研究の方法論と厳密さに関するものです。大規模言語モデルが実際にMITのカリキュラムを解く能力があることには何の問題もありません。ただ、この論文が科学的に厳密な方法でこれを実証できていないという点だけです。」

圧倒的な質問に直面した研究チームは、翌週、認めることも謝罪することもせず、公に何の反応も示さなかった。

しかし昨日、数人の教授(論文の著者でもある)が署名した公式発表が届きました。

6月24日、Armando Solar-Lezama氏(MIT EECS教授、CSAIL COO/副所長)、Tonio Buonassisi氏(MIT機械工学教授)、Yoon Kim氏(MIT EECSおよびCSAIL助教授)が、論文の現状に関する公式声明を発表しました。

声明は次の通りです。

6月15日、イド・ドロリ氏は、MITの数十のコースの試験と課題のデータセットに関する研究論文をarXivに投稿した。同氏は、出版前に修正すべき問題点について知らされていたにもかかわらず、共著者の同意を得ずに論文を投稿した。私たちのうちの一人が、週末旅行の後、6月18日日曜日にこの投稿に気づきました。

この問題に取り組んでいる過程で、Drori が私たちやプロジェクトのためにデータを収集していた学生に伝えていたこととは反対に、Drori は論文の主題となったデータセットを構成する課題や試験問題を収集する許可をすべての講師から得ていなかったことが判明しました。関係する一部のコースの講師は、論文がソーシャルメディアに掲載され、ドロリ氏が許可なくデータのサンプルをオンラインに投稿した後で初めて、データセットの存在とそれが自分のコース教材に含まれていることを知った。

これらは組織的なチャネルを通じて対処されている深刻な問題であるため、公にそのような声明を出すことには消極的ですが、なぜこの論文を公表すべきではなく、撤回しなければならないのかを説明する必要があると感じています。私たちはDrori氏にarXivから論文を撤回するよう求め、arXivに直接連絡して状況を説明しました。

この論文の学生著者全員が非常に熱心に取り組んだことを強調したいと思います。データが同意を得て収集されていたら、この論文は非常に興味深く価値のあるものになっていたでしょう。出版された作品に関する問題は学生のせいではありません。

また、GPT-4 は MIT から学位を取得できません。

このような調査声明は本当に十分なのでしょうか? 1週間前に3人の質問者が提出した分析を思い出すと、データセットは汚染されており、手動検査の結果は論文に記載されている「ほぼ満点」からは程遠いものでした。これは少なくとも、論文の内容を再度見直す必要があることを意味します。

明らかに、この調査結果に誰もが満足しているわけではなく、結果を捏造した誤りについては触れず、データを使うべきではなかったという事実だけに焦点を当てた、ごまかし的な声明だと言う人もいる。

「それで、この3人のMIT教授は、この論文の唯一の問題はデータが同意なしに使用されたことだと考えているのです。」

「これはもともと非常に興味深く価値のある論文である」という発言に対して、さらに多くの人がクリックして反論しました。「GPT-4 に生成した回答を評価させましょう。これは興味深く価値のあることでしょうか?」

さらに、イド・ドロリ氏の個人ホームページが更新され、「MIT客員教授」の肩書きが削除されていることに気付いた人もいる。そして彼のLinkedInページの情報によると、彼は今月中にMIT訪問を終了する予定だ。

「一部の教授は論文を批判することなく、特別講師をスケープゴートにし、全員の注意を方法論からデータプライバシーの問題へとそらそうとしました。これは典型的な学術政治の問題です。」

3人の懐疑論者はブログ記事で次のように書いている。「この論文は、最近のAI研究における大きな傾向を示している。この分野の進歩が加速するにつれ、新しい発見の時間的流れは短くなっているようで、多くの場合、近道が見られる。特に心配な傾向の1つは、GPT-4のような言語ベースのモデルを使用してモデルの精度を評価することである。」

これについてどう思いますか?

<<:  スタンフォード大学がトランスフォーマー代替モデルを訓練:1億7000万のパラメータ、バイアスを除去可能、制御可能、解釈可能

>>:  スマートホームは私たちを監視しているのでしょうか?

ブログ    
ブログ    

推薦する

人工知能は統合を加速させており、テレビ業界は若返りを急ぐべきではない

関連データによると、今年上半期、わが国のカラーテレビ市場の累計販売台数は2,000万台未満で、前年同...

...

...

人工知能を初めて適用するときに尋ねるべき5つの質問

企業が社内でソリューションを構築する必要は必ずしもありませんが、これが失敗の一般的な原因となります。...

Tensorflowを使用して畳み込みニューラルネットワークを構築する

1. 畳み込みニューラルネットワーク畳み込みニューラル ネットワーク (CNN) は、人工ニューロン...

AIと大量動画が出会うと、IBMは20秒で新時代への扉を開く

序文:約 60,000 時間のビデオから、ある人物の素晴らしい瞬間の 1 分を見つけるにはどうすれば...

機械学習における皇帝の新しい服の発見

[[246000]]ビッグデータダイジェスト制作編曲:李佳、メロディー、雲周機械学習は、データ内のパ...

AIとDevOps: 効率的なソフトウェア配信のための完璧な組み合わせ

AI時代では、DevOpsとAIが共有結合します。 AI はビジネス ニーズに基づいてソフトウェアの...

「AI医薬品製造」の新時代が到来!人工知能がより良い抗がん剤の組み合わせを予測

[[355967]]人工知能は新興の破壊的技術として、科学技術革命と産業変革によって蓄積された膨大な...

マテリアル界のImageNet、大規模6次元マテリアル実写データベースOpenSVBRDFを公開

計算グラフィックス分野では、マテリアルの外観は、実際のオブジェクトと光の間の複雑な物理的相互作用を表...

IoTミツバチ:私たちの未来を救う技術

ミツバチは植物から植物へと飛び回って餌を探しながら、受粉という重要な役割も担っています。しかし、過去...

銀行の二重生体認証実験:二重のトラブルか二重のセキュリティか?

2つの生体認証技術は顔認証と指紋認証です。実験では、両方ともモバイルデバイスを通じて実装され、2つ...

景勝地ロープウェイのスペアパーツに基づくドローン検査市場の簡単な分析

最近、中秋節と国慶節の連休が近づき、わが国の多くの観光地では、今年、省をまたぐ団体旅行が再開され、観...

プロセスマイニングを通じて運用の卓越性を達成するための8つのステップ

運用の卓越性は、ビジネスの回復力と収益の成長を向上させる鍵となりますが、今日のプロセス所有者は、急速...