論文を Nature に投稿する前に GPT-4 に問い合わせてください。スタンフォード大学は5,000本の論文をテストし、コメントの半分は人間の査読者のコメントと変わらないことを発見した。

GPT-4 は論文をレビューできますか?

スタンフォード大学などの研究者が実際にテストしました。

彼らは、NatureやICLRなどのトップカンファレンスからの何千もの論文をGPT-4に投入し、レビューコメント（修正提案を含む）を生成するように依頼し、それを人間が与えたコメントと比較しました。

消す：

GPT-4 によって提案された意見の 50% 以上は、少なくとも 1 人の人間のレビュー担当者の意見と一致しています。

また、著者の 82.4% 以上が GPT-4 による提案が役に立ったと感じています。

それで、この研究は私たちにどのような洞察をもたらすのでしょうか?

結論：

高品質な人間によるフィードバックに代わるものはまだありませんが、GPT-4 は著者が正式な査読を受ける前に初稿を改善するのに役立ちます。

詳しく見てみましょう。

GPT-4 論文レビューレベルのテスト

GPT-4 の可能性を実証するために、研究者たちはまず GPT-4 を使用した自動パイプラインを作成しました。

PDF 形式の論文全体を解析し、タイトル、概要、グラフ、表のタイトルなどを抽出してプロンプトを作成できます。

次に、GPT-4 にレビューコメントを提供させます。

このうち意見は各トップ会議の基準と同じであり、以下の4つの部分から構成されています。

研究の重要性と新規性、承認または却下の考えられる理由、改善の提案。

具体的な実験は2つの側面から実施されました。

1 つ目は定量的な実験です。

既存の論文を読み、フィードバックを生成し、実際の人間の意見との重複を体系的に比較します。

ここで研究チームは、Natureとその主要なサブジャーナルから3,096件の論文と、ICLR機械学習カンファレンス（昨年と今年を含む）から1,709件の論文、合計4,805件の論文を選択しました。

そのうち、Nature 論文には 8,745 件の人間による査読コメントが含まれ、ICLR 会議には 6,506 件の人間による査読コメントが含まれていました。

GPT-4 が意見を述べた後、パイプラインはマッチング段階でそれぞれ人間と GPT-4 の議論を抽出し、次にセマンティックテキストマッチングを実行して重複する議論を見つけ、GPT-4 の意見の妥当性と信頼性を測定します。

消す：

1. GPT-4の意見は人間の査読者の実際の意見とかなり重複している

全体的に、Nature の論文では、GPT-4 は少なくとも 1 人の人間の査読者の意見と 57.55% 一致しました。ICLR では、この数値は 77.18% にも達しました。

GPT-4 の意見と各レビュー担当者の意見をさらに慎重に比較した結果、チームは次のことを発見しました。

Nature 論文における GPT-4 と人間の査読者の重複率は 30.85% に低下し、ICLR では 39.23% に低下しました。

しかし、これは 2 人の人間のレビュー担当者間の重複に匹敵します。

Nature 論文における人間の平均重複率は 28.58% ですが、ICLR では 35.25% です。

さらに、論文のレベル（口頭発表、スポットライト、直接拒否）も分析し、次のことがわかりました。

弱い論文の場合、GPT-4 と人間の査読者の重複はより大きくなり、上記の 30% 以上から 50% 近くにまで増加します。

これは、GPT-4 が低品質の論文を識別する能力が高いことを示しています。

著者はまた、受理される前にさらに大幅な修正が必要な論文は幸運だと述べています。正式に提出する前に、誰でも GPT-4 による修正提案を試すことができます。

2. GPT-4は非一般的なフィードバックを与えることができる

いわゆる非普遍的なフィードバックとは、GPT-4 が複数の論文に適用できる一般的なレビュー意見を出さないことを意味します。

ここで、著者らは「ペアワイズオーバーラップ率」と呼ばれる指標を測定し、Nature と ICLR の両方でそれが 0.43% と 3.91% に大幅に減少したことを発見しました。

これは、GPT-4 がターゲットになっていることを示しています。

3. 重要かつ普遍的な問題に対する人類の見解に同意する能力

一般的に、人間によるフィードバックの早い段階で現れ、複数のレビュー担当者によって言及されている意見は、重要な共通の問題を表している可能性が最も高くなります。

ここでも、研究チームは、LLM の方が複数の査読者が同意した共通の問題や欠陥を特定する可能性が高いことを発見しました。

つまり、GPT-4 は一般的に受け入れられます。

4. GPT-4の意見は人間とは異なるいくつかの側面を強調している

研究では、GPT-4は人間よりも研究自体の意味についてコメントする頻度が7.27倍高く、研究の新規性についてコメントする可能性が10.69倍高いことが判明した。

GPT-4 と人間はどちらも追加の実験を提案することがよくありますが、人間はアブレーション実験に重点を置いているのに対し、GPT-4 はより多くのデータセットで試すことを提案します。

著者らは、これらの調査結果は、GPT-4と人間の査読者がさまざまな側面に異なる重点を置いていることを示唆しており、両者の協力により潜在的な利点がもたらされる可能性があると述べている。

定量的な実験の先にあるのはユーザー調査です。

この研究では、さまざまな機関の AI および計算生物学の分野の研究者 308 人が、レビューのために GPT-4 に論文をアップロードしました。

研究チームは、GPT-4 のレビューコメントに関する実際のフィードバックを収集しました。

全体的に、参加者の半数以上(57.4%)が、人間が思いつかないような点も含め、GPT-4 によって生成されたフィードバックが役に立つと感じました。

回答者の 82.4% が、少なくとも一部の人間によるレビューアからのフィードバックよりも有益であると感じました。

さらに、回答者の半数以上（50.5%）が、論文を改善するためにGPT-4などの大規模モデルをさらに使用したいという意向を示しました。

研究者の一人は、GPT-4 が結果を出すのに 5 分しかかからなかったと述べています。このフィードバック速度は本当に速く、研究者が論文を改善するのに非常に役立ちました。

もちろん、著者は次のように指摘しています。

GPT-4 にも制限があります。

最も明白なのは、「全体的なレイアウト」に重点が置かれており、特定の技術分野（モデルアーキテクチャなど）に関する詳細なアドバイスが欠けていることです。

そこで著者は次のように結論づけています。

人間のレビュー担当者からの高品質なフィードバックは依然として不可欠ですが、正式なレビューの前にフィードバックを使用してテストし、実験や構築で見落とされた詳細を補うことができます。

もちろん、彼らはまた次のことを思い出させました:

正式なレビュー中、レビュー担当者は LLM に依存せず、独立して参加する必要があります。

作品はすべて中国語です

この研究の第一著者は3名おり、全員が中国人で、スタンフォード大学コンピューターサイエンス学部の出身者である。

彼らです：

梁維新氏は同校の博士課程の学生であり、スタンフォードAI研究所（SAIL）のメンバーです。彼はスタンフォード大学で電気工学の修士号を取得し、浙江大学でコンピューターサイエンスの学士号を取得しました。
Yuhui Zhang は、マルチモーダル AI システムを専門とする博士課程の学生です。彼は清華大学で学士号を取得し、スタンフォード大学で修士号を取得しました。
ハンチェン・カオさんは同校の博士課程5年生で、経営科学と工学を副専攻しており、スタンフォード大学のNLPおよびHCIグループにも参加しています。彼は以前、清華大学の電子工学部を卒業していました。

論文アドレス: https://arxiv.org/abs/2310.01783

<<: ALS の少年がアリ数学コンテストで輝く!ブラックホールを研究するためにMITに独学で入学、指導者はホーキングと非常に似ている

>>: