GPT-4 は論文をレビューできますか? スタンフォード大学などの研究者が実際にテストしました。 彼らは、NatureやICLRなどのトップカンファレンスからの何千もの論文をGPT-4に投入し、レビューコメント(修正提案を含む)を生成するように依頼し、それを人間が与えたコメントと比較しました。 消す: GPT-4 によって提案された意見の 50% 以上は、少なくとも 1 人の人間のレビュー担当者の意見と一致しています。 また、著者の 82.4% 以上が GPT-4 による提案が役に立ったと感じています。 それで、この研究は私たちにどのような洞察をもたらすのでしょうか? 結論:
詳しく見てみましょう。 GPT-4 論文レビューレベルのテストGPT-4 の可能性を実証するために、研究者たちはまず GPT-4 を使用した自動パイプラインを作成しました。 PDF 形式の論文全体を解析し、タイトル、概要、グラフ、表のタイトルなどを抽出してプロンプトを作成できます。 次に、GPT-4 にレビューコメントを提供させます。 このうち意見は各トップ会議の基準と同じであり、以下の4つの部分から構成されています。 研究の重要性と新規性、承認または却下の考えられる理由、改善の提案。 具体的な実験は2つの側面から実施されました。 1 つ目は定量的な実験です。 既存の論文を読み、フィードバックを生成し、実際の人間の意見との重複を体系的に比較します。 ここで研究チームは、Natureとその主要なサブジャーナルから3,096件の論文と、ICLR機械学習カンファレンス(昨年と今年を含む)から1,709件の論文、合計4,805件の論文を選択しました。 そのうち、Nature 論文には 8,745 件の人間による査読コメントが含まれ、ICLR 会議には 6,506 件の人間による査読コメントが含まれていました。 GPT-4 が意見を述べた後、パイプラインはマッチング段階でそれぞれ人間と GPT-4 の議論を抽出し、次にセマンティックテキストマッチングを実行して重複する議論を見つけ、GPT-4 の意見の妥当性と信頼性を測定します。 消す: 1. GPT-4の意見は人間の査読者の実際の意見とかなり重複している 全体的に、Nature の論文では、GPT-4 は少なくとも 1 人の人間の査読者の意見と 57.55% 一致しました。ICLR では、この数値は 77.18% にも達しました。 GPT-4 の意見と各レビュー担当者の意見をさらに慎重に比較した結果、チームは次のことを発見しました。 Nature 論文における GPT-4 と人間の査読者の重複率は 30.85% に低下し、ICLR では 39.23% に低下しました。 しかし、これは 2 人の人間のレビュー担当者間の重複に匹敵します。 Nature 論文における人間の平均重複率は 28.58% ですが、ICLR では 35.25% です。 さらに、論文のレベル(口頭発表、スポットライト、直接拒否)も分析し、次のことがわかりました。 弱い論文の場合、GPT-4 と人間の査読者の重複はより大きくなり、上記の 30% 以上から 50% 近くにまで増加します。 これは、GPT-4 が低品質の論文を識別する能力が高いことを示しています。 著者はまた、受理される前にさらに大幅な修正が必要な論文は幸運だと述べています。正式に提出する前に、誰でも GPT-4 による修正提案を試すことができます。 2. GPT-4は非一般的なフィードバックを与えることができる いわゆる非普遍的なフィードバックとは、GPT-4 が複数の論文に適用できる一般的なレビュー意見を出さないことを意味します。 ここで、著者らは「ペアワイズオーバーラップ率」と呼ばれる指標を測定し、Nature と ICLR の両方でそれが 0.43% と 3.91% に大幅に減少したことを発見しました。 これは、GPT-4 がターゲットになっていることを示しています。 3. 重要かつ普遍的な問題に対する人類の見解に同意する能力 一般的に、人間によるフィードバックの早い段階で現れ、複数のレビュー担当者によって言及されている意見は、重要な共通の問題を表している可能性が最も高くなります。 ここでも、研究チームは、LLM の方が複数の査読者が同意した共通の問題や欠陥を特定する可能性が高いことを発見しました。 つまり、GPT-4 は一般的に受け入れられます。 4. GPT-4の意見は人間とは異なるいくつかの側面を強調している 研究では、GPT-4は人間よりも研究自体の意味についてコメントする頻度が7.27倍高く、研究の新規性についてコメントする可能性が10.69倍高いことが判明した。 GPT-4 と人間はどちらも追加の実験を提案することがよくありますが、人間はアブレーション実験に重点を置いているのに対し、GPT-4 はより多くのデータセットで試すことを提案します。 著者らは、これらの調査結果は、GPT-4と人間の査読者がさまざまな側面に異なる重点を置いていることを示唆しており、両者の協力により潜在的な利点がもたらされる可能性があると述べている。 定量的な実験の先にあるのはユーザー調査です。 この研究では、さまざまな機関の AI および計算生物学の分野の研究者 308 人が、レビューのために GPT-4 に論文をアップロードしました。 研究チームは、GPT-4 のレビューコメントに関する実際のフィードバックを収集しました。 全体的に、参加者の半数以上(57.4%)が、人間が思いつかないような点も含め、GPT-4 によって生成されたフィードバックが役に立つと感じました。 回答者の 82.4% が、少なくとも一部の人間によるレビューアからのフィードバックよりも有益であると感じました。 さらに、回答者の半数以上(50.5%)が、論文を改善するためにGPT-4などの大規模モデルをさらに使用したいという意向を示しました。 研究者の一人は、GPT-4 が結果を出すのに 5 分しかかからなかったと述べています。このフィードバック速度は本当に速く、研究者が論文を改善するのに非常に役立ちました。 もちろん、著者は次のように指摘しています。 GPT-4 にも制限があります。 最も明白なのは、「全体的なレイアウト」に重点が置かれており、特定の技術分野(モデルアーキテクチャなど)に関する詳細なアドバイスが欠けていることです。 そこで著者は次のように結論づけています。 人間のレビュー担当者からの高品質なフィードバックは依然として不可欠ですが、正式なレビューの前にフィードバックを使用してテストし、実験や構築で見落とされた詳細を補うことができます。 もちろん、彼らはまた次のことを思い出させました: 正式なレビュー中、レビュー担当者は LLM に依存せず、独立して参加する必要があります。 作品はすべて中国語ですこの研究の第一著者は3名おり、全員が中国人で、スタンフォード大学コンピューターサイエンス学部の出身者である。 彼らです:
論文アドレス: https://arxiv.org/abs/2310.01783 |
<<: ALS の少年がアリ数学コンテストで輝く!ブラックホールを研究するためにMITに独学で入学、指導者はホーキングと非常に似ている
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
中国科学院は、Adobe および Apple の研究者と共同で、画像編集における拡散モデルに関する主...
7月19日、「新バージョンの文心易言の性能はChatGPT 3.5を上回り、これは我が国の関連技術作...
金庸の武侠小説『射雁英雄伝』には、桃花島に閉じ込められた「悪童」周伯同が「左右の格闘術」を編み出した...
[[411530]]人工知能ソリューションは、今日の主要産業が直面している最も複雑な問題のいくつか...
ChatGPTに代表される大規模モデル技術の急速な発展により、レコメンデーションシステムは革命的な変...
【51CTO.comオリジナル記事】 【はじめに】 2019年後半、RPAは一気に普及したように思わ...
自律型ドローン技術は、業界全体に変革をもたらす力として登場し、比類のない効率性と革新性を約束していま...
[[357616]] International Journal of Engineering an...
ディープラーニングにおける現在の技術的なボトルネックに対応して、清華大学の張北氏を含む多くの学者や教...