知遠の「盗作スキャンダル」最新報道：盗作2件、不正引用4件、関係者全員が自主辞任

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

「そのうち2つは盗作であり、4つは不適切な引用です。」

「関係責任者は自主的に辞職しました。」

「大型模型研究センター部門の再編」

…

数百人が共同で作成した「ビッグモデルへのロードマップ」と題するレビュー報告書が、盗作の疑いで国内外の学界から大きな注目を集めている。

これを受けて、事件を担当した北京人工知能研究院は、事件調査の最新結果を発表した。

通知では、上記の点に加え、この「盗作」事件の主な責任者は知遠大型模型研究センターの職員であるとも指摘されている。

国内外で激しい議論を巻き起こした学術盗用事件の背後では、いったい何が起こっていたのだろうか。

盗作2件、不正引用4件

この「盗作スキャンダル」の焦点であるこの調査報告書は、中国科学院大型モデル研究センターが主導し、国内外の19の機関の研究者100人によって執筆された。

通知によれば、このレビューは16の独立した特別記事で構成されている。

第12条を除き、各記事には対応する著者と連絡著者がいます。

そして、「コラボレーション」のプロセスで根本的な問題が発生します。

通知の「組織的過失の判定」のセクションで、智源研究院は次のように述べています。

知遠大型模型研究センターのスタッフは、学術出版の標準手順を厳密に遵守せず、他の著者に確認することなく、2022年3月26日にレビューレポートをarXivにアップロードしました。彼らが主な組織的責任を負います。

さらに、この通知は、レビューの内容に対する以前のネットユーザーの疑問にも応えた。

まず、知源研究院は、問題となっているクリップのうち2つが盗作であることを認めた。

最初の盗用部分は、レビューレポートの2 番目の記事のセクション 2.3.1であり、合計 179 語の複数の繰り返し文が含まれています。

「学術出版基準：ジャーナルにおける学術不正行為の定義」の「論文著者による学術不正行為の種類」によると、

文章表現の盗用：他人の公開文書の文章表現を段落全体で使用する。引用はされているが、使用されている文章は引用符で囲まれておらず、フォントも変更されておらず、特定の配置で表示されていない。

この盗用された文章は、この指定されたカテゴリに該当し、「IEEE 出版物サービスおよび製品委員会運用マニュアル」の「盗用のさまざまなレベルを判断するためのガイドライン」のレベル 5 にも達します。

判断のポイントは、記事の主要部分がそのままコピーされていること、引用はされているものの明確な区別がないことなどです。

（注：盗作は5つのレベルに分かれており、レベル1が最も深刻で、レベル5が最も軽度です）

この点について、通知では、本論文の著者2名（ともに知遠大型模型研究センターの職員）がそれぞれ直接の責任と過失の責任を負うと述べられている。

2 つ目の盗用箇所は、第 8 条のセクション 8.3.1 で、74 語の文章全体が繰り返されています。

この段落の責任著者も知遠大型模型研究センターの者です。彼は記事の出版前に責任著者に確認しなかったため、直接責任を負うべきです。

この点に関して、智源研究所は次のように述べた。

上記2名の著者は、IEEEマニュアルの対応する是正措置に従って原著者に謝罪し、原著者の理解を得て、担うべき関連する学術的責任を果たしました。

さらに、通知では、問題となっているクリップのうち4つが不正な方法で引用されていたとも述べられていた。

彼らです：

第10条: 重複した言葉がいくつかある
第12条: セクション12.2.3には36個の単語が重複しているが、完全な文はない
第14条：第14.2.2項 63語が複数の文で繰り返される
第16条：第16.1項には複数の繰り返し文が含まれている

また、知源研究所も上記の問題に対応する情報を著者に通知しました。

残りの問題となっているクリップについては、通知書には「標準的な引用」であると記載されていた。

「関係責任者は全員辞任した」

通知の最後に、智源研究院は「処理と是正の結果」も発表した。

まず、中国学院は、問題となる可能性のある論文の著者に対し、原著者への書面による謝罪を義務付けており、「原著者からのフィードバックと理解は得ている」と述べた。

第二に、「二つの盗作」に関わった人物はいずれも智源研究所大型模型研究センターの関係者であるため、次のように決定が発表された。

部門を再編成します。

そして、関係責任者全員が自主的に辞職しました。

出版プロセスの抜け穴については、知源研究院は「論文出版プロセスを是正し、科学研究の誠実性と学術スタイルの構築システムを改訂・改善した」と述べた。

同時に、この事件を受けて、知源研究所もフォローアップ計画を立てました。

同研究所は、同様の問題が再発しないように、学界や産業界と協力して、より厳格な文献引用基準を策定し、論文やコード用のオープンソース検出ツールとシステムを開発する予定です。

イベントレビュー

最新の報告書を読んだ後、この事件の全過程を振り返ってみましょう。

4月8日、Google Brainの研究者であるニコラス・カルリーニ氏は次のように書いている。

記事「A Roadmap for Big Model」は最近発表された論文を盗用したものでした。

彼は明らかに盗作である10段落をリストアップし、同じテキストの部分を緑色でマークしました。

カルリーニ氏がこの状況を発見した経験も、かなり劇的なものでした。当初、彼の論文共同執筆者の一人は、智遠氏の論文から何を学ぶ価値があるのか知りたかったのですが、論文を読み進めていくうちに、いくつかの部分がどんどん奇妙に思えてきて、最終的に、論文のいくつかの段落が自分の論文から直接コピーされたものであることがわかりました。

同時に、データ収集と予備検証を通じて、カルリーニ氏はこの論文が他の著者の論文10本以上を盗用している疑いがあることも発見した。

カルリーニ氏が知遠氏の論文に盗作の疑いがあると暴露すると、その論文はすぐに国内外で広く注目を集めた。

LeCun氏も次のようにコメントしています。

一部のネットユーザーは、これは学術的規範をよく理解していないチームの学生によって書かれたものであり、他のほとんどの学生は単に名前が挙がっているだけだと考えている。

他の人たちは、自分たちが遭遇した学術上の不正行為の話を共有しました。

問題の論文の著者とされる人物が、論文執筆に残された時間はわずか1週間余りと非常に限られていると明かした。彼は学生たちに残された時間はもっと少ないかもしれないと推測し、大量の部分をコピーした。

この問題を解決したいのであれば、著者にもっと多くの時間と機会を与えるべきです。

事態が深刻化すると、知遠当局は迅速に対応した。

4月13日、知遠は「『ビッグモデルのロードマップ』レビュー報告書の問題点に関する謝罪文」を発表し、その2日後には問題の論文について独自に調査を行う調査チームの設立を発表した。

7月15日、知遠は調査結果を正式に発表した。

知遠の審査メカニズムと、その結果の最終的な公開と透明性の発表は、この問題を処理する比較的適切な方法であると考えられる。

当初、知遠の論文が盗作の疑いがあると明らかにしたカルリーニ氏は、後に、その論文が予想以上に注目を集めたため、これを「魔女狩り」にしないよう皆に懇願したと述べた。