1週間前、コンピュータービジョン分野の古典であるHe Kaiming氏のResNet論文が、論文提出からわずか6年で10万回以上引用された。この作品の人気は、ResNet 自体の実証された成功を示すだけでなく、AI 分野、特にコンピューター ビジョンの人気を裏付けるものでもあります。 しかし、ResNet の引用率の高さは、問題も明らかにしています。つまり、コンピューター ビジョンの分野では毎年非常に多くの新しい論文が発表されているのに、なぜ研究者は ResNet を引用として選ぶことが多いのでしょうか。引用数の多い古典論文への傾向は、この分野に進歩をもたらすのでしょうか、それとも停滞をもたらすのでしょうか?新しく発表された論文が次の古典となる可能性はあるでしょうか? SCI ジャーナル PNAS に最近掲載された論文「科学の大きな分野における標準的な進歩の鈍化」では、ノースウェスタン大学とシカゴ大学の 2 人の研究者が上記の疑問に答え、科学分野で発表された論文の量、質、引用の間の複雑な関係を詳細に調査しました。 論文アドレス: https://www.pnas.org/content/pnas/118/41/e2021636118.full.pdf 科学の進歩については、「多ければ多いほど良い」という単純な見方があります。ある分野で発表される論文の数が増えるほど、科学の進歩は速くなり、研究者の数が増えるほど、研究対象は広くなります。すべての論文が大きなインパクトをもたないとしても、それらすべてが砂山を形成する砂粒となり、質的変化の可能性が高まります。このプロセスにおいて、科学的な展望は再構成され、構造的探究において新たなパラダイムが生まれました。 より多くの論文が出版されると、少なくともそのうちの 1 つに重要な革新が含まれている可能性も高まります。破壊的な新しいアイデアは現状を揺るがし、以前の研究から注目を集め、新たな引用を大量に生み出す可能性があります。 この分野の一般的な方針は、この「多ければ多いほど良い」という考えを反映しています。学者は生産性に基づいて評価され、報酬が与えられ、一定期間内により多くの論文を発表することが終身在職権と昇進への最も確実な道です。大学と企業の比較では量が依然として基準となっており、出版物、特許、科学者、資金の総数は依然として最優先事項となっています。 品質も主に量によって判断されます。引用数は、分野における個人、チーム、学術雑誌の重要性を測定するために使用されます。論文レベルでは、最も優れた価値の高い論文がより多くの注目を集め、それによってその分野の研究の方向性が決まると考えられています。 論文では、毎年発表される論文の数が非常に多い場合、新しい論文が急速に流入することで、学術界は広く引用されている論文に集中せざるを得なくなり、その結果、たとえその中に斬新で有用、そして変革をもたらす可能性のあるアイデアを提示するものがあったとしても、あまり成熟していない論文への注目が薄れてしまうと予測している。多数の新しく発表された論文の出現は、分野のパラダイムの急速な変化を引き起こすのではなく、引用数の多い論文を統合し、新しい研究がその分野で最も引用され、よく知られた古典となることを妨げてきました。 研究者らは実験分析を通じてこれらの考えを検証し、科学研究機関が量を重視することが根本的な進歩を妨げる可能性があることを示した。各分野で毎年発表される研究の量が増え続けるにつれて、この悪影響は増大するでしょう。そして、この分野では何よりも論文数を重視している、根深い複雑な構造があることを考えると、これは避けられないことです。科学的生産性の価値連鎖を再構築するための政策措置を調整し、潜在力のある新しいアイデアに国民の注目を再び集める必要がある。 この記事は主に何について書かれていますか?この論文では、分野規模、つまり特定の年に分野内で発表される論文数の影響に焦点を当てています。これまでの研究では、少なくとも部分的には偏見が原因で、多くの分野で引用の不平等が増加していることが明らかになっています。しかし、論文は過去数年間にわたって引用レベルとランキングを維持できないことがよくあります。破壊的な論文が以前の研究に取って代わる可能性があり、引用数の自然な変動も論文のランキングに影響を与える可能性があります。 したがって、研究者たちは、領域が十分に大きくなると、変化のダイナミクスが変化すると予測しています。最も多く引用された論文は定着し、将来的には不釣り合いな量の引用を受けることになります。新しい論文は優先的な添付によって引用を蓄積することができないため、古典になることはできません。新しく発表された論文が、既存の学術的束縛に影響を及ぼすことはめったにありません。 彼らは上記の予測を裏付ける 2 つのメカニズムを示しました。一方、ある分野で短期間に大量の論文が発表される場合、学者はその分野を継続的に理解するために発見的な方法に頼らざるを得なくなります。認知的に過負荷になっている査読者や読者は、新しい論文を読んでも、その中の新しいアイデアを考慮することはなく、既存の例の論文と関連付けるだけです。既存の型にはまらない新しいアイデアは、出版されず、読まれず、引用されない可能性が高くなります。 この変化を求める動きに直面して、著者は自分の研究を有名な論文にしっかりと結び付けざるを得なくなります。これらのよく知られた論文は、新しい研究がどのように理解されるべきかを定義し、あまりにも斬新で既存の古典と簡単に結び付けられないアイデアの追求を思いとどまらせる「知的バッジ」として機能します。その結果、画期的な新しいアイデアが生み出され、出版され、広く読まれる可能性は低下し、出版される新しい論文ごとに、引用数の多い論文の引用数が不釣り合いに増加することになります。 一方、新しいアイデアがあまりにも早く登場すると、アイデア間の競争により、新しいアイデアがその分野で広く知られ、受け入れられなくなる可能性があります。なぜこんなことが起こったのでしょうか?研究者たちは、これを説明するために、特定の分野におけるアイデアの広がりの砂山モデルを例に挙げた。 砂は一粒ずつゆっくりと砂山に落ち、砂山の動きが止まるまで待ってから次の砂が落ちます。時間が経つにつれて、砂山はスケールフリー臨界状態に達し、砂粒 1 個で砂山全体の崩壊を引き起こす可能性があります。しかし、砂が非常に速い速度で落下すると、隣接する小さな崩壊が互いに干渉し合い、砂の粒子が砂山内で変位を引き起こすことができなくなります。つまり、砂が速く落ちるほど、新しい砂粒が影響を与えることができる面積は小さくなります。論文についても同じことが言えます。論文の発表が早すぎると、新しい論文が地域的な普及や優先的な支持によって古典となることはできなくなります。 これら 2 つの議論から 6 つの予測が導き出されます。そのうちの 2 つは、最も多く引用される論文の長期的な優位性と、新しく発表された論文の無益性と、その論文自体の破壊力の低下です。 まとめると、毎年発表される論文数が少ない分野と比較して、毎年多くの論文が発表される分野では、次の 6 つの状況に直面することになります。
どのようなデータと方法が使用されましたか?研究者らは、Web of Scienceのデータセットを使用して、1960年から2014年までに出版された論文、合計90,637,277件と1,821,810,360件の引用を分析した。 Web of Science は、学術分野、または場合によっては大きなサブフィールドを分野に分割します。したがって、研究者の分類には合計 241 の分野があり、分野レベルの分析の基礎として機能します。その中で、焦点となる論文が同じトピックに関して毎年新たに発表された論文から受ける引用数は、研究者の主な関心変数を構成します。 10 大非学際分野の 1 減衰率 (λ) を計算するために、分野ごとに、出版された論文数の 10 の対数で年を分割し、カットオフを 1、1.5、2、2.5、3、3.5、4、4.5、5、5.5 に設定し、さらに、その分野年で最も引用されたパーセンタイルで年を分割し、カットオフを 1、2、3、…、100 に設定しました。各(出版された論文の記録数)×(引用パーセンタイル)について、2年目の論文の引用数を、焦点年の論文の引用数に回帰しました。この回帰の係数は 1-λ になります。 さらに、すべての分野の 1-λ を計算するために (下の図 2D を参照)、研究者は 1 パーセンタイル、2 パーセンタイル、5 パーセンタイル、10 パーセンタイル、25 パーセンタイルで最も引用数の多い上位 100 件の論文を選択しました。彼らは、出版された論文の数の 10 を底とする対数 (カットオフ 1、1.5、2、2.5、3、3.5、4、4.5、5、および 5.5) によって主題年を分類しました。各ビン × 選択されたパーセンタイルについて、2 年目の論文の引用数を、焦点年の論文の引用数に回帰しました。この回帰の係数は 1 - λ になります。 これらの予測は実現したのでしょうか?研究者の予測はすべて、以下の図 1 ~ 4 に示すように、Web of Science データセットの引用パターンで確認されました。分野の数が増えると、最も多く引用される論文が常に優位になり、引用分布において絶対的な優位性を持ちます。対照的に、新しい論文は引用数が多くなる可能性が低く、時間の経過とともに注目を集めることができません。出版された論文は、破壊的というよりは既存のアイデアを発展させる傾向があり、画期的な新しい研究トレンドを生み出すことはめったにありません。 具体的には、最も多く引用される論文は、より大きな分野で不釣り合いに高い引用シェアを獲得します。下の図 1A に示すように、最大引用シェアの分野のジニ係数は約 0.5 です。引用数の多い論文の引用数が不均衡になると、不平等な注目が増大します。 たとえば、電気電子工学の分野では年間約 10,000 件の論文が出版されますが、最も多く引用される上位 0.1% と上位 1% の論文は、総引用数の 1.5% と 8.6% を占めます。この分野では年間 50,000 件の論文が出版されており、引用数上位 0.1% と上位 1% の論文は、総引用数の 3.5% と 11.9% を占めています。この分野が今よりずっと大きく、年間 10 万本の論文が出版されていた頃は、最も多く引用された論文の上位 0.1% と上位 1% が、総引用数の 5.7% と 16.7% を占めていました。 対照的に、最も引用数の少ない論文の下位 50% の総引用数に占める割合は、年間 10,000 件の論文では 43.7% ですが、年間 50,000 件および 100,000 件の論文では 20% 強にまで減少します。 分野のデータを時系列で見ると、毎年発表される論文数が多いほど、最も引用された論文上位 50 件のランキング間の相関関係が増すというパターンが見られます (図 1B)。その後数年間、ある分野で最も引用された上位 50 件のリストのスピアマン順位相関は、1,000 件の論文が出版されたときの 0.25 から、100,000 件の論文が出版されたときの 0.74 に増加しました。 図1 分野が広い場合、最も引用される論文の引用数は年々増加し続けますが、他のすべての論文の引用数は減少します。下の図 2 は、今年度の論文の引用数と前年度の引用数の予測比率を示しています。論文数が少ない年には、最も引用された論文の比率は 1 を大幅に下回り、引用数の少ない論文の比率とあまり変わりません。しかし、出版された論文の数が多い年には、最も引用された論文の比率は 1 に近くなり、引用数の少ない論文の比率よりも大幅に高くなります。 約 100,000 件の論文が出版される非常に大規模な分野の年では、最も引用された論文の引用数は平均して年ごとに減少しません。対照的に、上位 1% 以外にランク付けされた論文は、平均して年間約 17% の引用が失われ、上位 5% 以下にランク付けされた論文は、年間 25% の引用が失われる傾向があります。 図2 同じ分野で同時に多くの論文が発表されると、1 つの論文が引用数の上位 0.1% に入る確率は低下します。この現象は、図 3A に示すように、同じ年に異なる分野が発表された場合や、異なる年に同じ分野が発表された場合にも当てはまります。一般的に言えば、より大きな分野の論文が最も多く引用されており、局所的な拡散などのプロセスを通じて引用されることはほとんどありません。 図 3B は、論文がその分野で最も引用される論文の 1 つになった場合に、その論文が関連分野に掲載されるまでの平均時間 (年数) を示しています。分野が小さい場合、論文は時間の経過とともにゆっくりと上昇し、最も引用される論文の上位 0.1% に入ります。 1980年に小さな分野(回帰予測)で発表された論文を例に挙げてみましょう。同じ分野で1,000本の論文が発表された場合、1本の論文が最も引用される論文になるまでに平均9年かかります。対照的に、最大の分野では古典的な論文がすぐに引用チャートのトップに上がりますが、これは、学者が他の人の論文で引用されている参考文献を読んで新しい研究を発見するという累積的なプロセスとは矛盾しています。同じ回帰分析により、年間 10 万件の論文が出版される大規模な分野では、論文が引用数の上位 0.1% に到達するまでにかかる平均時間は 1 年未満であると予測されます。 図3 同じ年に発表された論文のほとんどは、既存の文献を破壊するのではなく、それに基づいて構築されました (図 4A)。ロジスティック適合では、この分野で年間 1,000 件の論文が出版されると、論文の 49% が破壊的指標 D > 0 を持つことが予測されます (逆に、51% は D < 0 です)。論文が 10,000 本出版されると中止率は 27% に低下し、論文が 100,000 本出版されると中止率は 13% に低下しました。 D > 0 の場合でも、新しく発表された論文の混乱の尺度は、より大きな分野では弱まります。図 4B は、混乱指標の上位 5 パーセンタイルにランクされた、分野年別の新しい論文の割合を示しています。 Lowess の推定によると、トップ 5 パーセンタイルの破壊的指標を持つ新しい論文の割合は、この分野で年間 1,000 件の論文が出版される場合の 8.8% から、年間 10,000 件の論文では 3.6%、年間 100,000 件の論文では 0.6% に減少します。 図4 |
>>: 3つの側面での共同の取り組みにより、人工知能はスマート交通の発展に貢献します。
[[335519]]感染症流行後も実体経済は厳しい状況が続いている。生産停止、収益の急激な減少、資...
世界がインダストリー4.0へと向かうにつれ、モノのインターネットへの世界的な支出は2022年までに1...
[[359388]]政府機関による顔認識技術の利用に対する法的規制に関して、特別ライセンス制度は、顔...
[[412546]]量子コンピューティング + 機械学習は分子シミュレーションの分野でどのような火花...
ノアが編集制作:51CTO テクノロジースタック(WeChat ID:blog)生成 AI は De...
序文前回の記事では列挙型の最適化について説明しました。今回は時刻形式である DateTime の最適...
編集者注:過去2年間、ロボタクシーの公共運行は中国の多くの場所で開花しました。これらのロボタクシーに...
[[435329]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
人工知能 (AI) は研究と産業の両方で驚異的な成長を遂げ、科学、医学、金融、教育など多岐にわたる分...