あなたのバイオテクノロジー研究は影響力がありますか? MITの機械学習フレームワークは期待できる

[[400942]]

研究者にとって最も嬉しいことは、論文が「受理」されることです。論文が出版された後、どのような影響が出るでしょうか？あなたの研究分野の将来の可能性は何ですか? …現在、機械学習は従来の評価基準を「打ち破り」、新たな方法で解釈されるようになります。

現在、引用数、h指数、ジャーナルインパクトファクターなど、論文の引用に基づいた測定指標は数多く存在します。これらの指標は論文の質を示す指標としては最適ではないだけでなく、その後の学術的な採用、昇進、資金調達などにおいても最適ではない決定につながります。

これらの指標は、研究の質を測る尺度として、不完全で一貫性がなく、簡単に操作できるものしか提供しません。機械学習の台頭により、公開された研究の潜在的な影響を判断するための視点が増えました。

これを基に、マサチューセッツ工科大学（MIT）の研究者らは、過去の科学出版物のパターンを学習することで、将来の大きな影響を与える技術に対する「早期警告」信号を提供できる、DELPHI（高影響を予測するための学習による動的早期警告）と呼ばれる人工知能フレームワークを確立した。既存の未活用のリソースの膨大な数を解放します。限られたリソースをより効率的かつ公平に配分し、科学技術に総合的に投入されたリソースの収益性を高めます。

この研究は、「ナレッジグラフダイナミクスの学習が影響力のある研究の早期警告を提供する」というタイトルで、5月17日のネイチャーバイオテクノロジー誌に掲載されました。

科学事業の効果的な発展は、有望な研究者やプロジェクトのグループ間でリソースを特定し、最適に割り当てる総合的な能力にかかっています。このプロセスは、主に、採用、昇進、編集出版物を通じて直接的または間接的に採用される割り当て方法に依存します。

デジタル科学コーパスの規模の爆発的な増加により、新しいデータ駆動型手法の開発が促進されました。現代の科学事業によって生成される膨大な量のデータに人工知能の手法を適用することで、新たな科学的影響や革新のより早い、またはより意味のあるシグナルが得られる可能性があります。

データ駆動型アルゴリズムは、利用可能な膨大な量の高次元デジタル科学情報を消化し、意味のある低次元信号を生成し、それを人間の専門知識と直感と組み合わせます。さらに、このような方法は複数の目的関数を組み込むことができ、望ましい結果の範囲に拡張できます。

これまでの研究では、ナレッジグラフから信号を抽出することの価値が実証されています。しかし、現在のところ、これらのアプローチと人工知能の手法を組み合わせ、過去から学び、将来最も影響力のある科学技術を特定する能力を向上させるフレームワークは存在しません。

この研究では、科学文献で計算された一連の特徴間の高次元の関係を分析することで、潜在的に影響力の大きい研究を予測するための機械学習フレームワーク DELPHI を提案します。研究者らは、1980年から2019年の間に（バイオテクノロジー関連の42誌のジャーナルに掲載された）発表された1,687,850件の研究論文を含むデータセットを使用し、そこから発表後1～5年における各論文、著者、ジャーナル、ネットワークに関連する29の特徴を導き出した。次に、各論文の特徴を使用して機械学習モデルをトレーニングし、このモデルが影響の「警告」信号を発するようにします。

動的なナレッジグラフから科学的影響の早期警告信号を収集、構築、計算、学習します。（出典：論文）

研究者らはDELPHIを使用して、2023年までに大きな影響を与える最新の科学論文50件を予測した。論文では、がん治療のための DNA ナノロボット、高エネルギー密度リチウム酸素電池、ディープニューラルネットワークを使用した化学合成などのトピックが取り上げられています。

「本質的に、私たちのアルゴリズムは科学の歴史からパターンを学習し、それらのパターンを新しい出版物と照合することで、大きな影響力を持つ初期の兆候を見つけます」とワイス氏は語った。「アイデアの初期の普及を追跡することで、それがより広い学術コミュニティに有意義な形で広がる可能性を予測することができます。」

潜在的な影響の予測

ワイス氏とジェイコブソン氏が開発した機械学習アルゴリズムは、1980 年代以降科学出版物で急増した膨大な量のデジタル情報を活用します。しかし、引用数などの 1 次元の指標を使用して出版物の影響を判断するのではなく、DELPHI は、ジャーナル記事のメタデータの完全な時系列ネットワークに基づいてトレーニングされ、科学エコシステム全体にわたる高次元の分布を明らかにします。

結果は、論文、著者、機関、およびその他の種類のデータを表すノード間の接続を含む知識グラフです。これらのノード間の複雑な接続の強度とタイプによって、フレームワークで使用されるプロパティが決まります。「これらのノードとエッジは、DELPHI が将来の大きな影響のあるパターンを予測するために学習するために使用する時間ベースのグラフを定義します」と Weis 氏は説明します。

出版後 5 年経過したタイムスケールノードの中心にある論文の上位 5% は、DELPHI が特定することを目指している「高影響力」ターゲットセットと見なされます。上位 5% の論文が、チャート全体の影響力の 35% を占めています。

低インパクト出版物と高インパクト出版物の共著と引用ネットワーク構造の比較進化の視覚化。（出典：論文）

DELPHI は、引用数に比べて 2 倍以上の影響力の大きい論文を特定します。これには、引用基準を満たさなかった「隠れた逸品」論文の 60% が含まれます。

研究者たちは、場合によってはDELPHIを使用することで、影響力の大きい論文の「警告サイン」がかなり早い段階で明らかになったことに驚いた。「発売から1年以内に、後々大きな影響を与えるであろう『隠れた宝石』をすでに特定しました」とワイス氏は語った。

「しかし、DELPHI は未来を完全に予測するものではありません」と彼は警告した。「私たちは機械学習を使用して、既存データの次元とダイナミクスに隠された信号を抽出し、定量化しています。」

公平かつ効率的

これまで、引用やジャーナルのインパクトファクターなどの論文の影響力の尺度は操作されてきたが、研究者らは、DELPHI が論文の影響力を評価するための偏りの少ない方法を提供することを期待していると述べている。

「すべての機械学習フレームワークと同様に、設計者とユーザーはバイアスに注意する必要があります」とワイス氏は言います。「データとモデルに潜在的なバイアスがないか常に注意する必要があります。DELPHI は、バイアスの少ない方法で最良の研究を見つけるのに役立つようにしたいと考えています。そのため、h 指数、著者の引用数、機関の所属など、最適ではない指標のみに基づいてモデルが将来の影響を予測しないように注意する必要があります。」

ワイス氏は、バイオテクノロジーの新興企業向けのベンチャーキャピタルファンドとラボインキュベーション施設を立ち上げた後、このことについて深く考えた。

「私を含め、投資家たちが同じ場所で同じ考え方で新しい企業を探していることにだんだん気づきました」と彼は言います。「見落とされがちな膨大な才能と素晴らしい技術を垣間見るようになりました。この分野で働く方法があるはずだ、そして機械学習は、この未開発の可能性をすべて発見し、より効率的に実現するのに役立つはずだと考えました。」

参考文献:

https://news.mit.edu/2021/using-machine-learning-predict-high-impact-research-0517

論文リンク:

https://www.nature.com/articles/s41587-021-00907-6

<<: ロボットセンサー市場は2026年までに40億ドルを超える

>>: AI時代におけるコンピュータのマクロ的な意義について語る