あなたのバイオテクノロジー研究は影響力がありますか? MITの機械学習フレームワークは期待できる

あなたのバイオテクノロジー研究は影響力がありますか? MITの機械学習フレームワークは期待できる

[[400942]]

研究者にとって最も嬉しいことは、論文が「受理」されることです。論文が出版された後、どのような影響が出るでしょうか?あなたの研究分野の将来の可能性は何ですか? …現在、機械学習は従来の評価基準を「打ち破り」、新たな方法で解釈されるようになります。

現在、引用数、h指数、ジャーナルインパクトファクターなど、論文の引用に基づいた測定指標は数多く存在します。これらの指標は論文の質を示す指標としては最適ではないだけでなく、その後の学術的な採用、昇進、資金調達などにおいても最適ではない決定につながります。

これらの指標は、研究の質を測る尺度として、不完全で一貫性がなく、簡単に操作できるものしか提供しません。機械学習の台頭により、公開された研究の潜在的な影響を判断するための視点が増えました。

これを基に、マサチューセッツ工科大学(MIT)の研究者らは、過去の科学出版物のパターンを学習することで、将来の大きな影響を与える技術に対する「早期警告」信号を提供できる、DELPHI(高影響を予測するための学習による動的早期警告)と呼ばれる人工知能フレームワークを確立した。既存の未活用のリソースの膨大な数を解放します。限られたリソースをより効率的かつ公平に配分し、科学技術に総合的に投入されたリソースの収益性を高めます。

この研究は、「ナレッジグラフダイナミクスの学習が影響力のある研究の早期警告を提供する」というタイトルで、5月17日のネイチャーバイオテクノロジー誌に掲載されました。

科学事業の効果的な発展は、有望な研究者やプロジェクトのグループ間でリソースを特定し、最適に割り当てる総合的な能力にかかっています。このプロセスは、主に、採用、昇進、編集出版物を通じて直接的または間接的に採用される割り当て方法に依存します。

デジタル科学コーパスの規模の爆発的な増加により、新しいデータ駆動型手法の開発が促進されました。現代の科学事業によって生成される膨大な量のデータに人工知能の手法を適用することで、新たな科学的影響や革新のより早い、またはより意味のあるシグナルが得られる可能性があります。

データ駆動型アルゴリズムは、利用可能な膨大な量の高次元デジタル科学情報を消化し、意味のある低次元信号を生成し、それを人間の専門知識と直感と組み合わせます。さらに、このような方法は複数の目的関数を組み込むことができ、望ましい結果の範囲に拡張できます。

これまでの研究では、ナレッジグラフから信号を抽出することの価値が実証されています。しかし、現在のところ、これらのアプローチと人工知能の手法を組み合わせ、過去から学び、将来最も影響力のある科学技術を特定する能力を向上させるフレームワークは存在しません。

この研究では、科学文献で計算された一連の特徴間の高次元の関係を分析することで、潜在的に影響力の大きい研究を予測するための機械学習フレームワーク DELPHI を提案します。研究者らは、1980年から2019年の間に(バイオテクノロジー関連の42誌のジャーナルに掲載された)発表された1,687,850件の研究論文を含むデータセットを使用し、そこから発表後1~5年における各論文、著者、ジャーナル、ネットワークに関連する29の特徴を導き出した。次に、各論文の特徴を使用して機械学習モデルをトレーニングし、このモデルが影響の「警告」信号を発するようにします。

動的なナレッジ グラフから科学的影響の早期警告信号を収集、構築、計算、学習します。 (出典:論文)

研究者らはDELPHIを使用して、2023年までに大きな影響を与える最新の科学論文50件を予測した。論文では、がん治療のための DNA ナノロボット、高エネルギー密度リチウム酸素電池、ディープ ニューラル ネットワークを使用した化学合成などのトピックが取り上げられています。

「本質的に、私たちのアルゴリズムは科学の歴史からパターンを学習し、それらのパターンを新しい出版物と照合することで、大きな影響力を持つ初期の兆候を見つけます」とワイス氏は語った。 「アイデアの初期の普及を追跡することで、それがより広い学術コミュニティに有意義な形で広がる可能性を予測することができます。」

潜在的な影響の予測

ワイス氏とジェイコブソン氏が開発した機械学習アルゴリズムは、1980 年代以降科学出版物で急増した膨大な量のデジタル情報を活用します。しかし、引用数などの 1 次元の指標を使用して出版物の影響を判断するのではなく、DELPHI は、ジャーナル記事のメタデータの完全な時系列ネットワークに基づいてトレーニングされ、科学エコシステム全体にわたる高次元の分布を明らかにします。

結果は、論文、著者、機関、およびその他の種類のデータを表すノード間の接続を含む知識グラフです。これらのノード間の複雑な接続の強度とタイプによって、フレームワークで使用されるプロパティが決まります。 「これらのノードとエッジは、DELPHI が将来の大きな影響のあるパターンを予測するために学習するために使用する時間ベースのグラフを定義します」と Weis 氏は説明します。

出版後 5 年経過したタイムスケール ノードの中心にある論文の上位 5% は、DELPHI が特定することを目指している「高影響力」ターゲット セットと見なされます。上位 5% の論文が、チャート全体の影響力の 35% を占めています。

低インパクト出版物と高インパクト出版物の共著と引用ネットワーク構造の比較進化の視覚化。 (出典:論文)

DELPHI は、引用数に比べて 2 倍以上の影響力の大きい論文を特定します。これには、引用基準を満たさなかった「隠れた逸品」論文の 60% が含まれます。

研究者たちは、場合によってはDELPHIを使用することで、影響力の大きい論文の「警告サイン」がかなり早い段階で明らかになったことに驚いた。 「発売から1年以内に、後々大きな影響を与えるであろう『隠れた宝石』をすでに特定しました」とワイス氏は語った。

「しかし、DELPHI は未来を完全に予測するものではありません」と彼は警告した。「私たちは機械学習を使用して、既存データの次元とダイナミクスに隠された信号を抽出し、定量化しています。」

公平かつ効率的

これまで、引用やジャーナルのインパクトファクターなどの論文の影響力の尺度は操作されてきたが、研究者らは、DELPHI が論文の影響力を評価するための偏りの少ない方法を提供することを期待していると述べている。

「すべての機械学習フレームワークと同様に、設計者とユーザーはバイアスに注意する必要があります」とワイス氏は言います。「データとモデルに潜在的なバイアスがないか常に注意する必要があります。DELPHI は、バイアスの少ない方法で最良の研究を見つけるのに役立つようにしたいと考えています。そのため、h 指数、著者の引用数、機関の所属など、最適ではない指標のみに基づいてモデルが将来の影響を予測しないように注意する必要があります。」

ワイス氏は、バイオテクノロジーの新興企業向けのベンチャーキャピタルファンドとラボインキュベーション施設を立ち上げた後、このことについて深く考えた。

「私を含め、投資家たちが同じ場所で同じ考え方で新しい企業を探していることにだんだん気づきました」と彼は言います。「見落とされがちな膨大な才能と素晴らしい技術を垣間見るようになりました。この分野で働く方法があるはずだ、そして機械学習は、この未開発の可能性をすべて発見し、より効率的に実現するのに役立つはずだと考えました。」

参考文献:

https://news.mit.edu/2021/using-machine-learning-predict-high-impact-research-0517

論文リンク:

https://www.nature.com/articles/s41587-021-00907-6

<<:  ロボットセンサー市場は2026年までに40億ドルを超える

>>:  AI時代におけるコンピュータのマクロ的な意義について語る

ブログ    
ブログ    

推薦する

ウルトラマンの新技に開発者激怒! ChatGPTプラグインは放棄され、作者がGPTに目を向けたことを示唆している。

ウルトラマンの新たな動きが多くの開発者を怒らせた。これらの開発者は、プラグインの開発許可を待つのでは...

機械学習モデルの導入における課題に対処する方法

[[377893]] [51CTO.com クイック翻訳] データとオープンソースの機械学習フレーム...

自撮り写真でAIがあなたの顔を認識できないようにする方法

現在、顔認識システムがプライベートな写真で訓練されるのを防ぐツールがますます増えている。個人の写真を...

推論性能はH100の10倍! 21歳の中国人男性がハーバード大学を中退しAI加速チップ「Sohu」を開発、2人の会社の価値は3400万ドル

ピカのような神レベルの起業家物語が再び起こるでしょうか?ハーバード大学を中退した2人の若者が、大規模...

3大分野で需要が解放され、2021年には検査ロボットの開発が期待される

近年、人口ボーナスの継続的な減少に伴い、無人作業の需要がますます顕著になり、ロボット産業は急速な発展...

SAPはイノベーションで顧客の成功を支援し、AI時代のデータ主導のビジネス変革の未来を形作ります

SAP は、AI 時代において顧客がデータの潜在能力を最大限に活用し、より深い洞察、より速い成長、よ...

面接でよく聞かれるアルゴリズムに関する18の質問

アルゴリズムは比較的複雑かつ基本的な科目です。プログラミングを学ぶ人は誰でも、多数のアルゴリズムを学...

...

AIも催眠術をかけられるのか?

いつか、おそらく数十年以内に、人工ニューラル ネットワークを使用して、人間の脳をリアルにシミュレート...

...

モノのインターネット向けのデータストリーミング、AI、機械学習プラットフォームを構築する方法

[[342159]]今日の IoT のユースケースでは、デバイスが生成した大量のデータを分析したり、...

AIと機械学習に切り替えるには、次の5つのスキルを習得する必要があります

1. 機械学習をスキルとして扱うソフトウェア エンジニアとして、私たちは常に学習し、進化するフレーム...

人工知能企業が利益を上げるのは難しいと言われていますが、具体的に何が難しいのでしょうか?

[[272155]] 2016年にAlphaGoが「人間対機械」の競争に勝利して以来、人工知能への...

...