ディープラーニングはRNAを正確に予測するが、18の既知の構造のトレーニングが必要:研究がサイエンス誌の表紙に掲載される

ディープラーニングはRNAを正確に予測するが、18の既知の構造のトレーニングが必要:研究がサイエンス誌の表紙に掲載される

[[419963]]

DNAの構造を正確に予測するにはまだ遠いのでしょうか?

現在、DeepMind のタンパク質構造予測ツール AlphaFold2 で実証されているように、人工知能を使用して化合物の分子構造を予測することは、注目されている研究テーマです。ただし、分子構造を正確に予測するには膨大なデータセットが必要であることに注意する必要があります。スタンフォード大学の研究はこの限界を打ち破りました。彼らが提案した機械学習法は、ごくわずかなデータのみを使用して正確なRNA構造予測を実現しました。

生体分子の 3D 形状を決定することは、現代の生物学および医学の発見における最も困難な問題の 1 つです。多くの企業や研究機関は分子の構造を解明しようと何百万ドルも費やしていますが、多くの場合は成果がありません。

スタンフォード大学の研究チームは機械学習を利用してこの問題を解決しました。コンピュータサイエンスの准教授であるロン・ドロール氏の指導の下、スタンフォード大学の博士課程の学生であるステファン・アイスマン氏とラファエル・タウンゼンド氏は、機械学習の技術を巧みに利用して、生体分子の正確な構造を計算で予測する方法を開発した。そして彼らの方法は、ほんの数個の既知の構造から学習する場合でも成功し、実験的に構造を決定するのが最も難しいタイプの分子に適用できます。

8月27日、同チームとスタンフォード大学生化学准教授リジュ・ダス氏が共同執筆した研究論文が『サイエンス』誌に掲載され、表紙を飾った。

論文アドレス: http://science.sciencemag.org/content/373/6558/1047

これに先立ち、同チームによる研​​究論文が昨年12月に生物医学誌「プロテインズ」に掲載されている。

論文アドレス: https://onlinelibrary.wiley.com/doi/10.1002/prot.26033

研究チームは「タンパク質」論文の中で、この研究で確立されたニューラルネットワークアーキテクチャが、点ベースの原子表現、回転と平行移動の等価性、局所畳み込み、階層的サブサンプリング操作など、数万個の原子を含む分子構造からエンドツーエンドの学習を実行することを紹介しました。

「構造生物学は分子の形状を研究する学問であり、構造が機能を決定する」と両論文の筆頭著者であるタウンゼンド氏は述べた。チームが設計したアルゴリズムは、正確な分子構造を予測できるだけでなく、さまざまな分子の働きを説明することもできる。この方法は、基礎生物学研究や医薬品開発などに応用できるだろう。具体的には、チームメンバーのアイスマン氏はタンパク質を例に挙げて次のように述べた。「タンパク質はさまざまな機能を果たす分子機械です。タンパク質は機能を果たすために、通常は他のタンパク質と結合します。あるタンパク質のペアが病気に関連していることがわかっていて、3次元の条件下でそれらのタンパク質がどのように相互作用するかがわかっていれば、医学ではこの相互作用を非常に具体的に標的とする薬剤の使用を試みることができます。」

この研究方法は、タンパク質複合体と RNA 分子において成功を収めています。研究チームのメンバーであるドロール氏は、「機械学習における最近の進歩のほとんどは、トレーニングに大量のデータを必要とします。この研究の方法が、非常に少ないトレーニングデータで成功したという事実は、関連する方法が、多くのデータ不足の分野で未解決の問題を解決できることを意味します」と述べており、この方法には大きな可能性があるかもしれません。

少量データによる正確なRNA構造予測

RNA 分子の 3D 構造は、RNA 分子がその機能を果たすために非常に重要であり、創薬においても重要です。しかし、RNA 構造はほとんど知られておらず、RNA 構造を計算で予測することは非常に困難です。

スタンフォード大学の研究では、機械学習 (ML) 手法を使用し、トレーニングには既知の RNA 構造 18 個のみを使用して、これらの構造モデルの特徴を定義する必要なく正確な構造モデルを識別しました。この機械学習手法によって得られるスコアリング関数、Atomic Rotationally Equivariant Scorer (ARES) は、従来の手法よりも大幅に優れています。

下の図は、トレーニング セット内の 18 個の RNA 構造の図です。

具体的には、研究者らは ARES をトレーニングするために、1994 年から 2006 年の間に公開された 18 個の RNA 分子を使用し、既知の構造を使用せずに Rosetta FARFAR2 サンプリング方法を使用して各 RNA に対して 1,000 個の構造モデルを生成しました。次に、ARES ニューラル ネットワークのパラメーターを最適化し、その出力が各モデルの対応する構造の二乗平均平方根誤差 (RMSD) に可能な限り近くなるようにしました。

下の図 1 はARES ネットワークです。ここで、A は原子座標と要素タイプのみが与えられている場合、ARES は構造モデルの精度を予測できることを示します。B は ARES を使用した RNA 構造予測を示します。C は 18 個の既存の小さな RNA 構造を含むトレーニング セットを示します。D は新しい、より大きな RNA 構造を含むベンチマーク セットを示します。

下の図 2 は、ARES が正確な構造モデルを識別する際に、従来のスコアリング機能よりも大幅に優れていることを示しています。 A は最高得点の構造モデルの RMSD を表します。B は最高得点の構造モデル 10 個の中で最低の RMSD を表します。C は最高得点の構造モデルに限りなく近いランキングを表します。D は 2007 年以降の最高得点の構造モデルの RMSD を表します。

ARES は、コミュニティ全体のブラインド RNA 構造予測チャレンジ「RNA パズル」で SOTA 結果を達成しました。下の図 3 に示すように、A は ARES と他の方法のブラインド予測精度結果の比較を表し、B は ARES によって予測された結晶構造を表し、C は他の方法によって達成された最良の結晶構造予測を表します。

さらに、ARES は、事前に明示的に記述されていなかった RNA 構造の主要な特徴を認識することを学習できます。下の図 4A は、最適な塩基対合のために ARES がヘリックスの幅を学習している様子を示しています。4B は、主要な RNA の特徴を識別するための学習を示しています。

プラス面としては、スタンフォードのアプローチは少量のデータから効果的に学習できるため、標準的なディープニューラルネットワークの大きな制限を克服できます。さらに、この方法は原子座標のみを入力として使用し、特定のRNA情報を含まないため、構造生物学、化学、材料科学などの分野におけるさまざまな問題を解決するのに適しています。

著者について

[[419965]]

共同筆頭著者のラファエル・タウンゼント氏は、分子および医薬品設計のための AI スタートアップ企業である Atomic AI の CEO です。彼は現在、スタンフォード AI ラボの博士課程に在籍しており、機械学習、構造生物学、高性能コンピューティング、コンピューター ビジョンなどを研究対象としています。

[[419966]]

責任著者の一人であるロン・ドロール氏は、スタンフォード大学コンピューターサイエンス学部の准教授であり、コンピューター技術を使用して生物学と創薬における基本的な問題を解決することに焦点を当てたスタンフォード AI ラボの研究グループの責任者です。高性能コンピューティング、機械学習、画像分析、構造生物学、医薬品設計の専門家であり、計算生物学と機械学習を教えているほか、テクノロジー企業や製薬企業のコンサルタントも務めています。

<<:  人工知能はそれほど信頼できるものではない。システムは「知らないことを知らない」し、アルゴリズムは安全ではない。

>>:  医療機器における人工知能:これらは新たな産業アプリケーションです

ブログ    
ブログ    

推薦する

我が国のドローン産業の発展の現状と課題の分析

[[422841]]ドローンは我が国の現在の戦略的新興産業の一つであり、近年、技術、製品、アプリケー...

よく使われる「生成AIライブラリ」の総合ガイド

皆さんこんにちは、Luga です。今日も引き続き、人工知能 (AI) エコシステムに関連するテクノロ...

...

...

人工知能の発展のいくつかの段階

人工知能は、最初はそれほど優れていませんでした。いくつかの段階を経てきました。 [[425861]]...

ジェネレーティブ AI が画像検索をどのように再定義するか

翻訳者 |李睿レビュー | Chonglou 生成AI は、ユニークなテキスト、サウンド、画像を作成...

アルゴリズムは AI の進歩の原動力となることができるでしょうか?

2006年以降、ディープラーニングに代表される機械学習アルゴリズムは、マシンビジョンや音声認識など...

スポーツと人工知能が出会うとき(スポーツレビュー)

技術開発を積極的に受け入れ、人工知能がスポーツにさらに貢献できるようにしましょう。スポーツとテクノロ...

PyTorch を使って完全な NeRF をゼロから構築する

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Rosetta はプライバシー コンピューティングと AI をどのように結び付けるのでしょうか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能とソフトウェア開発の未来

人工知能はソフトウェア開発をあらゆる面で変えています。多くの企業が AI 機能の導入を競っていますが...

顔認識防止技術でプライバシー漏洩を防ぐ方法

人工知能監視システムに対する懸念から、研究者たちはそれを標的とするツールの開発に取り組んでいる。最近...

自動運転のための LiDAR とビジョンフュージョン認識の理解

2022年は、インテリジェント運転がL2からL3/L4に飛躍する絶好のチャンスです。ますます多くの自...

安定した拡散3がリリースされ、ソラと同じ技術を使用して、テキストがついに文字化けしなくなりました

OpenAI の Sora が 1 週間にわたってスクリーンを独占した後、昨夜、トップクラスの生成 ...