RNA 3D 構造予測は長年の課題です。 タンパク質構造予測における最近の進歩に触発され、南開大学、山東大学、北京理工大学の研究チームは、ディープラーニングに基づく自動化されたRNA 3D構造予測方法であるtrRosettaRNAを開発しました。 trRosettaRNA パイプラインは、トランスフォーマー ネットワークによる 1D および 2D ジオメトリ予測と、エネルギー最小化による 3D 構造の折り畳みという 2 つの主なステップで構成されています。ベンチマーク テストでは、trRosettaRNA が従来の自動化された方法よりも優れていることが示されています。 天然 RNA に対する自動化された trRosettaRNA 予測は、CASP15 および RNA-Puzzles 実験のブラインド テストでトップの人間による予測と競争力があります。 trRosettaRNA は、二乗平均平方根偏差の Z スコアで測定した場合、CASP15 における他のディープラーニング ベースの方法よりも優れたパフォーマンスを発揮します。 「trRosettaRNA: トランスフォーマーネットワークによるRNA 3D構造の自動予測」と題されたこの研究は、2023年11月9日にNature Communicationsに掲載されました。 RNAの3D構造予測の需要が高まっているリボ核酸 (RNA) は、生体細胞内で最も重要な種類の機能分子の 1 つです。タンパク質は、遺伝情報の転写、触媒、足場、構造機能の実行など、多くの基本的な生物学的プロセスや細胞プロセスに関与しています。過去数十年にわたり、トランスファーRNA (tRNA) やリボソームRNA (rRNA) などの非コードRNA (ncRNA) の構造と機能に対する関心が高まり、毎年新たなncRNAが発見されています。 タンパク質と同様に、ncRNA 分子の生物学的機能は、多くの場合、その 3D 構造によって決まります。しかし、RNA の構造を実験的に解くことは、柔軟な骨格と弱い長距離三次相互作用から生じる固有の構造的不均一性のため、タンパク質の構造を解くことよりも困難です。たとえば、タンパク質データバンク (PDB) に登録されている RNA 構造は約 6,000 個しかなく、登録されているタンパク質構造の数 (約 190,000 個) よりはるかに少ないです。したがって、RNA の 3D 構造を予測するための効果的なアルゴリズムを開発することが急務となっています。 現在のRNA 3D構造予測は依然として大きな課題に直面している現在の RNA 3D 構造予測方法は、テンプレートベースの方法と de novo 方法の 2 つのカテゴリに分けられます。テンプレートベースの方法では、PDB 内の相同テンプレートを使用してターゲット構造を予測します。たとえば、ModeRNA や MMB などの代表的な方法は、相同構造のサンプリング空間を縮小することによって機能します。一般に、PDB に相同テンプレートが存在する場合、テンプレートベースの方法によって予測される構造モデルは正確です。しかし、テンプレートベースのアプローチは、既知の RNA 構造の数が限られており、RNA 配列のアライメントが難しいため、進歩が遅いです。 対照的に、de novo 法では、折り畳みプロセスを最初からシミュレートすることで 3D コンフォメーションを構築します。 FARNA5、FARFAR、FARFAR2、SimRNA、iFoldRNA、RNAComposer、3dRNA などの方法は、分子動力学シミュレーションまたはフラグメントアセンブリを通じて、一部の小さな RNA (<100 ヌクレオチド) に適しています。しかし、不正確な力場パラメータと巨大なサンプリング空間のために、複雑なトポロジーを持つ大きな RNA の正確な 3D 構造を生成することは困難です。この問題を部分的に解決するために、直接結合解析 (DCA) によって予測されるヌクレオチド間接触が構造シミュレーションのガイドとして使用されてきました。 さらに、RNA 構造の折り畳みの階層的な性質を考慮して、Vfold や MC-Fold などのいくつかの方法では二次構造から 3D 構造を導き出します。これらは非常に高速ですが、モデリングの精度は入力二次構造の品質に大きく依存します。 RNA パズルの実験では、複雑な構造を持つ大きな RNA の構造を正確に予測することが依然として大きな課題であることが示されています。 RNA 3D構造予測のためのディープラーニング最近、ディープラーニングは de novo RNA 3D 構造予測を改善するために使用されています。残差畳み込みネットワーク (ResNet) は、DCA よりも約 2 倍の精度でヌクレオチド間の接触を予測し、3D 構造の予測をある程度改善します。結果は、幾何学的ディープラーニングベースのスコアリングシステム (ARES) からモデルを選択することで、FARFAR2 プロトコルが RNA パズル実験のブラインド テストで 4 つのターゲットに対して最も正確なモデルを予測したことを示しました。 AlphaFold2 の成功に触発されて、科学者たちは DeepFoldRNA、RoseTTAFoldNA、RhoFold など、いくつかの新しいディープラーニングベースの手法を開発しました。 最新の研究では、南開大学、山東大学、北京理工大学の研究チームが、ディープラーニングに基づく自動化されたRNA 3D構造予測方法であるtrRosettaRNAを開発しました。これは、特に AlphaFold2 と trRosetta における、ディープラーニングのタンパク質構造予測への成功した応用に部分的に触発されています。ベンチマークテストとブラインドテストにより、trRosettaRNA は RNA 構造予測を強化する可能性があることが示されました。 trRosettaRNAの構造を図1に示します。 RNA のヌクレオチド配列から始めて、最初に rMSA プログラムと SPOT-RNA プログラムによって、多重配列アライメント (MSA) と二次構造が生成されました。次に、それらは MSA 表現とペア表現に変換され、トランスフォーマー ネットワーク (RNAformer という名前) に送られて、1D および 2D ジオメトリが予測されます。 trRosetta と同様に、これらのジオメトリは制約に変換され、エネルギー最小化に基づいて 3D 構造の折り畳みの最終ステップをガイドします。特に明記しない限り、以下に記載されている RMSD は、RNA-Puzzles コミュニティが提供する評価ツールキットを使用してすべての原子を考慮して計算されました。 図 1: trRosettaRNA の全体的な構造。 (出典:論文) 研究者らは、2つの独立したデータセットと2つのブラインドテストを使用して、trRosettaRNAの厳密な評価を実施しました。ベンチマークテストでは、trRosettaRNA によって予測されたモデルが他の自動化された方法よりも正確であることが示されました。 trRosettaRNA は、RNA-Puzzles (3 つのターゲット) と CASP15 (12 のターゲット) の 2 つの実験で盲検評価されました。 RNA-Puzzles 実験では、trRosettaRNA の自動予測が、ターゲットの 3 分の 2 に対して人間の予測と競合することが示されました。 CASP15 実験では、RMSD に基づく累積 Z スコアに関して、trRosettaRNA が他のディープラーニング ベースの方法よりも優れていることが示されました。この方法は、人間の介入が一切ないにもかかわらず、8 つの天然 RNA に関してトップクラスの人間の集団と同等の精度を達成しました。 限界と未来しかし、研究者らは、CASP15 ブラインド テストにおける天然 RNA の平均 RMSD (最初のモデルでは 14.8 Å) が、2 つのベンチマーク データセットにおける RNA の平均 RMSD (30 個の独立した RNA では 8.5 Å、以前の 20 個の RNA パズル ターゲットでは 10.5 Å) よりも高いことに気付きました。 モデリング精度の違いは、ターゲットの難易度と新規性によって説明できます。 (1)目標難易度ほとんどの CASP15 RNA は高度な柔軟性を示し、複数のコンフォメーションを採用できます (R1116 と R1117 を除く)。さらに、2 つの二量体 (R1107、R1108) と、RNA に結合する多数の一本鎖領域を持つ 2 つのタンパク質 (R1189、R1190) があります。これらの特徴は、信頼できる二次構造の SPOT-RNA 予測に課題をもたらします。この点を説明すると、CASP15 の 8 つの天然 RNA の SPOT-RNA 予測二次構造の平均 F1 スコアは、20 個の RNA-Puzzles ターゲットと比較して大幅に低くなっています (それぞれ 0.62 と 0.72)。 (2)目標は斬新である。非冗長ベンチマーク データセット内の RNA の大部分 (3 分の 2、30 個中 20 個) は、既知の RNA と高い類似性 (TM スコア RNA > 0.6) を示しており、trRosettaRNA などのデータ駆動型方法で簡単に予測できます。対照的に、CASP15 の RNA ではそれほどの類似性は示されませんでした。 これは、trRosettaRNA とこの研究で採用されたベンチマークに関連する制限を反映しています。まず、trRosettaRNA のパフォーマンスは、予測される二次構造の品質に簡単に影響されます。第二に、trRosettaRNA は内部ベンチマークでは有望な精度を達成しましたが、新規 RNA に対するパフォーマンスはまだ限られています。さらに、合成 RNA の自動構造予測は依然として困難です。 CASP15 実験のブラインド テストでは、RNA 構造予測のためのディープラーニング手法がまだ初期段階にあることが示されました。しかし、開発が続けば、ディープラーニングは RNA 構造予測の進歩に期待が持てるはずです。物理ベースのモデリングをディープラーニングに組み込むことは、将来の改善に向けた 1 つの方向性です。 最も簡単な代替案の 1 つは、他の従来の方法と組み合わせて、将来的にあまり表現されていない RNA 構造に合わせてアルゴリズムを最適化することです。たとえば、既知の RNA フォールドへの偏りを克服するために、全体的な 3D 構造を直接予測するのではなく、ニューラル ネットワーク (物理ベースのニューラル ネットワークなど) を使用して力場を学習したり、ローカル モチーフを識別/組み立てたりすることができます。 ソースコード: https://yanglab.qd.sdu.edu.cn/trRosettaRNA 論文リンク: https://www.nature.com/articles/s41467-023-42528-4 |
<<: GPT-4は人間が92点取れる質問に対して15点しか取れない。テストがアップグレードされると、すべての大きなモデルが露呈する。
>>: 物理学者は人間が「マトリックス」の中で生きていることを証明するのか?宇宙は「シミュレーションシステム」であり、複数のシステムにより情報進化は安定する傾向があることが確認されている
[[408914]] 1. パドルライトとパドルスリム現在、ディープラーニングの分野には 2 つの派...
職場向けソーシャルプラットフォーム「LinkedIn」は6月26日、広告主が生成AIを通じてマーケテ...
データセンターは現代生活に欠かせないものです。あらゆるものがインターネットでつながっているこの時代に...
11月21日、Deepmindは楽器とボーカルで音楽を生成できるLyriaというオーディオモデルをリ...
人工知能は、生産性の向上、売上の増加、ユーザーエクスペリエンスの向上など、さまざまな状況で使用されて...
海外メディアによると、フェイスブックは機械学習アルゴリズムの使用を増やし、AIを使ってコンテンツの重...
下院の主要委員会が、受刑者の通話を分析するための人工知能の使用に関する報告書の提出を求めたことにより...
最近、教育部は「2018年度一般高等教育機関の学部専攻登録および認可結果の発表に関する教育部の通知」...
ファイザーの最高デジタル・技術責任者リディア・フォンセカ氏は、機械学習技術は医薬品の発見、臨床試験、...
OpenAI 初の開発者会議は AI の饗宴です。 GPT-4 Turbo、大幅な値下げ、開発者向...
1. 要件の説明文字列を入力し、文字列内で連続する最長の文字と、その文字が連続して出現する回数を検索...
ガートナーの新しい調査*によると、人工知能 (AI) 技術計画を持つテクノロジーおよびサービス プロ...