AF2を超える? Iambic、NVIDIA、Caltech が、状態固有のタンパク質-リガンド複合体の構造予測のためのマルチスケール深層生成モデルを開発

AF2を超える? Iambic、NVIDIA、Caltech が、状態固有のタンパク質-リガンド複合体の構造予測のためのマルチスケール深層生成モデルを開発

タンパク質と小分子リガンドによって形成される結合複合体は、生命にとって遍在し、不可欠です。科学者は最近、タンパク質構造の予測において進歩を遂げていますが、既存のアルゴリズムでは、結合したリガンドの構造と、それがタンパク質の折り畳みに及ぼす制御効果を体系的に予測することはできません。

この矛盾に対処するため、AI 製薬会社 Iambic Therapeutics、Nvidia Corporation、カリフォルニア工科大学の研究者らは、タンパク質配列とリガンド分子グラフの入力のみを使用してタンパク質-リガンド複合体の構造を直接予測できる計算方法である NeuralPLexer を提案しました。

NeuralPLexer は、深層生成モデルを使用して、結合複合体の 3 次元構造とその構造変化を原子分解能でサンプリングします。このモデルは、基本的な生物物理学的制約とマルチスケール幾何学的ディープラーニング システムを組み合わせた拡散プロセスに基づいており、残基レベルの接触マップとすべての重原子座標を階層的に反復的にサンプリングします。

NeuralPLexer の予測は、酵素工学や創薬における重要なターゲットの実験的構造決定と一致しており、プロテオーム規模で機能性タンパク質や小分子の設計を加速させる大きな可能性を秘めています。

「マルチスケール深層生成モデルによる状態固有のタンパク質-リガンド複合体構造予測」と題されたこの研究は、2024年2月12日にNature Machine Intelligenceに掲載されました。

静的なタンパク質構造予測は医薬品設計をサポートするには不十分である

ディープラーニングは、1次元のアミノ酸配列からタンパク質の構造を予測する上で大きな進歩を遂げました。 AlphaFold2 (AF2) などの最先端のタンパク質構造予測ネットワークは、タンパク質構造に対する進化的、物理的、幾何学的制約に基づいた予測パイプラインを採用しています。具体的には、多重配列アライメント (MSA) またはタンパク質言語モデル (PLM) と特殊なニューラル ネットワークから抽出された進化的制約を、配列ベースの情報および幾何学的表現と体系的に組み合わせて、エンドツーエンドの 3 次元 (3D) 構造予測を実現します。

静的なタンパク質構造の予測には非常に成功していますが、タンパク質折り畳み問題のこの単一の構造定式化では、タンパク質機能に関する不完全な情報しか提供されず、構造に基づく薬剤設計には不十分であることがわかっています。

生成的ディープラーニングは代替パラダイム

しかし、受容体の立体構造の大幅な変化を伴うタンパク質-リガンド複合体の計算モデル化は、遅いタンパク質状態遷移をシミュレートするための高コストによって妨げられています。生成的ディープラーニングの最近の発展は、代替パラダイムを提供し、複雑な視覚と言語の領域の理解において大きな進歩をもたらしました。

生成モデリングの注目すべき 2 つの戦略は、(1) シーケンス データ (自然言語やゲノミクスなど) 用の Transformer ネットワークで広く採用され、順次プロセスに基づく自己回帰モデルと、(2) 拡散ベースの生成モデルです。拡散ベースの生成モデルは、事前分布からサンプリングし、ニューラル ネットワークを使用してノイズ プロセスを徐々に逆転させることで、ランダム プロセスを利用してデータを生成します。

科学者たちは、深層生成モデルが、タンパク質配列設計のための言語モデルやタンパク質バックボーン生成のための拡散モデルなど、実験的に検証された機能を持つ新規設計されたタンパク質を生成できることを実証しました。拡散モデルは、特に分子ドッキングや構造ベースの薬物設計において、タンパク質骨格を超えた分子構造を効果的にシミュレートできます。

しかし、これまでのところ、構造決定実験に匹敵する精度で、原子分解能で結合複合体の構造を直接予測できる生成モデルを開発したグループはありません。

深層生成モデルがタンパク質-リガンド複合体の構造を予測

最新の研究では、Iambic、NVIDIA、Caltech のチームが、生物物理学的帰納的バイアスに基づく深層生成モデルを使用してタンパク質-リガンド複合体の構造を予測する計算システムである NeuralPLexer を発表しました。この方法では、PLM から取得した補助機能と、実験的に解決された相同遺伝子または計算モデルから取得されたテンプレート タンパク質構造に基づいて、特定のタンパク質配列とリガンド分子グラフ入力に対する結合複合体の構造セットを直接生成できます。

図: NeuralPLexer は、タンパク質-リガンド複合体の構造と立体配座の変化を正確に予測できます。 (出典:論文)

予測パイプラインとその基盤となるニューラル ネットワーク アーキテクチャはどちらも、生体分子複合体のマルチスケール階層構造を反映するように設計されています。具体的には、NeuralPLexer には次のものが含まれます。

(1)個々の小分子およびアミノ酸グラフの原子レベルの化学的特徴と幾何学的特徴をテンソル表現にエンコードするグラフベースのネットワーク。これは、分子構造と生物活性の百万レベルのデータベースでトレーニングされた物理学にヒントを得たネットワークアーキテクチャを通じて実装されます。

(2)接触予測モジュール(CPM)は、最近の視覚言語モデルとフォールド予測ネットワークを参考にしており、注目度ベースのネットワークを使用して残基規模の分子間距離分布、粗粒度の接触マップ、および関連するペア表現を生成します。

(3)等変構造ノイズ除去モジュール(ESDM)は、等変構造ノイズ除去拡散プロセスを使用し、タンパク質とリガンド分子のキラル制約を維持しながら、原子スケールと残基スケールのネットワークの出力に基づいて複合原子構造を生成するために使用されます。

タンパク質-リガンド ブラインド ドッキングについて評価したところ、NeuralPLexer は、PDBBind2020 ベン​​チマークで最もパフォーマンスの高い既存の方法と比較して、予測成功率を最大 78% 向上させました。困難なターゲットに対するリガンド結合部位の設計において、NeuralPLexer は計算によって生成された切り詰められたスキャフォールドのみを使用して、結合部位構造の最大 45% を効果的に回復できます。

これは、既存の物理学ベースのアプローチと比較して、成功率が質的に向上したことを意味します。さらに、NeuralPLexer は、誘導適合結合またはコンフォメーション選択の影響を受けるタンパク質構造を選択的に予測する点で、既存の方法よりも体系的な利点を示しています。構造可塑性が大きいリガンド結合タンパク質の 2 つのベンチマーク データセットでは、NeuralPLexer は最先端のタンパク質構造予測アルゴリズム AF2 よりも優れており、最高のテンプレート モデリング スコア (TM スコア) (平均 0.906) と、リガンド結合時に大幅なコンフォメーション変化を起こすドメインの精度が 11 ~ 13% 向上しています。

NeuralPLexer はリガンド結合とタンパク質構造の変化をシミュレートする多用途の機能を備えているため、立体構造ランドスケープを迅速に特徴付けることができ、タンパク質機能を制御する分子メカニズムの理解が深まり、プロテオーム規模での治療介入やタンパク質工学の非従来型のターゲットを特定するのに役立ちます。

結論

データ駆動型のアプローチである NeuralPLexer は一般化可能であり、より優れた実験データとバイオインフォマティクス データを統合することで継続的に改善することができます。より広範なコミュニティからのトレーニングおよびベンチマーク データセットのキュレーションの改善により、実験的に特定された相同体のないタンパク質ファミリーのより体系的な分析が可能になり、このアプローチを翻訳後修飾や多型の大きなヘテロ多量体タンパク質複合体などのより困難なシステムに拡張できるようになります。

この研究は、これらの方向性を探るための一般的な計算フレームワークを提供し、タンパク質-リガンド複合体の高速かつ正確な構造予測への道を開き、それによって構造生物学、創薬、タンパク質工学の進歩を促進します。

論文リンク: https://www.nature.com/articles/s42256-024-00792-z

<<: 

>>:  Karpathy が OpenAI を離れ、2 時間の AI コースを開始! GPTトークナイザーをゼロから構築する

ブログ    

推薦する

ビジネスインテリジェンスを変革するAIの優れたユースケース

ディープラーニング対応ソフトウェアから自動運転車、スマートロボットから IoT アプリケーションまで...

顔認識システムに関するよくある質問8つ

今日のスマートフォンやノートパソコンに搭載されている顔認識機能のおかげで、顔認識テクノロジーの概念は...

サイバーセキュリティにおけるAI、機械学習、自動化

サイバーセキュリティのスキル不足は、政府を含むさまざまな地域、市場、セクターの組織に引き続き影響を及...

Llama-2+Mistral+MPT=? 複数の異種大規模モデルの融合が驚くべき結果を示す

LLaMA や Mistral などの大規模言語モデルの成功により、大手企業やスタートアップ企業は独...

DeepFMアルゴリズムを使用して推奨システムを設計する方法

[[239303]] [51CTO.com クイック翻訳] 10年以上の開発を経て、推奨システムはイ...

...

AI によって雇用が失われる場合、バックアップ プランはありますか?

[[425784]]人工知能などの主要な破壊的技術は現在、生産性と出力を向上させるために世界中のさ...

AIをうまく活用したいなら、この2つの問題を早急に解決しなければなりません!

[[441323]]早すぎるオールインデータ文化を一夜にして構築することはできないのと同様に、分析...

流行を予防し制御するために、人工知能はまだ3つの大きな問題を解決する必要がある

新型コロナウイルス感染症は、中華人民共和国成立以来、最も急速に広がり、最も広範囲に及び、最も困難な公...

自動で本を書いてくれるChatGPTプラグイン3つが人気に。何もしなくてもAI自身にお金を稼ぐ方法をもっと質問できる!

ChatGPT プラグインの数が爆発的に増加しました!総数は390に達し、オープン当初の74に比べ...

より安全な街路のためのリアルタイムのインテリジェントビデオ分析

[[401969]]英国政府は最近、夜間経済が回復する中で安全が最優先事項であることを国民に再確認さ...

最近、ソラは子供たちの間でパニックを引き起こしています!

昨晩、娘がぼんやりしてリビングルームに立っていたので、私は彼女に尋ねました。「何をしているの?」彼女...

携帯電話の顔認識は、単に顔を見せることだけだと思っていませんか?あまりにもナイーブだ!女の子は注意しなければならない

今日は古い知識を学んだのですが、普段私たちが使っている携帯電話の顔認識は顔の部分だけを認識するもので...

...

...