AF2を超える? Iambic、NVIDIA、Caltech が、状態固有のタンパク質-リガンド複合体の構造予測のためのマルチスケール深層生成モデルを開発

AF2を超える? Iambic、NVIDIA、Caltech が、状態固有のタンパク質-リガンド複合体の構造予測のためのマルチスケール深層生成モデルを開発

タンパク質と小分子リガンドによって形成される結合複合体は、生命にとって遍在し、不可欠です。科学者は最近、タンパク質構造の予測において進歩を遂げていますが、既存のアルゴリズムでは、結合したリガンドの構造と、それがタンパク質の折り畳みに及ぼす制御効果を体系的に予測することはできません。

この矛盾に対処するため、AI 製薬会社 Iambic Therapeutics、Nvidia Corporation、カリフォルニア工科大学の研究者らは、タンパク質配列とリガンド分子グラフの入力のみを使用してタンパク質-リガンド複合体の構造を直接予測できる計算方法である NeuralPLexer を提案しました。

NeuralPLexer は、深層生成モデルを使用して、結合複合体の 3 次元構造とその構造変化を原子分解能でサンプリングします。このモデルは、基本的な生物物理学的制約とマルチスケール幾何学的ディープラーニング システムを組み合わせた拡散プロセスに基づいており、残基レベルの接触マップとすべての重原子座標を階層的に反復的にサンプリングします。

NeuralPLexer の予測は、酵素工学や創薬における重要なターゲットの実験的構造決定と一致しており、プロテオーム規模で機能性タンパク質や小分子の設計を加速させる大きな可能性を秘めています。

「マルチスケール深層生成モデルによる状態固有のタンパク質-リガンド複合体構造予測」と題されたこの研究は、2024年2月12日にNature Machine Intelligenceに掲載されました。

静的なタンパク質構造予測は医薬品設計をサポートするには不十分である

ディープラーニングは、1次元のアミノ酸配列からタンパク質の構造を予測する上で大きな進歩を遂げました。 AlphaFold2 (AF2) などの最先端のタンパク質構造予測ネットワークは、タンパク質構造に対する進化的、物理的、幾何学的制約に基づいた予測パイプラインを採用しています。具体的には、多重配列アライメント (MSA) またはタンパク質言語モデル (PLM) と特殊なニューラル ネットワークから抽出された進化的制約を、配列ベースの情報および幾何学的表現と体系的に組み合わせて、エンドツーエンドの 3 次元 (3D) 構造予測を実現します。

静的なタンパク質構造の予測には非常に成功していますが、タンパク質折り畳み問題のこの単一の構造定式化では、タンパク質機能に関する不完全な情報しか提供されず、構造に基づく薬剤設計には不十分であることがわかっています。

生成的ディープラーニングは代替パラダイム

しかし、受容体の立体構造の大幅な変化を伴うタンパク質-リガンド複合体の計算モデル化は、遅いタンパク質状態遷移をシミュレートするための高コストによって妨げられています。生成的ディープラーニングの最近の発展は、代替パラダイムを提供し、複雑な視覚と言語の領域の理解において大きな進歩をもたらしました。

生成モデリングの注目すべき 2 つの戦略は、(1) シーケンス データ (自然言語やゲノミクスなど) 用の Transformer ネットワークで広く採用され、順次プロセスに基づく自己回帰モデルと、(2) 拡散ベースの生成モデルです。拡散ベースの生成モデルは、事前分布からサンプリングし、ニューラル ネットワークを使用してノイズ プロセスを徐々に逆転させることで、ランダム プロセスを利用してデータを生成します。

科学者たちは、深層生成モデルが、タンパク質配列設計のための言語モデルやタンパク質バックボーン生成のための拡散モデルなど、実験的に検証された機能を持つ新規設計されたタンパク質を生成できることを実証しました。拡散モデルは、特に分子ドッキングや構造ベースの薬物設計において、タンパク質骨格を超えた分子構造を効果的にシミュレートできます。

しかし、これまでのところ、構造決定実験に匹敵する精度で、原子分解能で結合複合体の構造を直接予測できる生成モデルを開発したグループはありません。

深層生成モデルがタンパク質-リガンド複合体の構造を予測

最新の研究では、Iambic、NVIDIA、Caltech のチームが、生物物理学的帰納的バイアスに基づく深層生成モデルを使用してタンパク質-リガンド複合体の構造を予測する計算システムである NeuralPLexer を発表しました。この方法では、PLM から取得した補助機能と、実験的に解決された相同遺伝子または計算モデルから取得されたテンプレート タンパク質構造に基づいて、特定のタンパク質配列とリガンド分子グラフ入力に対する結合複合体の構造セットを直接生成できます。

図: NeuralPLexer は、タンパク質-リガンド複合体の構造と立体配座の変化を正確に予測できます。 (出典:論文)

予測パイプラインとその基盤となるニューラル ネットワーク アーキテクチャはどちらも、生体分子複合体のマルチスケール階層構造を反映するように設計されています。具体的には、NeuralPLexer には次のものが含まれます。

(1)個々の小分子およびアミノ酸グラフの原子レベルの化学的特徴と幾何学的特徴をテンソル表現にエンコードするグラフベースのネットワーク。これは、分子構造と生物活性の百万レベルのデータベースでトレーニングされた物理学にヒントを得たネットワークアーキテクチャを通じて実装されます。

(2)接触予測モジュール(CPM)は、最近の視覚言語モデルとフォールド予測ネットワークを参考にしており、注目度ベースのネットワークを使用して残基規模の分子間距離分布、粗粒度の接触マップ、および関連するペア表現を生成します。

(3)等変構造ノイズ除去モジュール(ESDM)は、等変構造ノイズ除去拡散プロセスを使用し、タンパク質とリガンド分子のキラル制約を維持しながら、原子スケールと残基スケールのネットワークの出力に基づいて複合原子構造を生成するために使用されます。

タンパク質-リガンド ブラインド ドッキングについて評価したところ、NeuralPLexer は、PDBBind2020 ベン​​チマークで最もパフォーマンスの高い既存の方法と比較して、予測成功率を最大 78% 向上させました。困難なターゲットに対するリガンド結合部位の設計において、NeuralPLexer は計算によって生成された切り詰められたスキャフォールドのみを使用して、結合部位構造の最大 45% を効果的に回復できます。

これは、既存の物理学ベースのアプローチと比較して、成功率が質的に向上したことを意味します。さらに、NeuralPLexer は、誘導適合結合またはコンフォメーション選択の影響を受けるタンパク質構造を選択的に予測する点で、既存の方法よりも体系的な利点を示しています。構造可塑性が大きいリガンド結合タンパク質の 2 つのベンチマーク データセットでは、NeuralPLexer は最先端のタンパク質構造予測アルゴリズム AF2 よりも優れており、最高のテンプレート モデリング スコア (TM スコア) (平均 0.906) と、リガンド結合時に大幅なコンフォメーション変化を起こすドメインの精度が 11 ~ 13% 向上しています。

NeuralPLexer はリガンド結合とタンパク質構造の変化をシミュレートする多用途の機能を備えているため、立体構造ランドスケープを迅速に特徴付けることができ、タンパク質機能を制御する分子メカニズムの理解が深まり、プロテオーム規模での治療介入やタンパク質工学の非従来型のターゲットを特定するのに役立ちます。

結論

データ駆動型のアプローチである NeuralPLexer は一般化可能であり、より優れた実験データとバイオインフォマティクス データを統合することで継続的に改善することができます。より広範なコミュニティからのトレーニングおよびベンチマーク データセットのキュレーションの改善により、実験的に特定された相同体のないタンパク質ファミリーのより体系的な分析が可能になり、このアプローチを翻訳後修飾や多型の大きなヘテロ多量体タンパク質複合体などのより困難なシステムに拡張できるようになります。

この研究は、これらの方向性を探るための一般的な計算フレームワークを提供し、タンパク質-リガンド複合体の高速かつ正確な構造予測への道を開き、それによって構造生物学、創薬、タンパク質工学の進歩を促進します。

論文リンク: https://www.nature.com/articles/s42256-024-00792-z

<<: 

>>:  Karpathy が OpenAI を離れ、2 時間の AI コースを開始! GPTトークナイザーをゼロから構築する

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

データセキュリティを保護しながらAIタスクを加速

MIT の研究者は、ディープ ニューラル ネットワーク アクセラレータの最適な設計を効率的に特定し、...

...

トップエキスパートが語る: 生成型AIとロボット工学の未来

ビッグデータダイジェスト制作最近、カーネギーメロン大学、カリフォルニア大学バークレー校、Meta、N...

2020 年のソフトウェア開発における 6 つの画期的なトレンドは何ですか?

[[313570]] 1. ブロックチェーンブロックチェーンは、間違いなく IT 業界で最も議論さ...

2024年のトレンド: 時系列データと人工知能の融合アプリケーション

今日のデータ主導の世界では、競争上の差別化を図ることが成功の鍵となります。この目標を達成するために、...

6つの興味深い画像グレースケール変換アルゴリズム

[楊静卓のブログより引用]序文白黒写真の時代は過ぎ去りましたが、今、昔の写真を見ると、昔に戻ったよう...

Pythonでグラフを描いてニューラルネットワークを理解する

Python 中国語コミュニティ (ID: python-china)人工ニューラル ネットワーク ...

人種問題で顔認識技術はどうなるのか?

米国では、白人警官による黒人市民に対する過剰な法執行が日常茶飯事である。最近、白人警官が黒人男性を膝...

AIに人間のように計画を立てることを教えるにはどうすればよいでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

OpenAIは、かつてAGIロボットの開発に取り組んだロボット工学チームを解散。創設者:最良の決断

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

企業チームのスキルは AI 導入の障壁となるのでしょうか?

人工知能は驚くべきことを実現できますが、いくつかの障害にも直面しています。 2021年に3,500人...

人工知能は人類を情報社会から知能社会へと導く

[[315663]]人工知能(AI)とは、人間と同等かそれ以上の知覚、認知、行動などの知能を機械に実...

ビッグデータの本当の問題と、なぜ機械学習だけがそれを解決できるのか

多くの企業が、データの取得から洞察の獲得まで、スムーズに実行されるパイプラインの構築に依然として苦労...

生態学的な閉ループを作り、RV を運転して、愛する人を楽しい景色の中に連れて行きましょう。

夏休みがやってきました。旅行が必要です。彼/彼女にサプライズをあげたいですか?通常、私たちの旅行は自...

GPT-4 は生物兵器を作成できません! OpenAIの最新の実験では、大規模モデルはほぼ0であることが証明されている

GPT-4 は生物兵器の開発を加速させるでしょうか? AIが世界を支配することを心配する前に、人類は...