AF2を超える？ Iambic、NVIDIA、Caltech が、状態固有のタンパク質-リガンド複合体の構造予測のためのマルチスケール深層生成モデルを開発

タンパク質と小分子リガンドによって形成される結合複合体は、生命にとって遍在し、不可欠です。科学者は最近、タンパク質構造の予測において進歩を遂げていますが、既存のアルゴリズムでは、結合したリガンドの構造と、それがタンパク質の折り畳みに及ぼす制御効果を体系的に予測することはできません。

この矛盾に対処するため、AI 製薬会社 Iambic Therapeutics、Nvidia Corporation、カリフォルニア工科大学の研究者らは、タンパク質配列とリガンド分子グラフの入力のみを使用してタンパク質-リガンド複合体の構造を直接予測できる計算方法である NeuralPLexer を提案しました。

NeuralPLexer は、深層生成モデルを使用して、結合複合体の 3 次元構造とその構造変化を原子分解能でサンプリングします。このモデルは、基本的な生物物理学的制約とマルチスケール幾何学的ディープラーニングシステムを組み合わせた拡散プロセスに基づいており、残基レベルの接触マップとすべての重原子座標を階層的に反復的にサンプリングします。

NeuralPLexer の予測は、酵素工学や創薬における重要なターゲットの実験的構造決定と一致しており、プロテオーム規模で機能性タンパク質や小分子の設計を加速させる大きな可能性を秘めています。

「マルチスケール深層生成モデルによる状態固有のタンパク質-リガンド複合体構造予測」と題されたこの研究は、2024年2月12日にNature Machine Intelligenceに掲載されました。

静的なタンパク質構造予測は医薬品設計をサポートするには不十分である

ディープラーニングは、1次元のアミノ酸配列からタンパク質の構造を予測する上で大きな進歩を遂げました。 AlphaFold2 (AF2) などの最先端のタンパク質構造予測ネットワークは、タンパク質構造に対する進化的、物理的、幾何学的制約に基づいた予測パイプラインを採用しています。具体的には、多重配列アライメント (MSA) またはタンパク質言語モデル (PLM) と特殊なニューラルネットワークから抽出された進化的制約を、配列ベースの情報および幾何学的表現と体系的に組み合わせて、エンドツーエンドの 3 次元 (3D) 構造予測を実現します。

静的なタンパク質構造の予測には非常に成功していますが、タンパク質折り畳み問題のこの単一の構造定式化では、タンパク質機能に関する不完全な情報しか提供されず、構造に基づく薬剤設計には不十分であることがわかっています。

生成的ディープラーニングは代替パラダイム

しかし、受容体の立体構造の大幅な変化を伴うタンパク質-リガンド複合体の計算モデル化は、遅いタンパク質状態遷移をシミュレートするための高コストによって妨げられています。生成的ディープラーニングの最近の発展は、代替パラダイムを提供し、複雑な視覚と言語の領域の理解において大きな進歩をもたらしました。

生成モデリングの注目すべき 2 つの戦略は、(1) シーケンスデータ (自然言語やゲノミクスなど) 用の Transformer ネットワークで広く採用され、順次プロセスに基づく自己回帰モデルと、(2) 拡散ベースの生成モデルです。拡散ベースの生成モデルは、事前分布からサンプリングし、ニューラルネットワークを使用してノイズプロセスを徐々に逆転させることで、ランダムプロセスを利用してデータを生成します。

科学者たちは、深層生成モデルが、タンパク質配列設計のための言語モデルやタンパク質バックボーン生成のための拡散モデルなど、実験的に検証された機能を持つ新規設計されたタンパク質を生成できることを実証しました。拡散モデルは、特に分子ドッキングや構造ベースの薬物設計において、タンパク質骨格を超えた分子構造を効果的にシミュレートできます。

しかし、これまでのところ、構造決定実験に匹敵する精度で、原子分解能で結合複合体の構造を直接予測できる生成モデルを開発したグループはありません。

深層生成モデルがタンパク質-リガンド複合体の構造を予測

最新の研究では、Iambic、NVIDIA、Caltech のチームが、生物物理学的帰納的バイアスに基づく深層生成モデルを使用してタンパク質-リガンド複合体の構造を予測する計算システムである NeuralPLexer を発表しました。この方法では、PLM から取得した補助機能と、実験的に解決された相同遺伝子または計算モデルから取得されたテンプレートタンパク質構造に基づいて、特定のタンパク質配列とリガンド分子グラフ入力に対する結合複合体の構造セットを直接生成できます。

図: NeuralPLexer は、タンパク質-リガンド複合体の構造と立体配座の変化を正確に予測できます。（出典：論文）

予測パイプラインとその基盤となるニューラルネットワークアーキテクチャはどちらも、生体分子複合体のマルチスケール階層構造を反映するように設計されています。具体的には、NeuralPLexer には次のものが含まれます。

（１）個々の小分子およびアミノ酸グラフの原子レベルの化学的特徴と幾何学的特徴をテンソル表現にエンコードするグラフベースのネットワーク。これは、分子構造と生物活性の百万レベルのデータベースでトレーニングされた物理学にヒントを得たネットワークアーキテクチャを通じて実装されます。

（２）接触予測モジュール（CPM）は、最近の視覚言語モデルとフォールド予測ネットワークを参考にしており、注目度ベースのネットワークを使用して残基規模の分子間距離分布、粗粒度の接触マップ、および関連するペア表現を生成します。

（３）等変構造ノイズ除去モジュール（ESDM）は、等変構造ノイズ除去拡散プロセスを使用し、タンパク質とリガンド分子のキラル制約を維持しながら、原子スケールと残基スケールのネットワークの出力に基づいて複合原子構造を生成するために使用されます。

タンパク質-リガンドブラインドドッキングについて評価したところ、NeuralPLexer は、PDBBind2020 ベンチマークで最もパフォーマンスの高い既存の方法と比較して、予測成功率を最大 78% 向上させました。困難なターゲットに対するリガンド結合部位の設計において、NeuralPLexer は計算によって生成された切り詰められたスキャフォールドのみを使用して、結合部位構造の最大 45% を効果的に回復できます。

これは、既存の物理学ベースのアプローチと比較して、成功率が質的に向上したことを意味します。さらに、NeuralPLexer は、誘導適合結合またはコンフォメーション選択の影響を受けるタンパク質構造を選択的に予測する点で、既存の方法よりも体系的な利点を示しています。構造可塑性が大きいリガンド結合タンパク質の 2 つのベンチマークデータセットでは、NeuralPLexer は最先端のタンパク質構造予測アルゴリズム AF2 よりも優れており、最高のテンプレートモデリングスコア (TM スコア) (平均 0.906) と、リガンド結合時に大幅なコンフォメーション変化を起こすドメインの精度が 11 ～ 13% 向上しています。

NeuralPLexer はリガンド結合とタンパク質構造の変化をシミュレートする多用途の機能を備えているため、立体構造ランドスケープを迅速に特徴付けることができ、タンパク質機能を制御する分子メカニズムの理解が深まり、プロテオーム規模での治療介入やタンパク質工学の非従来型のターゲットを特定するのに役立ちます。

結論

データ駆動型のアプローチである NeuralPLexer は一般化可能であり、より優れた実験データとバイオインフォマティクスデータを統合することで継続的に改善することができます。より広範なコミュニティからのトレーニングおよびベンチマークデータセットのキュレーションの改善により、実験的に特定された相同体のないタンパク質ファミリーのより体系的な分析が可能になり、このアプローチを翻訳後修飾や多型の大きなヘテロ多量体タンパク質複合体などのより困難なシステムに拡張できるようになります。

この研究は、これらの方向性を探るための一般的な計算フレームワークを提供し、タンパク質-リガンド複合体の高速かつ正確な構造予測への道を開き、それによって構造生物学、創薬、タンパク質工学の進歩を促進します。

論文リンク: https://www.nature.com/articles/s42256-024-00792-z

<<:

>>: Karpathy が OpenAI を離れ、2 時間の AI コースを開始! GPTトークナイザーをゼロから構築する