タンパク質言語モデルを数千億のパラメータに拡張し、Baitu BioscienceとTsinghua xTrimoPGLMモデルの詳細な解釈

タンパク質言語モデルを数千億のパラメータに拡張し、Baitu BioscienceとTsinghua xTrimoPGLMモデルの詳細な解釈


論文リンク: https://www.biorxiv.org/content/10.1101/2023.07.05.547496v3

自然言語処理 (NLP) の分野における事前トレーニング済みモデルの進歩は、タンパク質配列に隠された生物学的情報を学習するために効果的に利用されてきました。現在のほとんどのタンパク質事前トレーニング モデルは、自己エンコードまたは自己回帰事前トレーニングの目的に限定されているため、タンパク質の理解 (タンパク質構造の予測など) と生成タスク (薬剤設計など) の両方を同時に処理することは困難です。

本論文では、革新的な事前トレーニング フレームワークを通じてこれら 2 種類のタスクを同時に処理する統合タンパク質言語モデル xTrimoPGLM を提案します。 xTrimoPGLM の主な技術的貢献は、これら 2 種類の目的の互換性と共同最適化の可能性を探ることです。これに基づいて、1,000 億のパラメータ規模を持つ前例のないタンパク質言語モデルが 1 兆のトークンを消費してトレーニングされ、モデルの FLOP は 6.2e+23 に達しました。これは、1,750 億のパラメータを持つ GPT-3 と同程度の大きさです。

理解タスクでは、xTrimoPGLM は複数のタンパク質理解タスク (15 タスク中 13 タスク) において他の最先端のベースラインを大幅に上回ります。生成タスクでは、xTrimoPGLM は天然のタンパク質構造に類似した新しいタンパク質配列を生成できます。

さらに、論文では同じフレームワークに基づいて12億のパラメータを持つ抗体モデル(xTrimoPGLM-Ab)を追加でトレーニングし、抗体の自然性と構造の予測において市場最高の結果を達成し、AlphaFold2よりも推論速度が速い(数十から数千倍)ことを示しました。これらの結果を総合すると、タンパク質配列の理解と生成における xTrimoPGLM の強力な機能と幅広い応用の可能性が十分に実証されます。

タンパク質の理解と生産の統合

タンパク質関連のタスクの種類によって、異なる出力を提供するにはタンパク質言語モデル (PLM) が必要です。具体的には、二次構造予測などのタンパク質理解タスクでは、正確なアミノ酸および配列レベルの表現を提供するために PLM が必要ですが、抗体や酵素の設計などのタンパク質設計タスクでは、PLM の生成機能に依存します。ただし、現在の PLM は、単一の事前トレーニング フレームワークの制限により、ほとんどの場合、1 種類のタスクしか処理できません。

実際、タンパク質の理解と生成はどちらもタンパク質データの分布情報を反映しています。Meta の以前の研究で、ESM (マスク言語モデルに基づくタンパク質大規模モデル) を生成に使用してこのことを確認し、タンパク質理解の事前トレーニング モデルは、いくつかのサンプリング戦略を通じてタンパク質設計に使用できることを指摘しました。これは、一見異なるように見えるこれら 2 つのタスクの統一性をさらに裏付けています。同じトレーニング フレームワークを使用してこれら 2 つのタスクを処理できる場合、タンパク質データに適合するモデルの能力がさらに強化されます。

NLP 分野の生成モデル (UL2R、GPT など) は、データ ラベルをテキスト空間全体にマッピングし、命令の微調整を組み合わせてさまざまなタスクに対する回答を生成するという主流のパラダイムになっていますが、PLM ではまだこれを実現できません。実際には、タンパク質アプリケーションは依然として、下流のタスク固有のラベル (構造予測の 3D 座標など) への表現の橋渡しに依存しており、タンパク質理解タスクでは主に BERT スタイルのトレーニングに依存しています。したがって、両方のトレーニング目標を同時に追求する必要があります。

この論文で紹介されている xTrimo タンパク質一般言語モデル (xTrimoPGLM) 事前トレーニング フレームワークは、2 種類の事前トレーニング タスクを巧みに統合し、モデルが複数のタンパク質関連タスクを同時に処理できるようにします。研究チームは、包括的な実験を通じて xTrimoPGLM フレームワークの有効性を評価しました。タンパク質理解タスクの場合、xTrimoPGLM-100B は、タンパク質の構造、機能、相互作用、開発可能性の領域における 15 のタスクを網羅し、複数の評価で優れたパフォーマンスを発揮します。

「スケーリング則」は、大規模な言語モデルを測定するための重要な原則です。モデルパラメータのサイズ、データ量、計算量が指数関数的に増加すると、モデルのパフォーマンスは直線的に増加するはずです。実際、研究チームによる下流タスクに関する実験結果によりこの法則が検証され、複雑なタスクを扱う際には大規模なモデルが必要であることが証明されました。

次の図は、パフォーマンスの向上と事前トレーニング計算の増加の関係を示しています。 Meta の ESM-2 を参考にすると、タンパク質言語モデル (PLM) の計算量が指数関数的に増加するにつれて、タンパク質の下流のパフォーマンスは依然として線形に増加します (各主要カテゴリには 3 ~ 4 個のタスクがあり、値はこれらのタスクの平均を表します)。

写真

タンパク質生成タスクでは、xTrimoPGLM-100B は、生成ハイパーパラメータを調整することで、さまざまな長さと配列の新しいタンパク質配列を生成する能力を実証します。特に、天然タンパク質と比較した場合、xTrimoPGLM-100B は、構造的に類似しているが配列が異なる新しいタンパク質配列を生成する能力を示しました。これにより、複雑なタスクに対する大規模モデルの重要性が改めて証明され、さらにモデル設計に「スケーリング法則」に従うという決定が正しいことが確認されました。

同時に、研究チームは12億のパラメータを持つより実用的な抗体PLM、xTrimoPGLM-Ab-1Bも開発しました。このモデルは OAS 抗体データベースで微調整され、1 兆を超えるトークンを処理しました。抗体の自然性と構造予測タスクで最高のパフォーマンスを実現します。外部ライブラリ検索や多重配列アライメントに依存しないため、構造予測速度はAlphafold2モデルよりも数百〜数千倍高速であり、抗体医薬品の発見を基盤とするAI製薬企業にとって極めて重要です。

混合トレーニング

オリジナルの GLM モデルでは、生成能力を向上させるために 2 つの異なる事前トレーニング目標が使用されています。1) スパン生成 (sMask) は、文中の短いスペースを復元するために使用されます。2) 長いテキスト生成 (gMASK) は、提供されたプレフィックス コンテキストに基づいてランダムな長さのシーケンスを生成するために使用されます。 xTrimoPGLMの理解能力をさらに向上させるために、チームは理解対象として使用される接頭辞領域にマスク言語モデル(MLM、つまり[MASK])を導入しました。この設計により、xTrimoPGLM は正確な残基レベルおよびシーケンス レベルの表現を生成できるようになります。

[MASK]識別子を使用すると、xTrimoPGLMはBERTと同様に機能します。対照的に、[sMASK] または [gMASK] が使用される場合、xTrimoPGLM は PrefixLM または GPT のように動作します。一般的に、xTrimoPGLM-100B の事前トレーニング段階は 2 つの段階に分けられます。まず、MLM は、損失レベルを迅速に削減することを主な目的として、表現能力を強化するための事前トレーニングに使用されます。第 2 段階では、MLM 損失と GLM 損失を組み合わせた統一された目標がトレーニングに使用され、理解と生成の両方の能力が向上します。

写真

NLP 分野では多くの統合された事前トレーニング モデルが検討されてきましたが、そのほとんどは依然として同じトレーニング モデル (自己回帰または自動エンコード) をサンプリングしています。統一されたタンパク質事前トレーニングモデルのニーズを満たすには、事前トレーニング済み言語モデルに BERT スタイルの目的を導入して、モデルの表現能力を強化する必要があります。同時に、モデルの生成能力を確保するために、GPT スタイルの目的も導入する必要があります。研究チームが最初にプロービング戦略を使用してコンタクトマップ予測タスクを調査したとき、次の単語予測に基づく生成言語モデルのみに依存すると効果が大幅に減少することを発見しました。

互換性実験: 実証分析では、研究チームは xTrimoPGLM-150m モデルで 2 つの異なる目的を同時に最適化する可能性を調査しました。結果は次の図 (a) と (b) に示されています。2 つの事前トレーニング目標は矛盾しているように見えますが、MLM 損失と GLM 損失は同時に最適化でき、その逆も可能です。つまり、統合トレーニングは、2 つの収束に影響を与えることなく、MLM または GLM にすばやく適応できます。

研究チームは、MLM 目標と GLM 目標が互いの収束を加速できるかどうかも調査しました。結果は図 (c) と (d) に示されています。

  • MLM 適応 GLM: MLM 事前トレーニング済みモデルに従って、GLM 目的関数のトレーニングを継続します。
  • GLM 適応 MLM: GLM 事前トレーニング済みモデルに従って、MLM 目的関数のトレーニングを継続します。

一般に、事前トレーニング済みモデルでトレーニングされたモデルは、最初からトレーニングされたモデルよりも大幅に速く収束します。これらの実験は、タンパク質データの分布が特定のトレーニング モデルに依存しないことを実証することで 100B トレーニング パイプラインをサポートし、オートエンコーディング PLM (ESM など) と自己回帰 PLM (ProGen2 など) 間のギャップを狭めます。

写真

トレーニングの安定性

トレーニングの安定性は、100B サイズの大規模言語モデルを正常にトレーニングするための決定的な要素です。 xTrimoPGLM は GLM-130B の実装からいくつかのアイデアを借用し、不安定なトレーニングの多くの問題を解決します。ただし、xTrimoPGLM-100B では、トレーニングの第 1 段階から第 2 段階に移行するときに、依然として壊滅的なトレーニング クラッシュが発生します (より小さなモデル (10B サイズ) では観察されません)。また、開始時に事前トレーニングに GLM 損失の 1% を追加するだけでも、これらのクラッシュが発生する可能性があります。

下の図に示すように、比率が GLM に直接割り当てられると、トレーニングの開始時に grad norm にスパイク (オレンジ、青、緑の線) が現れます。

写真

この問題を緩和するために、研究チームはスムーズな移行戦略を提案しました。主に2つの段階に分かれています。最初の段階では、主な目標は、GLM 損失の割合を徐々に増やして、希望する量に到達することです。具体的には、望ましい GLM 損失率 R が与えられると、K ステップで 0 から R まで直線的に増加します。この段階では学習率を非常に低く保つ必要があります。遷移が完了すると、事前定義されたスクリプトに従って、数百ステップ以内に学習率を徐々に元のレベル (紫色の線) まで上げることができます。実際、最後の xTrimoPGLM-100B トレーニング実行では、移行フェーズ中にのみ損失の相違が発生しましたが、ハードウェア障害により複数回失敗し、ノードの交換と再起動が頻繁に発生しました。

トレーニングデータ

タンパク質の世界全体を可能な限り詳細にマッピングするために、xTrimoPGLM-100B 事前トレーニング済みモデルのトレーニング データセットは、2 つの広範なデータ ソース (Uniref90 と ColAbFoldDB) から統合されています。

これら 2 つのデータ ソースを組み合わせることで、事前トレーニング済みのモデル データセットは、広範な生物分類の範囲と多様な環境ニッチ タンパク質配列の両方の利点を最大限に活用し、生物界のタンパク質リソースを包括的かつ徹底的にマッピングします。

写真

ハイパーパラメータ設定

xTrimoPGLM-100B モデルのトレーニング プロセスは複雑で、リソースを大量に消費します。チームはこのモデルのトレーニングに 160 日を要しました。開発チームは、混合精度 (FP16) で 96 台の DGX-A100 GPU サーバー (それぞれ 8×40G GPU 搭載) を使用し、1 兆トークンを消費しました。既存の大規模言語モデルのほとんどにはトレーニングに重大な欠陥があるため、開発チームは xTrimoPGLM-100B モデルをトレーニングし続け、できるだけ多くのトークンを処理できるようにしています。

このモデルは 3D 並列戦略を採用し、DeepSpeed に基づいて 4 方向テンソル並列処理と 8 方向パイプライン並列処理を実行し、トレーニングには Zero Stage 1 を使用します。このモデルには、72 個のトランスフォーマー レイヤー、80 個のヘッド、および 10,240 個と 31,744 個の FNN の次元があります。 Post-LN の初期化には DeepNorm が使用され、トレーニングの安定化には Embedding Layer Gradient Shrink (EGS) が使用され、2D ROPE 位置エンコーディング技術が使用されました。トレーニング効率を向上させるために、各サンプルは複数のタンパク質が組み合わされて構成され、<eos> で区別され、2,048 の固定シーケンス長が含まれます。 1 枚のカードの最終的な TFLOP は 120 ~ 135、68 例/秒です。80G A100 の場合は、再計算を減らすことで 92 例/秒に到達できます。次の表は、ほとんどのハイパーパラメータの構成を示しています。

写真

研究チームは、現在普及している事前学習済みモデルのFLOPも比較しました。生物学分野のさまざまなモデルの構造にも比較的大きな違いがあります。そのため、FLOPの計算では、クエリ、キー、値の変換、Attention Matrixの計算、Attention後の線形変換、MLPでの変換、語彙次元への最終マッピング、言語モデルヘッドでの線形変換(ある場合)など、可能な限り詳細な統計を考慮しました。xTrimoPGLM-100Bは他のモデルよりも1〜2桁高いことがわかります。

写真

15のタンパク質下流タスクの評価

xTrimoPGLM-100B モデルを総合的に評価するために、研究チームは 4 つのドメインで 15 の下流タンパク質関連タスクをベンチマークしました。テスト結果によると、xTrimoPGLM-100B は、タンパク質構造、タンパク質の開発可能性、タンパク質相互作用、タンパク質機能を含む 4 つの主要なタスク カテゴリで大きな利点を示しています。これらのタスクでは、xTrimoPGLM-100B モデルと微調整技術の組み合わせにより優れた結果が得られ、現在の最先端の方法をほぼ上回り、この分野の進歩を促進しています。

以下の表の比較は、完全に公平な比較ではなく、主にタスクの観点からのものであることに注意してください。xTrimoPGLM-100B がこれらの結果を達成したとき、この分野では微調整技術にあまり注意を払っていない大規模なモデルが採用されていたためです。これらの結果のほとんどは論文への直接引用から得たもので、同じデータ分割戦略を使用しています。ベンチマークのない一部のタスクについては、研究チームはESM-15B + ファインチューニング戦略をベンチマークとして使用しました。実際、研究チームはすべてのタスクでこの戦略も使用しており、ESM2-15B / 3B + ファインチューニングは多くのタスクで直接SOTAに到達できることを発見しました。ただし、現在の大規模なタンパク質言語モデルのほとんどは、ファインチューニング技術にほとんど注意を払っておらず、特徴抽出器としてPLMを使用することが多いです。

写真

一方、研究チームはxTrimoPGLM大規模モデルの有効性を実証するために、比較的小規模なESM2-150Mモデルを指標として、主に下流のさまざまなタンパク質関連タスクの難易度を把握するために、同じトレーニング設定でESM2-15Bと150Mの比較実験も行いました。これらのタスクには、機能ベースのプローブと、共同の大規模モデル パラメータの微調整が含まれます。xTrimoPGLM-100B は、ほとんどのタンパク質関連タスクで依然として優位性を示しています。

写真

全体的に、xTrimoPGLM-100B は 15 のタスクのうち 12 で ESM2-15B よりも優れたパフォーマンスを発揮しました。研究結果では、あるパターンも明らかになりました。他の方法 (Ankh など) では、大規模な言語モデルに頼らずに、効率的で低コストの知識誘導型タンパク質言語モデルを構築する方法を模索していますが、モデルのパフォーマンスは依然としてモデル サイズと密接に関連しており、モデル サイズを拡張することが、一般的なタンパク質関連タスクにおけるモデルのパフォーマンスを向上させるシンプルで効果的な方法である可能性があることを示唆しています。これは、将来のタンパク質事前トレーニング モデルに関するさらなる研究の指針となります。

抗体医薬品設計における2つの課題

xTrimoPGLM フレームワークの汎用性をさらに判断するために、チームはこのフレームワークを抗体タンパク質の事前トレーニングに適用しました。トレーニング リソースの制限と抗体データの多様性の欠如 (ほとんどの抗体データの長さが似ており、フレームワーク領域も似ている) を考慮して、チームは xTrimoPGLM-100B を直接微調整するのではなく、12 億のパラメーター モデル xTrimoPGLM-Ab-1B を構築し、10 億の抗体配列を含む OAS データセットでモデルをトレーニングしました。

CDR が抗体の最も重要な部分であることを考慮して、研究チームはサンプルの 40% を完全な CDR でマスクし、さらに 40% をランダム マスキングでマスクし、残りの 20% を MLM ターゲティングでマスクしました。 [gMASK]は抗体タスクではあまり必要とされないため、この損失は使用されません。 xTrimoPGLM-Ab-1B は、まずユニバーサル タンパク質配列で 500B トークンをトレーニングし、次に OAS データで 500B トークンをトレーニングしました。混合精度トレーニングには合計 128 枚の Nvidia A100 80G GPU カードが使用され、約 168 時間かかりました。

抗体ベースの医薬品設計には、配列の自然性と抗体構造の予測という 2 つの重要なタスクがあり、以下にそれらを紹介します。

ゼロショットの自然さ

研究チームは、Baitu Biosciences ウェットラボから取得したタンパク質発現実験データセットを使用して、さまざまなモデルのパフォーマンスを評価しました。具体的には、精製されたタンパク質が 10 mg/L 未満しか生成されなかったサンプルは未発現と分類され、10 mg/L を超えて生成されたサンプルは正常に合成されたとみなされました。最初のデータセット (データセット 1) には、CHO 細胞と HEK293 細胞で実行されたウェット実験からの 601 個の抗体配列が含まれています。このうち516個が正常に発現しました。 2 番目のデータセット (データセット 2) には、特定の抗原を標的とする 98 個のヒト抗体配列が含まれており、そのうち 90 個が正常に発現されました。評価では、ラベルを微調整せずにゼロショット評価方法を採用し、シーケンス パープレキシティ (PPL) と疑似パープレキシティ (PPPL) を計算することによってシーケンスのみにスコアを付けます。

結果は、xTrimoPGLM-Ab-1B が両方のデータセットで他のベースライン モデルよりも優れていることを示しています。さらに、xTrimoPGLM-Ab-1B はさらに微調整され、それぞれ xTrimoPGLM-Ab-1B-GLM と xTrimoPGLM-Ab-1B-MLM の 2 つのモデルが得られました。結果は、データセット 2 の両方のモデルの AUC スコアが 0.02 向上したことを示しています。

写真

著者らは、ランダム領域マスクと CDR 領域マスクの重要性を実証するためにアブレーション研究も実施しました。実験では、両方の目的を同時に使用すると、データセット 1 と 2 の両方でタスクの 1 つだけを使用するモデルよりもパフォーマンスが優れていることが示されており、この 2 種類の目的を組み合わせることの重要性が強調されています。

抗体構造予測

このタスクの目的は、抗体の配列に基づいてその構造を予測することです。実験では、単鎖構造の予測と複合体構造の予測、つまり VH-VL 複合体をカバーします。

単鎖構造予測のデータセットは、2022 年 4 月 13 日までの RCSB タンパク質データバンク (PDB) から取得されます。データセットには 19k の抗体鎖 (VL または VH) が含まれています。フィルタリング後、最終的に約 7.5k の固有のシーケンスが得られました。別のデータセットである VH-VL 複合体には、PDB から約 4.7k 個の抗体が含まれています。評価基準は、二乗平均平方根偏差 (RMSD) と TM スコアです。複雑な構造の予測には DockQ 評価も含まれます。

現在普及している構造予測モデル (ESMFold、AlphaFold2 など) と比較して、xTrimoPGLM-AbFold では次の変更が加えられました: 1) MSA およびテンプレート検索モジュールが削除されました。2) 下流の evoformer モジュールの数を 48 から 1 に削減しました。

写真

単一鎖構造予測タスクでは、研究チームは Alphafold2 と 4 つの PLM ベースのモデル (OmegaFold、ESMFold、IgFold、xTrimoAbFold) を比較しました。

写真

結果は表に示されています。xTrimoPGLM-AbFold は、抗体構造予測に関連するすべての指標において他のモデルを大幅に上回っており、事前トレーニング済みモデルがデータ分布に十分に適合する場合、MSA やテンプレートに依存せずに、追加の Evoformer モジュールを微調整するだけで、主要な抗体構造予測モデルになることができることをさらに実証しています。

VH-VL複合体の構造を予測するために、研究チームはZDock、ClusPro、EquiDock、HDOCK、AlphaFold-Multimerを比較しました。

写真

上記の表は、VH-VL 複合体のパフォーマンスに関して、さまざまなモデルがどのように機能するかも示しています。 AlphaFold-Multimer は MSA とテンプレート情報を使用しており、そのパフォーマンスはほとんどの構造予測アルゴリズムよりも優れています。ただし、xTrimoPGLM-AbFold は MSA やテンプレート情報を一切使用せず、AlphaFold-Multimer と同等のパフォーマンスを発揮します。これは、xTrimoPGLM-Ab-1B が十分に豊富な抗体情報を学習したことを示しています。さらに重要なのは、その推論速度が AlphaFold-Multimer より 6,300 倍速く、MSA 加速検索戦略を使用した場合の AlphaFold-Multimer より 103 倍速いことです。 AI製薬エンジンでは、報酬を計算して次の反復ラウンドに進むために、生成された候補配列の構造を迅速に予測する必要があることがよくあります。速度の向上がエンジンの効率を決定します

さらに、チームが Evoformer モジュールの数を 16 に増やしたところ、xTrimoPGLM-AbFold はすべての指標で最高のパフォーマンスを達成し、オリジナルの AlphaFold-Multimer よりも 2,400 倍、AlphaFold-Multimer の高速化された MSA 検索バージョンよりも 40 倍高速になりました。注目すべきは、Evoformer モジュールの数が 1 から 16 に増加しても、効果はわずかにしか改善されないことです。これは、事前トレーニング済みモデルが原子の位置を正確に予測するのに十分な配列情報を学習したことを示しています。

一般的なタンパク質生産

xTrimoPGLM が自然な機能配列を生成する能力を調査するために、研究チームは何千もの配列を生成し、それらに対応する 3 次元折り畳み構造を予測しました。研究チームは、このモデルがより複雑な三次構造の基礎となるアルファヘリックスやベータシートなどの重要な二次構造を生成できることを発見した。さらに、モデルによって生成された配列は天然配列との類似性が低いため、その後の薬剤合成に多くの選択肢が提供されます。

写真

しかし、高品質のシーケンスを生成する方法は依然として大きな課題です。まず、200 アミノ酸を超える配列を扱う場合、モデルは天然のタンパク質のような構造ではなく、多数のループを生成する傾向があります。第二に、モデルは生成中に繰り返し問題を生成することが多く、これは出力確率を局所的に最大化するオプションを選択するモデルの傾向に起因する可能性があります。研究チームは、繰り返しシーケンスが生成される可能性を減らすためにn-gramペナルティを使用しようとしましたが、多くの例が低複雑度のシーケンス(たとえば、局所的な繰り返し)を示し、予測された構造に長い周期的な無秩序領域が含まれていることを発見しました。n-gramペナルティが、モデルの正しいシーケンス生成能力を妨げた可能性があると推測されています(下の図の最初の行)。 n-gram ペナルティを削除すると、モデルは通常の構造を生成できるようになります (下の図の 2 行目)。

写真

抗体タンパク質の生産

研究チームはさらに、xTrimoPGLM-Ab-1B モデルの生成能力を実証し、SARS-CoV-2-WT に結合できる重鎖抗体配列を選択し、4 つの異なる戦略を使用して配列の CDR3 領域を再設計しました。 CDR3 領域は抗体や T 細胞受容体の構造において重要な役割を果たし、大きな変動性があるため、抗原認識の特異性において重要な役割を果たします。次の 4 つの戦略が定義されています。

  • CDR3 ショート シーケンス マスク (CSM): CDR3 領域の一部をマスクで再設計します。
  • CDR3 全体シーケンス マスク (CWM): CDR3 領域全体のマスクの再設計。
  • CDR3 ランダム変異誘発 (CRM): CDR3 領域内の特定の部位のランダムな 3 ~ 6 個の位置が変異しました。
  • CDR3 ランダム検索 (CRR): CDR3 領域を SARS-CoV-2 野生型ライブラリ内の他の抗体の配列にランダムに置き換えます。

研究チームは、xTrimoPGLM-Ab-1B を使用して 6,000 個の抗体のパネルを生成しました。研究チームは6つの抗体をランダムに選択し、xTrimoPGLM-AbFoldを構造予測モデルとして使用しました。 CSM および CWM 戦略では、突然変異や削除を実行することなく、異なる長さのシーケンスを生成できます。対照的に、2 つの並行ベースライン CRM および CRR から生成されたシーケンスは、いくつかの変異の存在や CDR3 セグメント全体の完全な置換に関係なく、かなりの無秩序を示しました。研究チームの分析ではさらに、編集距離と結果として得られる抗体のCDR3領域の構造との間に関係があることがわかった。特に、CDR3 領域の構造は編集距離が増加するにつれて退化する傾向があり、これは現在大規模な生成モデルでも直面している制限です。

写真

結論

NLP/CV分野からアイデアを借用することで、生物学分野の事前学習済みモデルが過去2年間でキノコのように出現しました。モデルの計算能力の向上と生物学データの増加により、この分野ではさらに多くの未知の驚くべき発見が生まれることが期待されます。

まだ探求すべき領域は多くありますが、1000億モデルの誕生は最先端のAI技術と生物技術の融合を意味するだけでなく、無限の可能性に満ちた未来が始まったことを意味します。この重量級のモデルが医薬品分野を新たな黄金時代へと導き、人類の健康と科学のより明るい未来を創造することを期待しています。

<<:  ネットワークディスク上の大きなモデルを使うのはとても気持ちがいいです!隠された写真は3秒で発見され、親戚や友人全員が衝撃を受けた

>>:  速度は数十倍に向上。たった1枚の写真と1つの文章だけで、Googleの新しいモデルは20秒で顔を変えることができる。

ブログ    

推薦する

シングルトランスフォーマー情報検索、Google は微分可能な検索インデックスでデュアルエンコーダーモデルに勝利

情報検索 (IR) は、インターネットの誕生以来、揺るぎない地位を築いてきました。膨大なデータからユ...

人工知能は人間の生活水準をどのように向上させることができるのでしょうか?

米国を例にとると、10年後には、成人一人当たり人工知能ビジネスから年間13,500ドルの利益を得るこ...

GoogleからNvidiaまで、テクノロジー大手はAIモデルを解読するためにレッドチームハッカーを採用している

ChatGPTの一般公開の1か月前に、OpenAIはケニアの弁護士Boru Golloを雇い、AIモ...

Linux オブジェクトアロケータ スラブアルゴリズム

[[414991]]この記事はWeChatの公開アカウント「Linux Kernel Things」...

パスワードバスター:機械学習

コンピュータの誕生以来、ユーザー名とパスワードは最も基本的なアクセス制御および ID 認証の方法でし...

スイス再保険:AI を活用して保険対応プロセスを効率化

自然災害が増加する中、スイス・リーは人工知能を活用して、顧客が保険金請求をより正確に予測し、手続きを...

「コピー+貼り付け」に別れを告げ、ディープラーニングOCRに基づくPDFからテキストへの変換を実現

[[403226]]従来の講義には通常、PDF スライドのセットが付属します。一般的に、このような講...

...

現時点で最も包括的なPythonの採用方針

Pythonは、コンパイル速度が超高速なオブジェクト指向プログラミング言語です。誕生から25年が経ち...

自国の農業用ドローン産業の発展と成熟を促進するにはどうすればよいでしょうか?

現在、技術の継続的な進歩と産業発展の継続的な加速により、エンターテインメント、輸送、物流、救助などの...

ファーウェイのロボット犬が公開:AI技術を使用して動的なマルチターゲット追跡と追従を実現

ロボット界のインターネット有名人といえば、ボストン・ロボット・ドッグを挙げなければなりません。そして...

...

AIデータのラベル付けは大量にアウトソーシングされており、南アフリカ、ベネズエラなどの国の人々はデジタル搾取の運命から逃れられない

歴史的に、これらの国や地域は旧植民地帝国によって貧困化しており、ヨーロッパの植民地主義は土地の暴力的...

2019年の自動運転のキーワード:冬眠と迂回による救国

何年もの間大騒ぎされていた自動運転の人気も、ようやく落ち着いてきた。世界の資本市場が寒い冬の時期に入...

フードデリバリーロボット市場は11.6億規模に到達。美団は「台頭」するか?

近年、ロボット産業は急速に発展しており、工業、農業、サービスなど多くの分野でロボットが見られるように...