Google AIが既知のタンパク質配列の10%を一度に注釈付け、10年で人間の研究成果を上回る

タンパク質は人体のすべての細胞と組織の重要な構成要素です。体のすべての重要な成分にはタンパク質が必要です。

既知のタンパク質は数十億種ありますが、そのうち約3分の1の機能は不明です。これらの未知の領域は、抗菌薬耐性や気候変動などの重要な問題に関係しているため、早急に調査する必要があります。たとえば、ペニシリンはタンパク質間の自然な反応によって生成されるものであり、植物性タンパク質は大気中の二酸化炭素を減らすために使用できます。

最近、 Googleと欧州バイオインフォマティクス研究所は、ニューラルネットワークを使用してタンパク質の機能を確実に予測できる技術ProtCNNを開発し、タンパク質の世界における最後の見えない領域を絞り込むのに役立っています。

Google は、この新しい方法により、タンパク質の機能や突然変異の機能的影響をより正確に予測し、タンパク質を設計できるようになり、それが新薬の発見、酵素の設計、さらには生命の起源の理解にも応用できると述べた。

論文: ディープラーニングを使用してタンパク質宇宙に注釈を付ける

論文リンク: https://www.nature.com/articles/s41587-021-01179-w

Google が提案した方法は、より多くのタンパク質の機能を確実に予測し、高速で安価で簡単に試すことができます。彼らの研究により、主流のデータベース Pfam の注釈付きタンパク質配列の数は 10% 近く増加し、過去 10 年間の成長率を上回り、360 種類のヒトタンパク質の機能を予測しました。

Pfam データベースはタンパク質ファミリーのコレクションであり、各ファミリーは複数の配列アライメントと隠れマルコフモデルの形式で表現されます。

これらの結果は、ディープラーニングモデルが将来のタンパク質注釈ツールの中核となる要素になることを示唆しています。

ほとんどの人にとって、タンパク質構造を予測するアルゴリズムである AlphaFold に関する DeepMind の以前の研究の方が馴染み深いでしょう。 AlphaFold はこれらの神秘的な生物学的機械の形状を示しましたが、新しい研究はこれらの機械が何をするのか、何に使われるのかに焦点を当てています。

バイオメディカルは非常に活発な科学分野であり、毎日 100,000 を超えるタンパク質配列が世界中の配列データベースに追加されています。ただし、機能的な注釈が付いていない限り、これらのエントリは実務者にとって非常に限られた用途しかありません。毎年 60,000 件を超える論文を評価して文献から注釈を抽出する努力がなされていますが、この作業は時間がかかるため、公開されているタンパク質配列のうち手動で注釈が付けられているのはわずか 0.03% です。

アミノ酸配列から直接タンパク質の機能を推測することは、科学界が長い間研究してきた方向性です。 BLAST などの方法は 1980 年代から提案されており、クエリタンパク質が注釈付きの非常に類似した配列と同じ機能を持つと仮定して、ペアワイズ配列比較に依存しています。その後、シグネチャベースのアプローチが導入され、PROSITE データベースは特定の機能を持つタンパク質に見られる短いアミノ酸「モチーフ」を分類しました。署名ベースの方法に対する重要な改善点は、プロファイル隠れマルコフモデル (pHMM) の開発です。これらのモデルは、関連するタンパク質配列のアラインメントを、新しい配列の尤度スコアを提供するモデルに統合し、アラインメントされたセットとどれだけ一致するかを説明します。

ここで重要なのは、プロファイル HMM ではより長い署名とよりあいまいな一致が可能になり、現在 Interpro や Pfam などの一般的なデータベースの更新に使用されていることです。その後の改良により、これらの手法は応答性と計算効率が向上し、Web ツールとしての可用性が高くなったため、実践者は簡単にワークフローに統合できるようになりました。

これらの計算モデリング手法は学術界に大きな影響を与えてきました。しかし、細菌タンパク質の 3 分の 1 にはまだ機能が注釈されていません。その理由は、現在の方法では、比較されるシーケンスまたはモデルごとに完全に独立した比較が実行されるため、異なる機能クラスによって共有される機能を十分に活用できない可能性があるためです。

注釈付きタンパク質配列のセットを拡張するには、長距離相同性検出、つまりトレーニングデータとの類似性が低い配列の正確な分類が必要です。新しい研究で得られたベンチマークセットには 21,293 個の配列が含まれています。 ProtENN は、遠いテスト配列を持つクラスも含め、すべてのクラスで分類精度の大幅な向上を実現します。これは、タンパク質の世界の範囲を拡大するための重要な要件です。わずか数例から推論するという課題に対処するために、著者らはディープモデルによって学習されたシーケンス表現を使用してパフォーマンスを向上させます。

Pfam-seed モデルのパフォーマンス。

ProtCNN のアーキテクチャ。中央の図は、入力 (赤)、埋め込み (黄色)、予測 (緑) ネットワークと残差ネットワーク ResNet アーキテクチャ (左) を示しており、右の図は、単純な最近傍アプローチを利用する ProtCNN と ProtREP を示しています。この表現では、各シーケンスはポイントに対応し、同じファミリーのシーケンスは通常、他のファミリーのシーケンスよりも近くなります。

ProtCNN は、非整列長に関係なく、シーケンスごとに長さ 1100 の実数値のベクトル表現を学習します。高い精度を達成するには、各ファミリーの表現を密にクラスター化し、異なるファミリーが互いに適切に分離されるようにする必要があります。このような学習された表現を使用して、最小ファミリーからの配列を正確に分類できるかどうかをテストするために、著者らは ProtREP と呼ばれる新しい方法を構築しました。 ProtREP では、トレーニングシーケンス内の各ファミリーの平均学習表現を計算し、ラベル付けされたファミリー表現を生成します。次に、保持された各テストシーケンスは、学習された表現空間内で最も近いラベルを見つけることによって分類されます。同じ計算コストで、ProtREP はクラスターセグメンテーションにおいて ProtCNN の精度を上回ります。

ProtENN と TPHMM を組み合わせると、リモートホモロジータスクのパフォーマンスが向上します。 TPHMM モデルと ProtENN モデルの単純な組み合わせにより、エラー率が 38.6% 減少し、ProtENN データの精度が 89.0% から 93.3% に向上しました。

ディープモデルによるタンパク質配列データの理解を調査するために、著者らは Pfam-full の非整列配列の 80% で ProtCNN をトレーニングし、学習したアミノ酸表現の類似性マトリックスを計算しました。

結果は、ProtCNN が、配列空間の未知の部分に一般化され、タンパク質配列の特性を予測および理解するために使用できる、タンパク質配列の意味のある表現を学習することを示しています。もう一つの課題は、タンパク質ドメインとタンパク質配列におけるその位置の検出です。このタスクは画像のセグメンテーションに似ており、まさにディープラーニングモデルが得意とする分野です。 ProtCNN はドメインを使用してトレーニングされますが、ここでは、単純なスライディングウィンドウアプローチを使用して完全なシーケンスをドメインに分割する ProtCNN の機能を実証します。

シーケンスアライメントを使用していないにもかかわらず、ProtCNN は優れた精度を示しました。

<<: 人工知能分野における神話を再考する

>>: マイクロソフトがAIインフラサービスコード名「Singularity」を発表