Google AIが既知のタンパク質配列の10%を一度に注釈付け、10年で人間の研究成果を上回る

Google AIが既知のタンパク質配列の10%を一度に注釈付け、10年で人間の研究成果を上回る

タンパク質は人体のすべての細胞と組織の重要な構成要素です。体のすべての重要な成分にはタンパク質が必要です。

既知のタンパク質は数十億種ありますが、そのうち約3分の1の機能は不明です。これらの未知の領域は、抗菌薬耐性や気候変動などの重要な問題に関係しているため、早急に調査する必要があります。たとえば、ペニシリンはタンパク質間の自然な反応によって生成されるものであり、植物性タンパク質は大気中の二酸化炭素を減らすために使用できます。

最近、 Googleと欧州バイオインフォマティクス研究所は、ニューラルネットワークを使用してタンパク質の機能を確実に予測できる技術ProtCNNを開発し、タンパク質の世界における最後の見えない領域を絞り込むのに役立っています

Google は、この新しい方法により、タンパク質の機能や突然変異の機能的影響をより正確に予測し、タンパク質を設計できるようになり、それが新薬の発見、酵素の設計、さらには生命の起源の理解にも応用できると述べた。

論文: ディープラーニングを使用してタンパク質宇宙に注釈を付ける

論文リンク: https://www.nature.com/articles/s41587-021-01179-w

Google が提案した方法は、より多くのタンパク質の機能を確実に予測し、高速で安価で簡単に試すことができます。彼らの研究により、主流のデータベース Pfam の注釈付きタンパク質配列の数は 10% 近く増加し、過去 10 年間の成長率を上回り、360 種類のヒトタンパク質の機能を予測しました。

Pfam データベースはタンパク質ファミリーのコレクションであり、各ファミリーは複数の配列アライメントと隠れマルコフ モデルの形式で表現されます。

これらの結果は、ディープラーニングモデルが将来のタンパク質注釈ツールの中核となる要素になることを示唆しています。

ほとんどの人にとって、タンパク質構造を予測するアルゴリズムである AlphaFold に関する DeepMind の以前の研究の方が馴染み深いでしょう。 AlphaFold はこれらの神秘的な生物学的機械の形状を示しましたが、新しい研究はこれらの機械が何をするのか、何に使われるのかに焦点を当てています。

バイオメディカルは非常に活発な科学分野であり、毎日 100,000 を超えるタンパク質配列が世界中の配列データベースに追加されています。ただし、機能的な注釈が付いていない限り、これらのエントリは実務者にとって非常に限られた用途しかありません。毎年 60,000 件を超える論文を評価して文献から注釈を抽出する努力がなされていますが、この作業は時間がかかるため、公開されているタンパク質配列のうち手動で注釈が付けられているのはわずか 0.03% です。

アミノ酸配列から直接タンパク質の機能を推測することは、科学界が長い間研究してきた方向性です。 BLAST などの方法は 1980 年代から提案されており、クエリ タンパク質が注釈付きの非常に類似した配列と同じ機能を持つと仮定して、ペアワイズ配列比較に依存しています。その後、シグネチャベースのアプローチが導入され、PROSITE データベースは特定の機能を持つタンパク質に見られる短いアミノ酸「モチーフ」を分類しました。署名ベースの方法に対する重要な改善点は、プロファイル隠れマルコフモデル (pHMM) の開発です。これらのモデルは、関連するタンパク質配列のアラインメントを、新しい配列の尤度スコアを提供するモデルに統合し、アラインメントされたセットとどれだけ一致するかを説明します。

ここで重要なのは、プロファイル HMM ではより長い署名とよりあいまいな一致が可能になり、現在 Interpro や Pfam などの一般的なデータベースの更新に使用されていることです。その後の改良により、これらの手法は応答性と計算効率が向上し、Web ツールとしての可用性が高くなったため、実践者は簡単にワークフローに統合できるようになりました。

これらの計算モデリング手法は学術界に大きな影響を与えてきました。しかし、細菌タンパク質の 3 分の 1 にはまだ機能が注釈されていません。その理由は、現在の方法では、比較されるシーケンスまたはモデルごとに完全に独立した比較が実行されるため、異なる機能クラスによって共有される機能を十分に活用できない可能性があるためです。

注釈付きタンパク質配列のセットを拡張するには、長距離相同性検出、つまりトレーニング データとの類似性が低い配列の正確な分類が必要です。新しい研究で得られたベンチマーク セットには 21,293 個の配列が含まれています。 ProtENN は、遠いテスト配列を持つクラスも含め、すべてのクラスで分類精度の大幅な向上を実現します。これは、タンパク質の世界の範囲を拡大するための重要な要件です。わずか数例から推論するという課題に対処するために、著者らはディープモデルによって学習されたシーケンス表現を使用してパフォーマンスを向上させます。

Pfam-seed モデルのパフォーマンス。

ProtCNN のアーキテクチャ。中央の図は、入力 (赤)、埋め込み (黄色)、予測 (緑) ネットワークと残差ネットワーク ResNet アーキテクチャ (左) を示しており、右の図は、単純な最近傍アプローチを利用する ProtCNN と ProtREP を示しています。この表現では、各シーケンスはポイントに対応し、同じファミリーのシーケンスは通常、他のファミリーのシーケンスよりも近くなります。

ProtCNN は、非整列長に関係なく、シーケンスごとに長さ 1100 の実数値のベクトル表現を学習します。高い精度を達成するには、各ファミリーの表現を密にクラスター化し、異なるファミリーが互いに適切に分離されるようにする必要があります。このような学習された表現を使用して、最小ファミリーからの配列を正確に分類できるかどうかをテストするために、著者らは ProtREP と呼ばれる新しい方法を構築しました。 ProtREP では、トレーニング シーケンス内の各ファミリーの平均学習表現を計算し、ラベル付けされたファミリー表現を生成します。次に、保持された各テスト シーケンスは、学習された表現空間内で最も近いラベルを見つけることによって分類されます。同じ計算コストで、ProtREP はクラスターセグメンテーションにおいて ProtCNN の精度を上回ります。

ProtENN と TPHMM を組み合わせると、リモートホモロジータスクのパフォーマンスが向上します。 TPHMM モデルと ProtENN モデルの単純な組み合わせにより、エラー率が 38.6% 減少し、ProtENN データの精度が 89.0% から 93.3% に向上しました。

ディープモデルによるタンパク質配列データの理解を調査するために、著者らは Pfam-full の非整列配列の 80% で ProtCNN をトレーニングし、学習したアミノ酸表現の類似性マトリックスを計算しました。

結果は、ProtCNN が、配列空間の未知の部分に一般化され、タンパク質配列の特性を予測および理解するために使用できる、タンパク質配列の意味のある表現を学習することを示しています。もう一つの課題は、タンパク質ドメインとタンパク質配列におけるその位置の検出です。このタスクは画像のセグメンテーションに似ており、まさにディープラーニング モデルが得意とする分野です。 ProtCNN はドメインを使用してトレーニングされますが、ここでは、単純なスライディング ウィンドウ アプローチを使用して完全なシーケンスをドメインに分割する ProtCNN の機能を実証します。

シーケンスアライメントを使用していないにもかかわらず、ProtCNN は優れた精度を示しました。

<<:  人工知能分野における神話を再考する

>>:  マイクロソフトがAIインフラサービスコード名「Singularity」を発表

ブログ    
ブログ    
ブログ    

推薦する

...

百度CEOロビン・リー:AI時代のオープン性が技術の進歩を推進

8月19日、2017年ヤブリ中国起業家フォーラム夏季サミットが銀川で開催されました。百度の創業者で会...

小売業界のトレンド: 人工知能からクーポンコードまで

[[436501]]機械学習と人工知能 (AI) の登場により、企業のビジネスのやり方は大きく変化し...

データ構造とアルゴリズムの簡単な紹介

一般的なデータ構造にはどのようなものがありますか? 基本的な操作は何ですか? 一般的なソート アルゴ...

李開復「2021年を予測」:4つの主要分野が前例のない発展の機会をもたらす

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2021 年の機械学習の今後はどうなるのでしょうか?

ああ、2020年!世界的なヘルスケア問題から、テクノロジーの採用と再利用の方法の革命まで、今年はこれ...

Sogouの技術者が在宅勤務中にサーバーを誤操作し、誤って「マグニチュード12の地震警報」を発令した。

2月3日午前11時頃、捜狗入力法の一部のユーザーは、河北省興隆市でマグニチュード12の地震が発生し...

...

自動化が医療にもたらす革命

長年にわたり、自動化はほぼすべての業界に浸透してきました。自動化は、工場の機械が組立ラインの生産を高...

AI の透明性とは何ですか? また、なぜそれが必要なのですか?

AI テクノロジーを利用する組織はますます増えていますが、多くの企業はまだ AI テクノロジーの仕...

...

AI.com ドメインが ChatGPT から X.ai にリダイレクトされました

AI.com ドメイン名は、もともと今年 2 月に OpenAI によって購入され、ChatGPT ...

ChatGPT でより良いコードを書く方法

翻訳者 |李睿レビュー | Chonglouコードの生成は、ChatGPT や指示に従うその他の大規...

生成AIにおけるデータ制限を克服する方法

生成 AI は、トレーニングに使用されるデータに大きく依存します。ただし、データの制限により、望まし...

...