ハーバード大学とコロンビア大学が、AlphaFold 2 のプライベート トレーニング データの問題を解決するために 1,600 万個のタンパク質配列をオープンソース化しました。

ハーバード大学とコロンビア大学が、AlphaFold 2 のプライベート トレーニング データの問題を解決するために 1,600 万個のタンパク質配列をオープンソース化しました。

タンパク質は生命の原動力であり、その配列と構造を理解することは、新しい酵素の設計や命を救う薬の開発など、生物学や医学の課題を解決する鍵となります。

DeepMind の AlphaFold 2 は、これまでにない精度でタンパク質構造を予測できます。

しかし、この分野での進歩は、オープンなトレーニング データの不足によって大きく妨げられています。

しかし、ハーバード大学、ハーバード大学医学部、コロンビア大学、ニューヨーク大学、フラットアイアン研究所の研究者らはオープンソースのデータベースを導入した。

OpenProteinSet と呼ばれるこのオープンソース データベースは、大規模なタンパク質アラインメント データを提供することで、この状況を大幅に改善する可能性があります。

提供されるデータセットは、AlphaFold 2 のトレーニングに使用されたものと同じ品質です。

AlphaFold 2のおかげで、MSAの実用性は爆発的に向上しました

タンパク質の機能は、そのアミノ酸配列にコード化されています。

進化の過程で、これらの配列は小さな変化を蓄積しますが、タンパク質の全体的な構造と機能は変化しません。

多重配列アライメント (MSA) は、一致するアミノ酸が同じ列になるようにギャップを挿入してアライメントされた、進化的に関連するタンパク質配列のセットです。

これらの MSA のパターンを分析することで、タンパク質の構造と機能に関する洞察が得られます。

MSA の各行はタンパク質配列です。タンパク質は、それぞれが文字で表された 20 個のアミノ酸 (または「残基」) の 1 次元の文字列です。

ターゲットまたは「クエリ」タンパク質は、MSA の最初の行に示されます。後続の行は、クエリ配列との類似性に基づいて大規模な配列データベースから取得された、進化的に関連する(「相同な」)タンパク質です。

アライメントを改善し、時間の経過とともに長さが変化する相同配列に対応するために、MSA アライメント ソフトウェアは「ギャップ」 (ここではダッシュで表されます) を挿入したり、相同配列内の残基を削除したりできます。

MSA 内の相同配列の数 (「深さ」) とその多様性は、MSA の有用性に貢献します。

MSA 入門

MSA は長い間タンパク質研究に不可欠でしたが、2021 年には AlphaFold 2 の登場によりその有用性が爆発的に高まりました。

MSA により、AlphaFold 2 は実験レベルに近い精度でタンパク質構造を予測できます。

ただし、注意点があります。AlphaFold 2 はオープンソースですが、トレーニング データは非公開のままです。

これは計算コストが高いです。高感度の MSA の生成には、ターゲット シーケンスの長さと検索対象のシーケンス データベースのサイズに応じて数時間かかる場合があります。

その結果、タンパク質機械学習やバイオインフォマティクスの最先端の研究は、少数の大規模な研究チームを除いてアクセスできなくなっていました。

1,600万のMSAはすべてオープンソース

そこで研究チームは、AlphaFold 2以上の規模でバイオインフォマティクスをトレーニングするためのモデルであるOpenProteinSetを提案しました。

これには、すべての固有の Protein Data Bank (PDB) チェーンの MSA と構造テンプレートを含む、AlphaFold 2 の未公開のトレーニング セットが含まれています。

現在、OpenProteinSet は 1,600 万の MSA と関連データを提供しており、それらはすべてオープンソースです。

PDB は実験的に決定されたタンパク質構造の決定的なデータベースであり、OpenProteinSet には PDB 内のすべての 140,000 個のタンパク質の MSA が含まれています。

類似性に基づいてクラスター化された UniProt ナレッジベースのシーケンスも含まれています。

PDB タンパク質の場合、OpenProteinSet は複数の配列データベースから生の MSA を提供できます。

PDB を検索することで、類似の構造を持つタンパク質を見つけることもできます。

AlphaFold 2 によって予測された構造。270,000 種類の UniProt クラスターが含まれます。

オープンソースデータセットを使用して AlphaFold 2 を再現する

開発者は OpenProteinSet を使用して、AlphaFold 2 のオープン バージョンである OpenFold をトレーニングすることもできます。

OpenFold のパフォーマンスは DeepMind のオリジナルデータに匹敵し、このオープンデータの妥当性が実証されたことがわかりました。

「OpenProteinSetにより、分子機械学習コミュニティで利用できる事前計算済みMSAの数と品質が大幅に向上しました」とチームは述べています。

このデータセットは、構造生物学のさまざまなタスクに直接適用できます。

実験方法

OpenProteinSet は、AIphaFold2 論文の手順に従って生成された 1,600 万を超える固有の MSA で構成されています。

この数には、2022 年 4 月時点の PDB 内の 140,000 個の固有チェーンすべての MSA と、同じデータベースの Uniclust30 内の各シーケンス クラスターに対して計算された 1,600 万個の MSA が含まれます。

研究者らは後者のグループから、例えば AphaFold2 のトレーニング中に自己蒸留するのに適している可能性のある、多様性が最大となる代表的なクラスターを 270,000 個特​​定しました。

研究者らは、各 PDB チェーンについて、異なるアライメント ツールと配列データベースを使用して 3 つの MSA を計算しました。

OpenFold のスクリプトを使用すると、公開されている PDBmmCIF ファイルから対応する構造を取得できます。

AIphaFold2 トレーニング セットを生成するために使用されたプロセスと同様に、研究者は MSA 生成ツールのいくつかのデフォルト オプションを変更しました。

その後、クラスターごとに 1 つずつ、約 1,600 万個の MSA が生成されました。

MSA の多様で深いサブセットを作成するために、他の MSA の中で最も頻繁に出現する代表的なチェーンを持つ MSA を反復的に削除します。

各代表チェーンが独自の MSA にのみ表示されるまで、これが繰り返されます。

対応する(未発表の)AlphaFold 2 セットとの一致を図るため、1024 残基を超える配列または 200 残基未満の配列を表すクラスターをさらに削除しました。

最後に、対応する MSA が 200 シーケンス未満のクラスターを除外し、270,262 個の MSA のみを残しました。

合計すると、OpenProteinSet の MSA は 400 万時間を超える計算に相当します。

OpenProteinSet は、分子機械学習コミュニティで利用可能な事前計算済み MSA の数と品質を大幅に向上させ、構造生物学のさまざまなタスクに直接適用できます。

モデルがますますデータを必要とするようになるにつれて、OpenProteimnSet のようなデータベースは、マルチモーダル言語モデルの生物学的知識の宝庫として、またマルチモーダル トレーニング自体の実証的研究のツールとして役立ちます。

つまり、OpenProteinSet はバイオインフォマティクスやタンパク質機械学習などの分野の研究をさらに促進することになります。

<<:  マスク氏が「ブレインカッター」を募集! Neuralink が初の人体実験を公式に発表。ALS 患者は「数秒でホーキング博士に変身」するのでしょうか?

>>:  バードがグーグル一家を爆破!歴史上初めて、大規模なモデルが自己検査のためにオンラインで公開され、電子メール、地図、文書、ビデオがすべて利用可能になりました。

ブログ    

推薦する

自動運転車の4つの重要な要素:2040年までに市場価値500億ドル

自動運転車は自動車業界にとって非常に破壊的な技術です。現在、多くのメーカーが物流、自動運転タクシー、...

指紋と顔は本当に生体認証を表現できるのでしょうか?

今年初めから現在まで、ToFセンサーはApple、Samsung、GD、AMSなどのセンサー企業やス...

ツイッターがマスク氏の買収を阻止:15%以上の株式を保有する者は割引価格で発行される

イーロン・マスクによるツイッター買収のドラマもついにこの回まで来た。ツイッターは現地時間4月15日、...

光速画像認識について学ぶ: 1ナノ秒未満

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

PTC PLM、Volocopter の自律飛行タクシー開発をサポート

PTC(NASDAQ: PTC)は、ドイツの新興企業 Volocopter が自律飛行輸送システムの...

マスク氏がウルトラマンの七つの大罪を明かす!アルトマンが交渉を再開、ChatGPTは崩壊

ChatGPTが再びダウンしました。半月前の大規模な障害に続いて、ChatGPT はアクセスの急増に...

残念ながら、自然言語理解はAIがまだ克服していない分野である。

わずか数年で、ディープラーニングのアルゴリズムは大きな進歩を遂げました。チェスのゲームで世界最高のプ...

なぜ機械学習モデルの90%が実稼働に至らないのか

会社は厳しい時期を迎えている。私はパンデミックや株式市場の変動について話しているのではない。時代は不...

データ構造とアルゴリズム: グラフ構造

写真グラフ構造は、ツリー構造よりも複雑な非線形構造です。ツリー構造では、ノード間に分岐階層関係があり...

強力な顔認識システムを騙すには、額に紙を貼り付けてください。 Huawei製、Face IDは終了

[[275013]]額にお守りを貼るとAIがあなたを認識できなくなるって知っていましたか?たとえば、...

マクロン仏大統領「人工知能は制限されなければ西側諸国の民主主義を完全に破壊するだろう」

3月29日、フランスのエマニュエル・マクロン大統領がパリで演説を行った。ホーキング博士はかつて、人...

困難な選択のターミネーター: さまざまな問題に対する機械学習アルゴリズム

データサイエンスを学び始めた頃、特定の問題に対してどのアルゴリズムを選択すればよいのかという疑問によ...

...

ナレッジグラフとディープラーニングが「出会う」とき

著者: Xiao Yanghua、復旦大学コンピュータ科学技術学院准教授、博士課程指導教員、上海イン...