2 つのトップ AI アルゴリズムがオープンソースになりました。 NatureとScienceはともにAlphafold2に関する重要なニュースを掲載している

2 つのトップ AI アルゴリズムがオープンソースになりました。 NatureとScienceはともにAlphafold2に関する重要なニュースを掲載している

[[411738]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

素晴らしいニュースです!今日、『ネイチャー』と『サイエンス』は、学界を大いに喜ばせる一連の論文を掲載しました。

一方、「今年のAIにおけるトップ10のブレークスルー」の1つであるAlphaFold2がついにオープンソース化され、Natureに掲載されました。

一方、ワシントン大学はAlphaFold2よりも高速で軽量なアルゴリズムを開発したとScience誌は報じている。必要なのはNVIDIA RTX2080 GPUだけで、タンパク質構造を10分で計算できるという。

ご存知のとおり、AlphaFold2 が発表されたとき、学界で大きな騒ぎが起こりました。

GoogleのCEOピチャイ氏マスク氏フェイフェイ・リー氏などVのビッグネームたちが賛同しただけでなく、マックス・プランク研究所進化生物学研究所所長のアンドレイ・ルパス氏も「すべてが変わるだろう」と率直に語った。

構造生物学者のペトル・レイマン氏は、「1000万ドル相当の電子顕微鏡を使って数年かけて解明しようとしたが、アルファフォールド2は一瞬で解明してしまった」と嘆いた。

生物学を専門とするネットユーザーの中には、生物学の専門分野には「暗い未来」があると感じ、絶望を表明する者もいた。

今日のネイチャーとサイエンスの戦いは、再びこの話題に火をつけた。

学術界の熱狂を呼び起こしたAlphafold2

まずはトップジャーナルで報告されたAlphafold2についてお話ししましょう。AIモデルとして、なぜあらゆる分野でこれほどの熱狂を引き起こしたのでしょうか?

なぜなら、それが発表されると、生物学における最も困難な問題の一つが解決されたからです。この疑問は1972年にクリスチャン・アンフィンセンによって提起され、その検証は50年間科学者を困惑させてきました。

アミノ酸配列が与えられれば、タンパク質の 3D 構造を理論的に予測できます。

タンパク質はアミノ酸配列で構成されていますが、タンパク質の機能を実際に決定するのはその 3D 構造、つまりアミノ酸配列が折り畳まれる方法です。

この理論を検証するために、科学者たちはさまざまな方法を試しましたが、CASP14(タンパク質構造予測コンペティション)では、精度はわずか40点(100点満点)程度でした。

昨年12月に登場したAlphafold2は、精度を92.4/100まで直接引き上げ、タンパク質の真の構造から原子1個分の幅しか離れていないため、タンパク質の折り畳みの問題を真に解決しました。

Alphafold2 は、その年の Science 誌によって年間トップ 10 のブレークスルーの 1 つに選ばれ、構造生物学における「革命的な」ブレークスルーであり、タンパク質研究の分野における画期的な出来事であると評されました。

その出現により、タンパク質と分子の結合確率をより正確に予測できるようになり、新薬の研究開発の効率が大幅に加速されます。

今日、Alphafold2 のオープンソースは、AI および生物学コミュニティにさらなる波を起こしています。

Google CEO ピチャイ氏は非常に満足している。

生物学の博士もこう言っています。「未来はここにある!」

これを読んだカリフォルニア大学バークレー校 AI ラボの博士号を持つ Roshan Rao 氏は、このコードは使いやすそうに見えるだけでなく、ドキュメントも非常に充実していると述べました。

さて、このオープンソース アルゴリズムを使用して、Alphafold2 がどのようにその魔法を実行するかを理解してみましょう。

AlphaFold2の詳細が明らかに

研究者らは、これがAlphaFoldとは全く異なる新しいモデルであることを強調した。

2018 年に AlphaFold が使用したニューラル ネットワークは ResNet に似た残差畳み込みネットワークでしたが、AlphaFold2 は AI 研究で最近登場したTransformerアーキテクチャを借用しました。

Transformer は、一連のテキストシーケンスを処理するための注意メカニズムを使用する NLP 分野で登場しました。

アミノ酸配列はテキストに似たデータ構造です。AlphaFold2 は複数の配列アライメントを使用して、タンパク質構造と生物学的情報をディープラーニング アルゴリズムに統合します。

AlphaFold2 は、最初のアミノ酸配列を相同配列と比較し、タンパク質内のすべての重原子の 3 次元座標を直接予測します。

モデル図からわかるように、最初のアミノ酸配列を入力すると、タンパク質の遺伝情報と構造情報がデータベース内で比較されます。

多重配列アライメントの目的は、アライメントに含まれる配列のできるだけ多くに同じ塩基を持たせ、それらの構造と機能の類似性を推測できるようにすることです。

アライメント後の 2 セットの情報により 48 ブロックの Evoformer ブロックが形成され、比較的類似したアライメント シーケンスが得られます。

整列された配列はさらに 8 ブロックの構造モデルに結合され、タンパク質の 3D 構造が直接構築されます。

予測の精度を高めるために、最後の 2 つの手順が 3 回繰り返されます。

△3次元座標を用いた構造の決定方法

もっと高速で安価なアルゴリズムはありますか?

AlphaFold2 が最初に発表された際、技術的な詳細はあまり明らかにされませんでした。

ワシントン大学では、タンパク質の分野でも研究していたデイビッド・ベイカーがかつて行方不明になったことがある。

あなたが取り組んでいる問題を誰かがすでに解決していて、その解決方法を明らかにしていない場合、どのように進めればよいでしょうか?

しかし、彼はすぐに再編成し、チームを率いて AlphaFold2 の成功を再現しようとしました。

数か月後、ベイカー氏のチームの結果は、精度において AlphaFold2に匹敵するだけでなく、計算速度と計算能力の要件においてもそれを上回りました

AlphaFold2 オープンソース論文が Nature 誌に掲載されたのと同じ日に、Baker 氏のチームのRoseTTAFoldも Science 誌に掲載されました。

[[411740]]

RoseTTAFold では、400 アミノ酸残基以内のタンパク質構造を約10 分で計算するのに、 RTX2080グラフィック カードのみが必要です。

この速度は何を意味するのでしょうか?

つまり、タンパク質を研究する科学者は、スーパーコンピューティング リソースを申請するために列に並ぶ必要がなくなりました。小規模なチームや個人の研究者は、通常のパーソナル コンピューターだけで簡単に研究を行うことができます。

RoseTTAFold の秘密は、タンパク質の一次構造、二次構造、三次構造にそれぞれ焦点を当てる3 トラック アテンション メカニズムの使用にあります。

3 つの間に複数の接続を追加することで、ニューラル ネットワーク全体が同時に3 次元レベルで情報を学習できるようになります。

現在、グラフィック カードが市場で簡単に購入できないことを考慮して、Baker チームは、誰でもタンパク質配列を送信して構造を予測できるパブリック サーバーも慎重に構築しました。

このサーバーは設立以来、世界中の研究者から提出された何千ものタンパク質配列を処理してきました。

それだけではありません。研究チームは、複数のアミノ酸配列を同時に入力すると、RoseTTAFold がタンパク質複合体の構造モデルも予測できることを発見しました。

複数のタンパク質で構成される複合体の場合、RoseTTAFold の実験結果を計算するには、24 GB のビデオ メモリを搭載した NVIDIA Titan RTX で約 30 分かかりました。

現在、ネットワーク全体は単一のアミノ酸配列を使用してトレーニングされています。チームは次に、複数の配列を使用して再トレーニングする予定です。タンパク質複合体の構造の予測には改善の余地があるかもしれません。

ベイカー氏はこう言う。

私たちの研究結果は科学界全体に役立ち、生物学研究を加速させることができます。

Alphafold2 オープンソースアドレス:
https://github.com/deepmind/alphafold

RoseTTAFold オープンソースアドレス:
https://github.com/RosettaCommons/RoseTTAFold

関連論文:
アルファフォールド2: https://www.nature.com/articles/s41586-021-03819-2
RoseTTAFold: https://science.sciencemag.org/content/early/2021/07/14/science.abj8754

<<:  ドローンの脅威と脆弱性評価に関する簡単な説明

>>:  AI、IoTセンサー、ハイブリッドクラウドによるインダストリー4.0の拡張

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

CityDreamer: ワンクリックで境界のない 3D 都市を生成

近年、3D自然シーンの生成に関する研究は盛んに行われていますが、3D都市の生成に関する研究はまだほと...

AIストレージプラットフォームが機械学習とデータ分析のニーズを満たす方法

機械学習と AI タスクの実行方法や環境内でのデータの収集方法に応じて、組織はどの AI ストレージ...

生成AIにおけるデータ制限を克服する方法

生成 AI は、トレーニングに使用されるデータに大きく依存します。ただし、データの制限により、望まし...

視線追跡は無視できない、視覚制御車はもうすぐ登場する

正直に言ってみましょう。ジョブズが2007年に初めてiPhoneをリリースしたとき、革命的な新時代が...

ビッグデータナレッジグラフの実践経験のまとめ

データサイエンティストとして、業界の新しい知識グラフをまとめ、技術専門家と共有し、ビッグデータの知識...

...

注目を浴びるAIとゲームは、どんな火花を散らすことができるのでしょうか?

[[202722]] 2005年、JJ Linは「Number 89757」で「人間を模倣した機械...

未来に向けて、自動運転のための初のマルチビュー予測+計画世界モデルが登場

最近、ワールドモデルという概念が大きな盛り上がりを見せており、自動運転の分野もただ黙って見ているわけ...

人工知能の「指紋採取」が検出困難な癌と闘う

検出が難しい膠芽腫などの癌の生存率は1桁ですが、早期治療には検出、治療、監視のための高度な技術が必要...

...

AIOps 初心者ガイド

【51CTO.com クイック翻訳】ビジネスリーダーとして、企業がコンピューターベースの業務をますま...

人気の機械学習や人工知能が金融業界で障害にぶつかるのはなぜでしょうか?

[[211551]]機械学習と人工知能は、過去数年間で精度において驚異的な進歩を遂げました。 しか...

高性能な PyTorch はどのように実現されるのでしょうか?経験豊富な専門家がまとめた落とし穴を避ける10のヒント

最小限の労力で最も効率的な PyTorch トレーニングを完了するにはどうすればよいでしょうか? P...

現在、人工知能技術はどのような分野に応用されていますか?

まず、人工知能プラットフォームの実装により、人工知能技術は多くの業界や分野、特にインターネットと密接...

OpenAI の人事異動は、Nvidia、AMD、Intel、Microsoft にどのような影響を与えるでしょうか?

OpenAI の人事異動の影響:ウルトラマンが勝つ彼はついに株式を取得することができました!マイク...