2 つのトップ AI アルゴリズムがオープンソースになりました。 NatureとScienceはともにAlphafold2に関する重要なニュースを掲載している

2 つのトップ AI アルゴリズムがオープンソースになりました。 NatureとScienceはともにAlphafold2に関する重要なニュースを掲載している

[[411738]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

素晴らしいニュースです!今日、『ネイチャー』と『サイエンス』は、学界を大いに喜ばせる一連の論文を掲載しました。

一方、「今年のAIにおけるトップ10のブレークスルー」の1つであるAlphaFold2がついにオープンソース化され、Natureに掲載されました。

一方、ワシントン大学はAlphaFold2よりも高速で軽量なアルゴリズムを開発したとScience誌は報じている。必要なのはNVIDIA RTX2080 GPUだけで、タンパク質構造を10分で計算できるという。

ご存知のとおり、AlphaFold2 が発表されたとき、学界で大きな騒ぎが起こりました。

GoogleのCEOピチャイ氏マスク氏フェイフェイ・リー氏などVのビッグネームたちが賛同しただけでなく、マックス・プランク研究所進化生物学研究所所長のアンドレイ・ルパス氏も「すべてが変わるだろう」と率直に語った。

構造生物学者のペトル・レイマン氏は、「1000万ドル相当の電子顕微鏡を使って数年かけて解明しようとしたが、アルファフォールド2は一瞬で解明してしまった」と嘆いた。

生物学を専門とするネットユーザーの中には、生物学の専門分野には「暗い未来」があると感じ、絶望を表明する者もいた。

今日のネイチャーとサイエンスの戦いは、再びこの話題に火をつけた。

学術界の熱狂を呼び起こしたAlphafold2

まずはトップジャーナルで報告されたAlphafold2についてお話ししましょう。AIモデルとして、なぜあらゆる分野でこれほどの熱狂を引き起こしたのでしょうか?

なぜなら、それが発表されると、生物学における最も困難な問題の一つが解決されたからです。この疑問は1972年にクリスチャン・アンフィンセンによって提起され、その検証は50年間科学者を困惑させてきました。

アミノ酸配列が与えられれば、タンパク質の 3D 構造を理論的に予測できます。

タンパク質はアミノ酸配列で構成されていますが、タンパク質の機能を実際に決定するのはその 3D 構造、つまりアミノ酸配列が折り畳まれる方法です。

この理論を検証するために、科学者たちはさまざまな方法を試しましたが、CASP14(タンパク質構造予測コンペティション)では、精度はわずか40点(100点満点)程度でした。

昨年12月に登場したAlphafold2は、精度を92.4/100まで直接引き上げ、タンパク質の真の構造から原子1個分の幅しか離れていないため、タンパク質の折り畳みの問題を真に解決しました。

Alphafold2 は、その年の Science 誌によって年間トップ 10 のブレークスルーの 1 つに選ばれ、構造生物学における「革命的な」ブレークスルーであり、タンパク質研究の分野における画期的な出来事であると評されました。

その出現により、タンパク質と分子の結合確率をより正確に予測できるようになり、新薬の研究開発の効率が大幅に加速されます。

今日、Alphafold2 のオープンソースは、AI および生物学コミュニティにさらなる波を起こしています。

Google CEO ピチャイ氏は非常に満足している。

生物学の博士もこう言っています。「未来はここにある!」

これを読んだカリフォルニア大学バークレー校 AI ラボの博士号を持つ Roshan Rao 氏は、このコードは使いやすそうに見えるだけでなく、ドキュメントも非常に充実していると述べました。

さて、このオープンソース アルゴリズムを使用して、Alphafold2 がどのようにその魔法を実行するかを理解してみましょう。

AlphaFold2の詳細が明らかに

研究者らは、これがAlphaFoldとは全く異なる新しいモデルであることを強調した。

2018 年に AlphaFold が使用したニューラル ネットワークは ResNet に似た残差畳み込みネットワークでしたが、AlphaFold2 は AI 研究で最近登場したTransformerアーキテクチャを借用しました。

Transformer は、一連のテキストシーケンスを処理するための注意メカニズムを使用する NLP 分野で登場しました。

アミノ酸配列はテキストに似たデータ構造です。AlphaFold2 は複数の配列アライメントを使用して、タンパク質構造と生物学的情報をディープラーニング アルゴリズムに統合します。

AlphaFold2 は、最初のアミノ酸配列を相同配列と比較し、タンパク質内のすべての重原子の 3 次元座標を直接予測します。

モデル図からわかるように、最初のアミノ酸配列を入力すると、タンパク質の遺伝情報と構造情報がデータベース内で比較されます。

多重配列アライメントの目的は、アライメントに含まれる配列のできるだけ多くに同じ塩基を持たせ、それらの構造と機能の類似性を推測できるようにすることです。

アライメント後の 2 セットの情報により 48 ブロックの Evoformer ブロックが形成され、比較的類似したアライメント シーケンスが得られます。

整列された配列はさらに 8 ブロックの構造モデルに結合され、タンパク質の 3D 構造が直接構築されます。

予測の精度を高めるために、最後の 2 つの手順が 3 回繰り返されます。

△3次元座標を用いた構造の決定方法

もっと高速で安価なアルゴリズムはありますか?

AlphaFold2 が最初に発表された際、技術的な詳細はあまり明らかにされませんでした。

ワシントン大学では、タンパク質の分野でも研究していたデイビッド・ベイカーがかつて行方不明になったことがある。

あなたが取り組んでいる問題を誰かがすでに解決していて、その解決方法を明らかにしていない場合、どのように進めればよいでしょうか?

しかし、彼はすぐに再編成し、チームを率いて AlphaFold2 の成功を再現しようとしました。

数か月後、ベイカー氏のチームの結果は、精度において AlphaFold2に匹敵するだけでなく、計算速度と計算能力の要件においてもそれを上回りました

AlphaFold2 オープンソース論文が Nature 誌に掲載されたのと同じ日に、Baker 氏のチームのRoseTTAFoldも Science 誌に掲載されました。

[[411740]]

RoseTTAFold では、400 アミノ酸残基以内のタンパク質構造を約10 分で計算するのに、 RTX2080グラフィック カードのみが必要です。

この速度は何を意味するのでしょうか?

つまり、タンパク質を研究する科学者は、スーパーコンピューティング リソースを申請するために列に並ぶ必要がなくなりました。小規模なチームや個人の研究者は、通常のパーソナル コンピューターだけで簡単に研究を行うことができます。

RoseTTAFold の秘密は、タンパク質の一次構造、二次構造、三次構造にそれぞれ焦点を当てる3 トラック アテンション メカニズムの使用にあります。

3 つの間に複数の接続を追加することで、ニューラル ネットワーク全体が同時に3 次元レベルで情報を学習できるようになります。

現在、グラフィック カードが市場で簡単に購入できないことを考慮して、Baker チームは、誰でもタンパク質配列を送信して構造を予測できるパブリック サーバーも慎重に構築しました。

このサーバーは設立以来、世界中の研究者から提出された何千ものタンパク質配列を処理してきました。

それだけではありません。研究チームは、複数のアミノ酸配列を同時に入力すると、RoseTTAFold がタンパク質複合体の構造モデルも予測できることを発見しました。

複数のタンパク質で構成される複合体の場合、RoseTTAFold の実験結果を計算するには、24 GB のビデオ メモリを搭載した NVIDIA Titan RTX で約 30 分かかりました。

現在、ネットワーク全体は単一のアミノ酸配列を使用してトレーニングされています。チームは次に、複数の配列を使用して再トレーニングする予定です。タンパク質複合体の構造の予測には改善の余地があるかもしれません。

ベイカー氏はこう言う。

私たちの研究結果は科学界全体に役立ち、生物学研究を加速させることができます。

Alphafold2 オープンソースアドレス:
https://github.com/deepmind/alphafold

RoseTTAFold オープンソースアドレス:
https://github.com/RosettaCommons/RoseTTAFold

関連論文:
アルファフォールド2: https://www.nature.com/articles/s41586-021-03819-2
RoseTTAFold: https://science.sciencemag.org/content/early/2021/07/14/science.abj8754

<<:  ドローンの脅威と脆弱性評価に関する簡単な説明

>>:  AI、IoTセンサー、ハイブリッドクラウドによるインダストリー4.0の拡張

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

国立国防技術大学は、モバイル環境下で高精度のオンラインRGB-D再構成を実現するROSEFusionを提案

最近、国立国防科技大学の徐凱教授のチームは、高速移動に対するランダム最適化に基づくオンライン RGB...

人工知能が中国の医療サービスに力を与える

「医者にかかりにくい」「入院しにくい」など、人々の生活における医療上の困難な問題が相次ぐ中、「インタ...

Googleは人工知能を使って人間の認知の欠陥を浮き彫りにする

今日では、驚くほど人間らしい文章の一部は、実際には大量の人間の文章でトレーニングされた AI システ...

マスク着用時の顔認識成功率は80%以上。顔はどうやってあなたを裏切るのでしょうか?

[[388175]]今年の315では、物議を醸している顔認証が再び前面に押し出されました。自分の顔...

チャットボットと人工知能は2018年に新たな産業革命をもたらすだろう

チャットボットが大きなトレンドであることは間違いありません。ますます多くの大手ブランドが、アプリのタ...

「アルゴリズム経済」はどのような新しいモデルやトレンドを生み出すのでしょうか?

2000年から10年間の発展を経て、中国のPC時代のインターネットは「交通経済」を生み出しました。...

AIのデジタルシールド:インフラのサイバーセキュリティ戦略の強化

技術革新の時代において、人工知能 (AI) は変革の力として際立っています。パーソナライズされた推奨...

人民日報:アルゴリズム推奨技術標準の健全な発展を促進

規制基準の強化は、アルゴリズム推奨技術の標準化と健全な発展に根本的に利益をもたらすだろう。近年、科学...

COVID-19パンデミックにより非接触型生体認証の利用が拡大

[[403477]]調査会社ファクトMRの最新情報によると、新型コロナウイルス感染症のパンデミックに...

スマートコミュニティにおける人工知能応用の5つのシナリオ

モノのインターネット、クラウド コンピューティング、ビッグ データ、人工知能は、概念からアプリケーシ...

サイバーセキュリティにおける AI の 4 つの主要なユースケースを理解する

サイバーセキュリティは、おそらく今日すべての企業が直面している最大の脅威です。これらの課題は新しいも...

AI に「大きな力と小さな心」を与える - ユニバーサル CNN アクセラレーション設計

[[207759]]導入FPGA ベースの汎用 CNN アクセラレーション設計により、FPGA 開発...

...

人工知能と機械学習の違いとその重要性を区別する必要がある

人工知能と機械学習の技術は世界に革命をもたらし、世界をより先進的なものにしていますが、この 2 つの...