2 つのトップ AI アルゴリズムがオープンソースになりました。 NatureとScienceはともにAlphafold2に関する重要なニュースを掲載している

[[411738]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

素晴らしいニュースです！今日、『ネイチャー』と『サイエンス』は、学界を大いに喜ばせる一連の論文を掲載しました。

一方、「今年のAIにおけるトップ10のブレークスルー」の1つであるAlphaFold2がついにオープンソース化され、Natureに掲載されました。

一方、ワシントン大学はAlphaFold2よりも高速で軽量なアルゴリズムを開発したとScience誌は報じている。必要なのはNVIDIA RTX2080 GPUだけで、タンパク質構造を10分で計算できるという。

ご存知のとおり、AlphaFold2 が発表されたとき、学界で大きな騒ぎが起こりました。

GoogleのCEOピチャイ氏、マスク氏、フェイフェイ・リー氏などVのビッグネームたちが賛同しただけでなく、マックス・プランク研究所進化生物学研究所所長のアンドレイ・ルパス氏も「すべてが変わるだろう」と率直に語った。

構造生物学者のペトル・レイマン氏は、「1000万ドル相当の電子顕微鏡を使って数年かけて解明しようとしたが、アルファフォールド2は一瞬で解明してしまった」と嘆いた。

生物学を専門とするネットユーザーの中には、生物学の専門分野には「暗い未来」があると感じ、絶望を表明する者もいた。

今日のネイチャーとサイエンスの戦いは、再びこの話題に火をつけた。

学術界の熱狂を呼び起こしたAlphafold2

まずはトップジャーナルで報告されたAlphafold2についてお話ししましょう。AIモデルとして、なぜあらゆる分野でこれほどの熱狂を引き起こしたのでしょうか？

なぜなら、それが発表されると、生物学における最も困難な問題の一つが解決されたからです。この疑問は1972年にクリスチャン・アンフィンセンによって提起され、その検証は50年間科学者を困惑させてきました。

アミノ酸配列が与えられれば、タンパク質の 3D 構造を理論的に予測できます。

タンパク質はアミノ酸配列で構成されていますが、タンパク質の機能を実際に決定するのはその 3D 構造、つまりアミノ酸配列が折り畳まれる方法です。

この理論を検証するために、科学者たちはさまざまな方法を試しましたが、CASP14（タンパク質構造予測コンペティション）では、精度はわずか40点（100点満点）程度でした。

昨年12月に登場したAlphafold2は、精度を92.4/100まで直接引き上げ、タンパク質の真の構造から原子1個分の幅しか離れていないため、タンパク質の折り畳みの問題を真に解決しました。

Alphafold2 は、その年の Science 誌によって年間トップ 10 のブレークスルーの 1 つに選ばれ、構造生物学における「革命的な」ブレークスルーであり、タンパク質研究の分野における画期的な出来事であると評されました。

その出現により、タンパク質と分子の結合確率をより正確に予測できるようになり、新薬の研究開発の効率が大幅に加速されます。

今日、Alphafold2 のオープンソースは、AI および生物学コミュニティにさらなる波を起こしています。

Google CEO ピチャイ氏は非常に満足している。

生物学の博士もこう言っています。「未来はここにある！」

これを読んだカリフォルニア大学バークレー校 AI ラボの博士号を持つ Roshan Rao 氏は、このコードは使いやすそうに見えるだけでなく、ドキュメントも非常に充実していると述べました。

さて、このオープンソースアルゴリズムを使用して、Alphafold2 がどのようにその魔法を実行するかを理解してみましょう。

AlphaFold2の詳細が明らかに

研究者らは、これがAlphaFoldとは全く異なる新しいモデルであることを強調した。

2018 年に AlphaFold が使用したニューラルネットワークは ResNet に似た残差畳み込みネットワークでしたが、AlphaFold2 は AI 研究で最近登場したTransformerアーキテクチャを借用しました。

Transformer は、一連のテキストシーケンスを処理するための注意メカニズムを使用する NLP 分野で登場しました。

アミノ酸配列はテキストに似たデータ構造です。AlphaFold2 は複数の配列アライメントを使用して、タンパク質構造と生物学的情報をディープラーニングアルゴリズムに統合します。

AlphaFold2 は、最初のアミノ酸配列を相同配列と比較し、タンパク質内のすべての重原子の 3 次元座標を直接予測します。

モデル図からわかるように、最初のアミノ酸配列を入力すると、タンパク質の遺伝情報と構造情報がデータベース内で比較されます。

多重配列アライメントの目的は、アライメントに含まれる配列のできるだけ多くに同じ塩基を持たせ、それらの構造と機能の類似性を推測できるようにすることです。

アライメント後の 2 セットの情報により 48 ブロックの Evoformer ブロックが形成され、比較的類似したアライメントシーケンスが得られます。

整列された配列はさらに 8 ブロックの構造モデルに結合され、タンパク質の 3D 構造が直接構築されます。

予測の精度を高めるために、最後の 2 つの手順が 3 回繰り返されます。

△3次元座標を用いた構造の決定方法

もっと高速で安価なアルゴリズムはありますか?

AlphaFold2 が最初に発表された際、技術的な詳細はあまり明らかにされませんでした。

ワシントン大学では、タンパク質の分野でも研究していたデイビッド・ベイカーがかつて行方不明になったことがある。

あなたが取り組んでいる問題を誰かがすでに解決していて、その解決方法を明らかにしていない場合、どのように進めればよいでしょうか?

しかし、彼はすぐに再編成し、チームを率いて AlphaFold2 の成功を再現しようとしました。

数か月後、ベイカー氏のチームの結果は、精度において AlphaFold2に匹敵するだけでなく、計算速度と計算能力の要件においてもそれを上回りました。

AlphaFold2 オープンソース論文が Nature 誌に掲載されたのと同じ日に、Baker 氏のチームのRoseTTAFoldも Science 誌に掲載されました。

RoseTTAFold では、400 アミノ酸残基以内のタンパク質構造を約10 分で計算するのに、 RTX2080グラフィックカードのみが必要です。

この速度は何を意味するのでしょうか?

つまり、タンパク質を研究する科学者は、スーパーコンピューティングリソースを申請するために列に並ぶ必要がなくなりました。小規模なチームや個人の研究者は、通常のパーソナルコンピューターだけで簡単に研究を行うことができます。

RoseTTAFold の秘密は、タンパク質の一次構造、二次構造、三次構造にそれぞれ焦点を当てる3 トラックアテンションメカニズムの使用にあります。

3 つの間に複数の接続を追加することで、ニューラルネットワーク全体が同時に3 次元レベルで情報を学習できるようになります。

現在、グラフィックカードが市場で簡単に購入できないことを考慮して、Baker チームは、誰でもタンパク質配列を送信して構造を予測できるパブリックサーバーも慎重に構築しました。

このサーバーは設立以来、世界中の研究者から提出された何千ものタンパク質配列を処理してきました。

それだけではありません。研究チームは、複数のアミノ酸配列を同時に入力すると、RoseTTAFold がタンパク質複合体の構造モデルも予測できることを発見しました。

複数のタンパク質で構成される複合体の場合、RoseTTAFold の実験結果を計算するには、24 GB のビデオメモリを搭載した NVIDIA Titan RTX で約 30 分かかりました。

現在、ネットワーク全体は単一のアミノ酸配列を使用してトレーニングされています。チームは次に、複数の配列を使用して再トレーニングする予定です。タンパク質複合体の構造の予測には改善の余地があるかもしれません。

ベイカー氏はこう言う。

私たちの研究結果は科学界全体に役立ち、生物学研究を加速させることができます。

Alphafold2 オープンソースアドレス:
https://github.com/deepmind/alphafold

RoseTTAFold オープンソースアドレス:
https://github.com/RosettaCommons/RoseTTAFold

関連論文:
アルファフォールド2: https://www.nature.com/articles/s41586-021-03819-2
RoseTTAFold: https://science.sciencemag.org/content/early/2021/07/14/science.abj8754

<<: ドローンの脅威と脆弱性評価に関する簡単な説明

>>: AI、IoTセンサー、ハイブリッドクラウドによるインダストリー4.0の拡張

ブログ

2 つのトップ AI アルゴリズムがオープンソースになりました。 NatureとScienceはともにAlphafold2に関する重要なニュースを掲載している

学術界の熱狂を呼び起こしたAlphafold2

AlphaFold2の詳細が明らかに

もっと高速で安価なアルゴリズムはありますか?

NetEase Cloud Music 推奨システムのコールドスタート技術

200以上の機械学習ツールを見て学んだこと

Google のアルゴリズムにどんな恥ずかしいことが起こったのでしょうか?

CityDreamer: ワンクリックで境界のない 3D 都市を生成

AIが認知症患者の自立した生活にどのように役立つか

智恵さんはブドウを縫うことができるロボットアームを自作した。費用は1万元。

上位 10 の古典的なソートアルゴリズムの詳細な説明: バブルソート、選択ソート、挿入ソート

推薦する

人工知能とモノのインターネットの統合後の応用シナリオは何ですか?

Boyaのディープラーニング製品がHuman Horizonsの自動運転実現に貢献

ライブ放送室で見る高解像度1080Pは720Pほど良くないかもしれない

2024年のテクノロジートレンド: AIは金融サービス企業のデジタル変革の実現に役立つ

人工知能と自然言語処理技術

GenAIの変革力は職場に知識をもたらします

AIアルゴリズムから製品実装までの8つのギャップを数える

2018年: 人工知能の世界における8つのトレンド

組み込みアルゴリズム CRCチェックアルゴリズム

顔認識に関する国家基準では、顔のスキャンは必須ではなく、14歳未満の人の顔認識は許可されないと規定されています。

IDC: 中国のAI投資は2027年までに381億ドルに達すると予想