この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。
2020 年に幾何学およびグラフ機械学習の論文で目立った分野は、生化学、薬物設計、構造生物学でした。こうした機械学習手法が基礎科学に与える影響をようやく目にするのは、今回が初めてかもしれません。この記事では、過去 1 年間で私が最も感動した 3 つの論文に焦点を当てます (そのうちの 1 つは私が共著者です)。 幾何学的機械学習手法は、2020 年 2 月号の Cell および Nature Methods の表紙に掲載されました。 最初の論文:JM Stokesら、「抗生物質発見へのディープラーニングアプローチ」(2020)Cell 180(4):688–702。 内容は? グラフニューラルネットワークに基づいた抗菌薬開発のためのディープラーニングワークフロー。 仕組みは? トレーニング済みのグラフ ニューラル ネットワークを使用して、承認済みの抗生物質、動物および植物抽出物など、抗菌活性が知られている 2,000 を超える分子のデータセットで大腸菌の増殖阻害を予測します。この予測は分子グラフのみに基づいており、薬物の作用メカニズムなどの他の補助情報には依存しません。 トレーニングモデルは薬物再利用センターに送られ、調査と研究の結果、モデルには約6,000個の薬物分子が含まれており、上位100個の分子が実験対象として選択されました。驚くべきことに、実験的な抗糖尿病薬であるハリシンには強力な抗菌作用があり、実験マウスの多剤耐性菌を排除します。 明らかに、ハリシン分子は従来の抗生物質とは異なるため、グラフ ニューラル ネットワークは優れた汎用性を備えています。しかし、この論文では、この予測力が抗菌作用の単純なモード(細胞膜の脱分極)を予測することにまで還元できるかどうかは明らかではありませんでした。 さらに、研究者らは、仮想スクリーニング用に特別に作成され、医薬品設計者が一般的に使用する市販の化合物データベースである ZINC15 データベース内の 1 億を超える分子構造に対して実験的スクリーニングを実施しました。選択された化合物のうち、物理的テストにより抗菌活性を持つ 8 つが特定され、そのうち 2 つは複数の病原体に対して強い活性を示しました。 医薬品の発見における課題の 1 つは、探索空間が広大であるにもかかわらず、研究室でテストできる分子の数が限られていることです。分子グラフに適用されたグラフニューラルネットワークは分子特性を予測するために使用でき、それによって選択された薬物の仮想スクリーニングを実行できます。 なぜそれが重要なのでしょうか? 医薬品の発見における課題の 1 つは、少なくとも 1060 個の分子が含まれると推定される広大な探索空間です。実験室でテストできる分子の数は限られているため、より可能性の高い分子を選択することが重要です。計算によって選択を実行するプロセスは、「仮想スクリーニング」と呼ばれます。 これまで、機械学習の手法は分子の仮想スクリーニングや、より一般的には医薬品開発のさまざまな段階を支援するためによく使用されてきましたが、人間の先入観なしにまったく新しい抗生物質がゼロから特定されたのは今回が初めてです。 結果が単なるコンピューター予測に過ぎない、コンピューターシミュレーションによる機械学習ベースの創薬論文のほとんどとは異なり、Stokes らによる論文では、有望な薬物分子を特定するだけでなく、実験動物におけるその生体内活性を広範囲に検証しています。 原理的には、このアプローチは癌などの病気の治療法を見つけるためにしか使用できませんが、抗生物質に焦点を当てることは非常にタイムリーです。抗生物質の誤った使用は薬剤耐性微生物の形成につながり、全人類の健康を脅かす悪夢となっています。既存の薬では治療できない、非常に伝染性の高い細菌感染症が発生する可能性もあります。この現象は確実に発生し、時間の問題です。 その他の関連コンテンツ: Quantum Magazine のトレンド記事と Jim Collins の 2020 TED トーク ビデオ (Collins Lab は今年の TED「Fearless Projects」の 1 つであり、当社の CETI プロジェクトも「Fearless Project」です)。 2番目の論文:Jumper ら、ディープラーニングを使用した高精度のタンパク質構造予測 (2020) 別名 AlphaFold 2.0 (全文はまだ入手できません) それは、バイオインフォマティクスの分野では非常に難しい問題として知られている、アミノ酸配列からタンパク質の 3D 構造を予測することです。 どのように動作するのでしょうか? AlphaFold 2.0 は、タンパク質データベース内の 170,000 個のタンパク質構造と未知の構造のタンパク質配列に基づいてエンドツーエンドでトレーニングされた「アテンションベースのニューラル ネットワーク」(トランスフォーマー構造に類似) です。しかし、DeepMind はまだアルゴリズムの詳細を発表しておらず、それがどのように機能するかは推測することしかできません。 この論文では、タンパク質は空間接続グラフとしてモデル化されており、ニューラル ネットワークは「このグラフの構造を解釈すると同時に、構築されている潜在グラフについて推論する」とされています。これは、潜在的なグラフ学習機能を備えたグラフ ニューラル ネットワークによく似ていますが、このアプローチでは進化シーケンス情報も使用されるため、さらに詳細とニュアンスが追加される可能性があり、私はそれを「幾何学的機械学習」として分類します。 トレーニングの計算の複雑さは高い(GPU 時間に換算すると数年に相当)と言われていますが、構造の予測は「数日の問題」にすぎません。 このヘビのおもちゃは、タンパク質の折り畳み、つまりアミノ酸の 1 次元配列が複雑な 3D 形状に折り畳まれ、タンパク質に機能を与えるプロセスを鮮明に示しています。 なぜ重要なのでしょうか? タンパク質はおそらく最も重要な生物学的分子であり、「生命の分子」と呼ばれることがよくあります。タンパク質をベースとしない生命体はまだ見つかっていません。タンパク質は DNA 内にコード化されており、病原体と戦う (抗生物質)、皮膚の構造を形成する (コラーゲン)、細胞に酸素を運ぶ (ヘモグロビン)、化学反応を触媒する (酵素)、信号を伝達する (多くのホルモンはタンパク質です) など、体内でさまざまな機能を果たします。 化学的に言えば、タンパク質はバイオポリマー、つまり静電気力の影響下で複雑な 3D 構造に折り畳まれるアミノ酸の鎖です。この構造がタンパク質に機能を与えるものであり、この構造はタンパク質がどのように機能し、何をするのかを理解する上で不可欠です。タンパク質は一般に薬物療法のターゲット(薬物はターゲットに結合するように設計された小さな分子)であるため、製薬業界はこの研究分野に非常に関心を持っています。 現代の技術では、タンパク質を低コストかつ高い信頼性で配列(アミノ酸の鎖を形成)できますが、3D 構造を得るには依然として主に従来の結晶化技術に依存しています。結晶化技術は不安定で時間がかかり、費用もかかります。現在、配列が判明しているタンパク質は約 2 億個、構造が判明しているタンパク質は少なくとも 20 万個あります。 アミノ酸配列にはタンパク質の構造を予測するのに十分な情報が含まれていると長い間信じられてきましたが、この見解はもはや支持できません。タンパク質構造予測の鍵解析 (CASP) コンテストは、ImageNet に似たコンテストです。1994 年から開催されており、参加者は未知のタンパク質の 3D 構造を予測する必要があります。このコンテストは、バイオインフォマティクス研究所や製薬会社にとって定番のテスト プラットフォームとなっています。 2018年、DeepMindの新技術AlphaFoldがCASPコンペティションで目覚ましい成果をあげ、優勝し、研究コミュニティに衝撃を与えました。 AlphaFold 2.0 の 2020 バージョンはさらに優れたパフォーマンスを発揮し、二乗平均平方根誤差はわずか 1.6 オングストロームです。これは構造生物学の基準では非常に正確であり、他の競合製品をはるかに上回っています。これはタンパク質科学における「ImageNet の瞬間」です。 主要な問題に関して驚くべき進歩があったにもかかわらず、メディアの誇大宣伝と曖昧な表現により、AlphaFold の機能が歪められてしまいました。特に医薬品設計の用途では、結合部位をサブオングストロームの精度で特定する必要があることがよくありますが、この技術ではまだこの機能は実現されていません。 詳細はこちらをご覧ください: 誰もがアルゴリズムを説明する論文の発表を心待ちにしています。 Lex Fridman 氏は YouTube 動画でわかりやすい概要を述べており、Mohammed AlQuraishi 氏は 2018 年の AlphaFold の影響についてブログに書いています。 3番目の論文:P. Gainzaら、「幾何学的ディープラーニングを用いたタンパク質分子表面からの相互作用指紋の解読」(2020)Nature Methods 17(2):184–192。 それは何についてですか? MaSIF と呼ばれる幾何学的ディープラーニング手法は、3D 構造からタンパク質間の相互作用を予測します。 どのように機能するのか?MaSIF は、タンパク質をグリッドに離散化された分子インターフェースとしてシミュレートします。研究者によると、このアプローチは、内部の折り畳まれた構造を抽出できるため、相互作用を扱う際に有利です。このアーキテクチャは、私の博士課程の学生である Federico Monchi が発明したメッシュ畳み込みニューラル ネットワークである MoNet に基づいており、事前に計算された地理情報からの化学的特徴と幾何学的特徴に基づいています。 ネットワークは、タンパク質データベースからの何千もの共結晶タンパク質 3D 構造を使用してトレーニングされ、インターフェース予測、リガンド分類、ドッキングなどのさまざまな問題を解決し、最新のパフォーマンスを実証します。 MaSIF と他の方法との最大の違いは、タンパク質の進化の歴史に依存しないことです。これは、これまでに作成されたことのない完全に新しいタンパク質を「ゼロから」作成する試みである de novo タンパク質設計において非常に重要です。 この論文の共著者として、分子インターフェースとローカルパッチの予算化の重要性と、手作りの機能への依存が MaSIF の主な欠点の 1 つであることを強調したいと思います。 今年、私たちはアーキテクチャを完全に再発明し、原子点群を入力として直接操作し、分子インターフェース(点群として表される)をオンザフライで計算し、エンドツーエンドで識別可能な幾何学的および化学的特徴を学習し、桁違いに高速に実行しました(後者は、私のポスドクである Jean Feydy が発明した高速幾何学計算ライブラリである KeOps を使用することで可能になりました)。 Nature Methods の論文は主に計算手法に焦点を当てていましたが、その後 EPFL の協力者は、MaSIF によって設計されたいくつかの新しいタンパク質結合剤の結晶構造を取得し、計算された構造とほぼ一致しました。 MaSIF はタンパク質結合部位を予測するために使用されました。図に示すように、設計されたタンパク質 (右) は、自然に存在する「野生型」(中央) ターゲットへの結合を改善するために変更されています。結合部位の構造が平坦であっても、MaSIF はその位置を正確に検出できます。 なぜ重要なのか? タンパク質と他の生体分子との相互作用は、ほとんどの生物学的活動におけるタンパク質機能の基礎です。タンパク質の働きをより深く理解することは、基礎生物学と新薬発見の両方にとって重要です。多くの疾患はタンパク質間相互作用 (PPI) と関連しており、これが理想的な薬剤ターゲットとなります。しかし、このような相互作用には、小さな薬物分子が伝統的に標的とするポケットとは非常に異なるため、「薬物化不可能」な平坦な界面が関係することがよくあります。 MaSIF は標的結合剤をうまく特定することができ、合理的なタンパク質設計に理想的なツールであり、プログラム細胞死の原因となる PD-1/PD-L1 タンパク質複合体を標的とする免疫チェックポイント癌治療など、バイオ医薬品研究におけるさまざまな用途の可能性を切り開きます。 |
<<: 人工知能の登場により、一人暮らしの高齢者の介護は難しくなくなり、高齢者介護はテクノロジーの時代に入った
>>: 6 つの基本的な AI 用語: 優れた人工知能コンサルティング サービスを提供するには?
これはレビュー記事です。 それは偏りもあります。 スペシャリストではなく、物事を作ったり問題を解決し...
平均と分散のマップ削減一連の数値の平均と分散の式は誰にとっても明らかだと思います。マップ関数とリデュ...
勉強すると、学んだことを忘れてしまい、忘れた後にまた学ぶという悪循環に陥ってしまう、そんな気持ちにな...
[[205875]]まず第一に、今日ビジネスを始めようと決めたなら、インターネットよりも人工知能に重...
[51CTO.com クイック翻訳]今日、グラフィックス プロセッシング ユニット (GPU) は、...
2020 年は特別で忘れられない年であり、人工知能にとっても同じことが言えます。 [[374502]...
[[252389]]人工知能囲碁プログラム「AlphaGo」が囲碁の世界チャンピオンを破って以来、人...
[[387871]] AIOps とは何でしょうか? IT リーダーは、AIOps に関する一般的な...
人材管理に関して言えば、AI は、あらゆる業種のあらゆる企業ですでに日常的に導入されているツールです...
[51CTO.comより引用] 「易典子訓」アプリを開くと、オープニング画面に「良質なコンテンツ、価...
近年、伝統産業の変革の要求が継続的に解放されるにつれて、人間を機械に置き換えることが重要なトレンドに...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[51CTO.com クイック翻訳] ユビキタスセンサーは毎日大量の画像を収集しており、人工知能技術...
アプリケーションによって処理されるデータの量が増え続けるにつれて、ストレージの拡張はますます困難にな...