この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 タンパク質は生命維持に不可欠であり、がんや認知症を含むほぼすべての疾患はタンパク質の構造と機能に密接に関係しています。何億ものタンパク質構造には、生物学的プロセスの推論や医薬品開発、医薬品介入に使用できる豊富な生物学的情報が含まれています。しかし、数十年にわたる努力を経ても、科学者はヒトのタンパク質配列中のアミノ酸残基のわずか17%しか予測できていない。 7月23日、ネイチャー誌に掲載された「ヒトプロテオームの高精度なタンパク質構造予測」と題する研究論文が主要なソーシャルネットワークで話題を呼んだ。 この論文は、人工知能のスター企業ディープマインドが発表した。同日、同社の創業者デミス・ハサビス氏は興奮気味に「今日は夢にまで見た日だ。ディープマインドは、人工知能を使って科学の発展を促進し、人類に利益をもたらすという目標を掲げて設立された。当社の研究開発チームを非常に誇りに思う」とツイートした。 この研究成果は、ヒトプロテオームの予測範囲を98.5%までカバーし、そのうち58%のアミノ酸構造位置が確実に予測され、36%のアミノ酸の構造予測が非常に高い信頼度に達したと報告されています。
DeepMindは公式ブログで、タンパク質構造予測の強力なツールとして、AlphaFoldは生命科学や医薬品開発などの分野で広く利用されるだろうと述べた。 「これは人工知能がこれまで科学の進歩に果たした最も重要な貢献であり、人工知能が人類にどのような利益をもたらすかを示す最も貴重な例であると我々は信じています。」 このブログのタイトルは「AlphaFold のパワーを世界に届ける」であり、これは AlphaFold が生命科学研究を変える力を持っているという DeepMind の自信を示しています。 DeepMind は生物学および医学研究をサポートするために、欧州バイオインフォマティクス研究所 (EMBL-EBI) と協力して最初の AlphaFold DB を作成し、学術コミュニティに無料で提供しました。これは、これまでで最も完全かつ正確で高品質なヒトプロテオームのデータセットであり、生物学的実験を通じて人間が決定したタンパク質構造の 2 倍の数が含まれています。 データセットアドレス: https://alphafold.ebi.ac.uk/ このデータベースには、ヒトプロテオームと、大腸菌、ショウジョウバエ、ゼブラフィッシュなどを含む 21 種類の他の主要生物の完全なタンパク質構造予測結果が含まれており、合計 350,000 種類のタンパク質が収録されています。 DeepMindは、今後数か月以内にデータベースを1億3000万のタンパク質構造に拡張し、既知の配列を持つすべてのタンパク質の予測構造を提供することを目標としていると述べた。 この研究の発表後、2009年のノーベル生理学・医学賞受賞者のポール・ナース氏、マックス・プランク生物物理化学研究所所長のパトリック・クレイマー氏、ポーツマス大学構造生物学教授で酵素イノベーションセンター(CEI)所長のジョン・マギーハン氏、Googleの創設者兼CEOのサンダー・ピチャイ氏など、多くの科学者がこの研究を高く評価した。ジョン・マギーハン氏は「完成までに数か月、あるいは数年かかったものが、AlphaFoldなら週末だけで完成するかもしれない」と述べた。 サンダー・ピチャイ氏はツイートした。 「AlphaFold データベースは、AI が科学の進歩を大幅に加速させる可能性を示しています。DeepMind の機械学習システムは、タンパク質構造とヒトのプロテオームに関する蓄積された知識を一夜にして劇的に拡大しただけでなく、生命の構成要素に関するその洞察は、科学的発見の未来にとって非常に有望です。」 AlphaFold の構造予測には制限がないわけではありません。たとえば、複雑な複合体の 3D 構造を予測することはできません。動的プロセスでは、通常、1 つのタンパク質構造しか予測できません。また、特定の構造を生成しないアミノ酸配列に対して信頼性の高い構造予測を行うことも不可能です。 しかし、5人の業界専門家の目には、DeepMindがオープンソースに注力し、AlphaFold2のソースコードと詳細を公開すると、科学界はこれを基にしてより優れたソリューションの開発を加速するだろうと映っています。これは、人工知能がタンパク質を予測する機会であり、生物学的コンピューティングの分野における新たな飛躍です。 (以下順不同) 徐東、ミズーリ大学教授、AAAS、AIMBEフェローアプリケーションの観点から見ると、この研究の業界への影響は計り知れません。 DeepMindが論文で言及した信頼性の高いタンパク質構造予測は、基本的に準実験的な精度を達成できるため、その適用範囲が大幅に拡大します。これまでの研究では、低分子医薬品の設計などの分野での研究は、予測の精度と信頼性の限界によって大きく妨げられていました。現在では、信頼性の高いタンパク質構造に基づいて分子ドッキング予測を行うことができます。 もちろん、AlphaFold2 には現在、一定の制限があります。たとえば、多くのタンパク質や間隔は高い信頼度に到達できません。AlphaFold2 によって評価される高い信頼度レベルの一部は、本質的には信頼性の高い仮説に近いものですが、それでも実験の直接観察とはギャップがあります。主な理由は、タンパク質の構造が非常に多様であることです。場合によっては、いくつかのアミノ酸によってその構造と機能が完全に変わることがあります。人工知能システムは均一性に基づいているため、このような変化や違いを検出するのは困難です。言い換えれば、予測された構造と実験室構造を完全に一致させることはできません。しかし、アルゴリズムの改善と AI データの限界効果により、AlphaFold2 にはまだ改善の余地がたくさんあると考えています。 近年、中国もタンパク質構造のAI予測の研究で大きな進歩を遂げていることは特筆に値します。例えば、中国科学院のブ・ドンボ教授が主導するFALCON予測システムは、予測精度が大幅に向上しました。まだAlphaFold2の予測レベルには達していませんが、全体的な傾向としては急速な発展であり、これは人工知能技術の成熟度が高まっていることの必然的な結果です。 人工知能による予測は、本質的には物理的なプロセスではなく、ビッグデータの統計に基づいています。 AIは、異なるpH値や温度によって引き起こされる構造変化など、タンパク質の折り畳み構造の一部物理的特性を予測および分析することはできないため、従来の物理ベースのシミュレーションおよび予測方法を完全に置き換えることはできません。しかし、AIは膨大なデータから深い情報を掘り出し、パターンを発見することに長けています。このモデルは、タンパク質構造予測などの生物学研究のニーズと非常に一致しています。将来、生物学および科学界にさらに大きな画期的な成果をもたらすと信じています。 ミシガン大学教授、I-TASSERアルゴリズムの発明者、張 楊氏私は、DeepMind の 2 つの研究論文のレビューに参加する栄誉に恵まれました。一般的に、すべての査読者はアルゴリズムに関する最初の AlphaFold2 論文を高く評価しましたが、ヒトゲノムの応用に関するこの論文については、特に以下の点において疑問を抱いていました。 第一に、この論文には新規性が欠けている。タンパク質構造予測の問題が提起されて以来、特にヒトゲノムプロジェクト以降、コンピューターアルゴリズムを使用してゲノム全体のタンパク質構造を予測する方法が科学者の目標となっています。過去 20 年間にゲノムタンパク質構造の予測に関する多くの論文が発表されてきましたが、これは決して最初のものではありません。 第二に、方法論的な観点から見ると、タンパク質予測の鍵はアルゴリズムの開発にあります。これはアプリケーション レベルでは非常に直接的な問題であり、十分なコンピュータ リソースがあれば実現できます。 3 番目に、この記事では、予測された構造を使用してタンパク質の機能を分析する方法を強調し、具体的に 3 つのタンパク質の例を示します。これらの取り組みは価値があるものの、タンパク質の機能を予測するために不可欠な二重盲検実験によって検証されたものはありません。 この研究がこれほど注目を集めた理由は、AlpahFold2 アルゴリズム (つまり最初の論文) が、これまでコンピューターが予測できる最高の精度を達成したからです。 CASP14の結果から判断すると、AlphaFold2の標的タンパク質の2/3が実験精度に達しています。より難しい非相同配列予測では、標的タンパク質の1/3がこの精度に達しています。ヒト遺伝子ライブラリでまだ解読されていないタンパク質のほとんどは非相同タンパク質です。一方、歴史的な理由により、CASP14 の評価は単一ドメインの小さなタンパク質構造に基づいています。大規模なマルチドメインタンパク質やマルチチェーンタンパク質複合体の構造を予測するための AlphaFold2 のシミュレーション精度はまだ不明です。 シカゴのトヨタ・リサーチ・インスティテュート・オブ・コンピューティング・テクノロジー教授、スローン・フェロー、ジンボ・シューDeepMind が外部に公開するソースコードとデータベースは、学界や産業界、特にバイオ医薬品などの業界の研究開発に大きな影響を与えるでしょう。現時点では、国内の研究成果は若干遅れているかもしれませんが、人工知能アルゴリズムの向上と、より高品質なデータベースのオープンソース化により、今後2~3年で関連研究は質的に飛躍し、DeepMindに匹敵するレベルに達すると信じています。 最も進化した生物であるヒトのプロテオームは、予測するのが比較的困難です。AlphaFold はヒトのタンパク質の 98.5% を予測しましたが、アミノ酸レベルでの構造予測にはまだ改善の余地があります。 高精度のタンパク質予測は人工知能技術に完全に依存することはできません。生物学的実験方法に対する最良の補完技術として使用する必要があります。両者は互いに補完し合っています。数十年にわたり、実験的手法ではまだ解明されていないヒトタンパク質の構造は、ビッグデータとコンピューティングパワーに基づくAIによって、より多くのアイデアと可能性を提供することが依然として求められています。同時に、既存の生物学的構造の研究を加速させるAIの予測は、依然として実験によって検証される必要があります。 人工知能とタンパク質構造予測の著名な専門家、上級実践者方法論的革新の点では、AlphaFold は新しいモデル アーキテクチャとトレーニング戦略のセットを提案します。アプリケーション価値の点では、AlphaFold タンパク質構造データベースは、生物におけるタンパク質の機能と効果をより深く理解するための洞察と参照を提供します。業界にとって、AlphaFold は、タンパク質単鎖構造、タンパク質複合体、タンパク質小分子などの構造予測タスクのアイデアを示しており、構造ベースの医薬品設計などの分野に大きな推進力を与える可能性があります。 現在、AlphaFold はモデルの入力側で相同配列情報にある程度依存しており、予測が不正確になる可能性があります。同時に、3 次元構造が鎖内接触や同型接触よりも異型接触に大きく依存するタンパク質の場合、精度の問題も発生する可能性があります。これは、論文の著者が言及した将来の改善方向の 1 つでもあります。 AlphaFold(およびDavid BakerグループによるRoseTTAFold)のリリース前に、中国ではエンドツーエンド学習をタンパク質構造予測に導入する予備的な試みがいくつかありました(当社のtFoldを含む)。予測精度の点では、基本的にはCASP14で2位にランクされたBakerグループと同等のレベルに到達できますが、AlphaFoldとはまだ一定の差があります。 AlphaFold の論文とコードが公開されると、この分野での国内研究は短期的に大幅に改善されるだろうと私は信じています。 タンパク質構造予測の分野では、AlphaFoldの登場により、実験データに基づくタンパク質構造決定の作業負荷がある程度軽減されました。同時に、実際の実験データとAlphaFoldによって予測された構造予測結果を組み合わせることで、より高解像度のタンパク質構造を解析し、下流のタスクに指針を提供することができます。この種の技術は配列データのみに基づくことができ、実験データに基づくタンパク質構造データベースをある程度効果的に補完します。一方、既存の方法の解釈可能性と物理的な事前知識との統合はまだ不十分です。構造予測結果に対して、ミクロレベルで説得力のある信頼性の測定と理論的裏付けを提供する方法については、さらに検討する必要があります。 ウェストレイク大学教授、プロテオミクスビッグデータ研究所所長、天南郭氏この成果は、AIが生命科学のミクロな分子領域に進出し、生命科学研究者に開放されたことを意味する。その意義は、AlphaGoが人々の生活に入り込んだこと(囲碁の分野)と似ている。その普及は、構造生物学に大きな影響を与える可能性がある。 DeepMindが論文で述べたように、Alphafold2は多くの新しいタンパク質構造を発見したが、これらの構造が完全に正しいかどうかは、従来の生物学的実験によって検証する必要がある。生命活動において、タンパク質の構造と機能は非常に複雑かつ動的であり、異なる機能状態下で構造が変化することもあります。例えば、あるアミノ酸の翻訳後修飾は、タンパク質の構造と機能を完全に変える可能性があります。現時点では、AlphaFold2 がアミノ酸レベルと翻訳後修飾の精度を備えているかどうかについては、さらなる研究と検証が必要です。 タンパク質は生命活動の重要な要素です。タンパク質構造の分析は、タンパク質を理解するための基礎です。タンパク質構造の予測における AI の利用は非常に良い傾向であり、急成長を遂げている AI エリートが生命科学の微視的世界に参入していることを象徴しています。その結果は医薬品開発において重要な役割を果たす可能性がある。 もちろん、革命的な新技術の出現は、必然的にその分野で厳しい精査を受けることになるでしょう。 AlphaFold2 の広範な応用にはある程度の抵抗に遭遇するかもしれませんが、これらの抵抗は科学技術の継続的な発展の原動力でもあります。生命科学や医療における AI の応用は、今後さらに広範かつ深くなると考えています。 AIがタンパク質を予測、競争が始まった 実験的手法でタンパク質の構造を決定するのは時間がかかり、骨の折れる作業ですが、AlphaFold は人工知能がわずか数分で原子レベルの精度でタンパク質の構造を正確に予測できることを証明しています。 1972 年、ノーベル化学賞受賞者のクリスチャン・アンフィンセンは、タンパク質の 3D 構造は 1D アミノ酸配列に基づいて計算および予測できると提唱しました。しかし、3D 構造が形成される前に折り畳まれる方法は数十億通りあります。データによれば、典型的なタンパク質には約 10∧300 通りの構成が可能です。すべての可能な構成を力ずくで計算すると、宇宙よりも長い時間がかかる可能性があります。
昨年、DeepMindは人工知能予測システムの新バージョンであるAlphaFold 2をリリースしました。これは50年以上続いたこの大きな課題を克服し、権威あるタンパク質構造予測評価組織(CASP)に認められました。AlphaFold 2はアミノ酸配列を通じてタンパク質の折り畳み構造を予測し、CASP14評価の全体中央値は92.4 GDTに達しました。 これは、AlphaFold 2 の構造予測が、クライオ電子顕微鏡 (CryoEM)、核磁気共鳴、X 線結晶構造解析などの実験技術を使用して 3D 構造を解析するのとほぼ同じくらい正確であることを意味します。 当時、他の同様の AI と比較すると、AlphaFold2 の予測精度ははるかに優れていました。 しかし、1週間前、シアトルのワシントン大学医学部タンパク質設計研究所の研究チームが「3トラックニューラルネットワークを使用したタンパク質構造と相互作用の正確な予測」と題する論文を発表し、彼らが開発したタンパク質予測システム「RoseTTAFold」は、AlphaFold2とほぼ同等のレベルに達しており、タンパク質の3D構造の予測がさらに高速で、必要なコンピューター処理能力も少なくなっていると述べています。 この最新の研究結果はすぐに科学誌「サイエンス」に掲載されました。興味深いことに、DeepMind は同日、Nature 誌に 2 つの論文を発表し、AlphaFold 人工知能システムのソースコードを公開し、その設計フレームワークとトレーニング方法を詳細に説明しました。 現在、RoseTTAFold の予測精度は CASP14 評価システムで第 2 位にランクされており、これは AlphaFold が発表した最新の結果に次ぐものです。さらに、RoseTTAFold は、ソース コードとサーバーを科学コミュニティ向けに無料で公開することを選択しました。 RoseTTAFoldとAlphaFold2のソースコードが公開されたことで、研究者はこれら2つをベースに研究を進め、現在では構造が決定できないタンパク質の克服や、まったく新しいタンパク質の設計など、人工知能システムのさらなる改良が期待され、短期間でより多くの科学研究機関が爆発的な成長を遂げると考えられています。 |
>>: サイバーセキュリティにおける AI と機械学習の 7 つのプラスとマイナスの影響
[51CTO.com クイック翻訳] 今日言及された事故のほとんどはAI自体と直接関係はありませんが...
前回の記事では、主にテキストコーパスの抽出と前処理のプロセスについて説明しました。次のステップは、コ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[258526]]過去7年間、中国のプライベートエクイティ投資市場における人工知能分野への投資額は...
[[441262]]人々がシーンを観察するとき、通常はシーン内のオブジェクトとそれらの間の関係を観...
感情分析または意味分析は、構造化されていないテキスト内の感情や意見を識別するプロセスです。テキストは...
AIチップはクラウドとエッジに分かれています。クラウドチップは高いパフォーマンスが求められますが、...
人工知能とニューラルネットワークの機能はどちらもイベント処理です。たとえば、人工知能は自動文書処理を...
アルゴリズムはビッグデータの最も価値のある部分です。ビッグデータマイニングとは、大量、不完全、ノイズ...
中国政府は人工知能を国家戦略のレベルにまで高めた。 2017年7月、国務院は「次世代人工知能発展計画...