MindSporeが再び躍進: タンパク質構造の予測、トレーニング、推論の全プロセスがオープンソース化され、バイオメディカルの発展を促進

MindSporeが再び躍進: タンパク質構造の予測、トレーニング、推論の全プロセスがオープンソース化され、バイオメディカルの発展を促進

最近、 MindSporeは、北京大学生物医学フロンティアイノベーションセンター( BIOPIC )化学分子工学学院の昌平研究室、深圳湾研究所のGao Yiqin教授の研究グループ、およびPengcheng研究室のChen Jieチームと共同で、フルシナリオAIフレームワークMindSporeに基づいてAlphaFold2タンパク質構造トレーニングを実装しました2021年11月の推論ツールのリリースに続き、このトレーニングは、国内のAIフレームワークが強力なAI for Scienceの基盤となるソフトウェア機能を備えていることを意味し、関連する科学研究者に新しい選択肢も提供します。この共同作業は、Pengcheng Cloud Brain II Ascend AIクラスターに基づいて実行され、シングルステップ反復パフォーマンスが60%以上向上し、 TMスコア85ポイント(国際的に権威のある評価データセットCASP14 )になりました。関連するトレーニング コードはMindSporeコミュニティでオープン ソース化されており、 OpenLコミュニティでもオープン ソース化され、定期的に拡張およびメンテナンスされます。

T1052-D1予測構造 (左) CASP14 87 ターゲット TM スコア比較 (右)

タンパク質構造予測とは、タンパク質の機能構造と立体配座を得るプロセスです。この問題は、半世紀近くにわたって「 21世紀の生物物理学」における最も重要なテーマの 1 つとして注目されてきました。これまで、タンパク質の立体配座の数が膨大で、計算プロセスが複雑だったため、 AIによるタンパク質構造の予測には大きな進歩がありませんでした。タンパク質の空間構造を取得する方法は、依然として主にクライオ電子顕微鏡やX線などの実験技術に基づいています。単一のタンパク質の観察コストは数ヶ月と数百万人民元に上ります。 AlphaFold2が登場するまで、この問題は新たな希望をもたらしました。 AlphaFold2 は、実験に近い精度でCASP14タンパク質の空間構造予測コンテストでトップとなり、この成果はNature 誌で「前例のない進歩」と称賛されました。

2021年7月DeepMindはAlphaFold2の推論コードのオープンソース化を発表しました。盛思と高易群の研究チームはそれをいち早く再現・最適化し、同年11月には盛思MindSporeをベースにした推論ツールをオープンソース化し、前年比で2~3倍の効率向上を実現しました。オープンソースの範囲は推論に限定されているため、関係する専門家はこれに基づいて最適化することができず、多くのチームがトレーニング プロセスの再現に積極的に取り組んでいます。 AlphaFold2モデル自体には、大量のメモリ要件、面倒なデータ処理、複雑な制御コンパイルなどの特性があり、基本的なAIフレームワークに大きな課題をもたらします。

最近、 MindSporeはGao Yiqinの研究グループおよびPengcheng LaboratoryのChen Jieのチームと協力し、AlphaFold2のトレーニングを完全に完了しました。 Ascend基本ソフトウェアおよびハードウェアプラットフォームを採用した後、混合精度でシングルステップ反復時間が20秒から12秒に短縮され、パフォーマンスが60%以上向上しました。 MindSpore のメモリ再利用機能を利用することでトレーニング シーケンスの長さが384から512に増加します。

トレーニング結果をできるだけ客観的に評価するために、 MindSpore はAlphaFold2論文の付録に記載されている87 個の検証セットを選択して検証を行いました。平均TM スコアは85ポイントに達し、これは基本的にAlphaFold2と同じです。

MindSporeのタンパク質構造予測トレーニングと推論のサポートは、国内のAIソフトウェアとハ​​ードウェアのギャップを埋めます。 MindSpore はAlphaFold2に近いトレーニング精度に基づいて、アルゴリズム、スケール、ソフトウェアおよびハードウェア サポートの分野で改善を続け、同僚が使用できるように共有トレーニング データセットを公開する予定です。 MindSpore は、モデルの精度をさらに向上させ、アプリケーション シナリオを拡大するために、より多くの学術および産業パートナーと連携したいと考えています。

コードオープンソースパス:

https://gitee.com/mindspore/mindscience/tree/dev/MindSPONGE/mindsponge/fold

マインドスポア:

gitee : https://gitee.com/mindspore/mindspore

GitHub : https://github.com/mindspore-ai/mindspore



<<:  電気自動車や自動運転の普及にはエネルギー補給技術の限界を乗り越えなければならない

>>:  データ センターはリモート ワークプレイスをどのようにサポートできるでしょうか?

ブログ    
ブログ    

推薦する

AI/MLを使用してテクノロジースタックを最適化し、ビジネス効率を向上させる方法

業界メディアとのインタビューで、レノボ グループのサービスおよびソリューション グループのシニア バ...

NVIDIA は 3 か月で 800 トンの H100 を販売しました。黄氏が1兆ドル規模のGPU覇者の「3つのノー」戦略を明かす

今年の第 2 四半期だけで、Nvidia は 816 トンの H100 を販売しました。同じペースで...

中山大学のリン・ジン氏は、視覚的意味理解の新しいトレンドについて説明しました。表現学習から知識と因果の融合まで。

[[435334]] 2021年パターン認識と機械知能フロンティアシンポジウムが10月29日午前に...

2月10日に職場復帰ラッシュが到来し、北京は「急速AI温度検出器」の配備を開始した。

新型コロナウイルスによる肺炎の流行は依然として続いており、中国のさまざまな省や市では2月10日に大規...

偽の顔を正確に生成します! Amazonの新しいGANモデルは死角のないオールラウンドな美しさを提供します

最近、Amazon One の研究者は、生成された画像を明示的に制御できる GAN をトレーニングす...

推薦システムにおける大規模言語モデルの実用化

1. 背景と課題従来の推奨モデルのネットワークパラメータの影響は比較的小さく(埋め込みパラメータを除...

...

情報セキュリティにおける機械学習の 5 つの主な使用例

簡単に言えば、機械学習とは「明示的にプログラムされなくても学習する(コンピュータの)能力」です。機械...

マイクロソフト、ヘルスケア業界がデータの価値を解き放つための新しい AI ソリューションをリリース

ヘルスケア業界とそのサービス技術が急速に発展するにつれて、大量のデータと情報が生成されます。統計レポ...

スノーフレークアルゴリズムの実装原理を理解する

前提Snowflake は、Twitter のオープンソースの高性能 ID 生成アルゴリズム (サー...

ソフトウェア開発における AI と機械学習の応用: 将来の動向と課題

人工知能 (AI) と機械学習 (ML) は、現代のソフトウェア開発の重要な部分になりつつあります。...

人工知能は耳の画像だけで年齢と性別を正確に判別できる

画像処理のためのディープラーニング入門:耳のバイオメトリクスは注目の研究トピックとなっている[1]。...

...

ロボットを活用する3つの革新的な方法

ロボットは、高齢の両親を助けたり、子供を教育したり、料理をしたりすることができます。ロボット産業は創...

ディープラーニングの発展とそれが引き起こした気候変動問題

人間の脳は極めて効率的な知能の源ですが、現在の AI はこのレベルに到達できません。 [[33099...