Baidu の計算生物学研究が Nature のサブジャーナルに掲載されました!スタンフォード大学やMITを上回る成果、製薬分野に進出

Baidu の計算生物学研究が Nature のサブジャーナルに掲載されました!スタンフォード大学やMITを上回る成果、製薬分野に進出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

百度の新たな研究はネイチャー誌に掲載された。

テクノロジー企業がトップクラスの学術雑誌に掲載されることは珍しいことではありません。

しかし、今回は少し異常でした。

この研究分野は生物学分野に直接関連している。この論文が採択された雑誌「Nature Machine Intelligence (NMI)」のインパクトファクターは16.649である。

専門性に加え、研究の実験結果もMITやスタンフォード大学の結果を上回っています。

そしてさらに重要なのは、これが後者の「産学研究」モデルのほとんどとは異なるという点です。

Baidu は独立して設立されました。

著者は全員、PaddleHelix と Baidu の生物学コンピューティング チームに所属しています。

再現可能です。完全なコードは現在 GitHub でオープンソース化されています (アドレスは記事の最後で入手できます)。

研究者らは、関連プロジェクトのいくつかはすでに商業化されていると述べた。

これはどのような研究なのか見てみましょう。

AIが小分子の3D構造を解明

今回百度が注力する研究は、小分子化合物の特性予測です。

簡単に言えば、小分子の構造を通じてその特性を予測することは、医薬品開発の早期探索に役立ち、それによってこの分野における高コスト、長い時間、低い成功率などの困難な問題を解決できます。

小分子医薬品の構造は空間分散性に優れ、その化学的性質は医薬品開発に有利であるため、大分子医薬品(タンパク質、核酸など)と比較して、医薬品の研究開発においてより多くの利点があります。市場に出回っている医薬品のほとんども低分子医薬品です。

しかし、固有の利点があるにもかかわらず、直面する特別な課題は依然として相当なものです。

最大の課題は、小分子のスクリーニング空間が広すぎることです。

ネイチャー誌の以前の研究では、小分子医薬品の開発スクリーニングの数は10の60乗であることが示されました。

コンセプトは何ですか?著者はそれを「太陽系の原子の数よりも多い」と表現しています。

このような広大な「小分子の世界」から適切な薬剤候補を見つけるためには、効率的かつ正確な化合物の特性評価が重要な役割を果たします。

このような背景を踏まえ、研究チームは、 GEMと略される幾何学的に強化された分子特性評価法を提案しました。

この方法は主に、空間構造に基づくグラフニューラルネットワーク(GNN ) と複数の幾何学レベルでの自己教師あり学習の 2 つの部分で構成されます。

この研究のハイライトが空間と幾何学にあることは容易に理解できます。

複合モデリングに空間構造が導入されるのは業界では初めてとのこと。

この重点の理由は、AI が小分子の 3D 構造を理解できるようにするという、彼らが解決したい問題と密接に関係しています。

その理由は、既存の表現方法から始める必要があります。

現在研究されている主な表現方法は、シーケンスベースの 1 次元表現とグラフベースの表現の 2 つです。

文字列を入力として受け取り、RNN や Transformer などのシーケンス モデルを使用して分子表現を学習しますが、文字列の文法が理解しにくい、テキスト シーケンス内で隣接する 2 つの原子が離れている可能性がある、文字列の小さな変更が分子構造の大きな変更につながる可能性があるなど、明らかな制限がいくつかあります。

もう 1 つは、今日の研究に関連するものです。GNN モデリングは、各原子をノード、各化学結合をエッジとしてグラフを入力として受け取ります。

まあ、化学の本のようなものです。

しかし、ほとんどの研究では分子の2次元情報のみに焦点を当てており、3次元の空間構造は無視されています。

これは理解するのが難しいことではありません。結局のところ、分子の3次元構造情報を正確に得ることは容易ではありません。

3 次元構造を記述するために選択されたパラメータが理想的でない場合、そのパフォーマンスは上記の 2 つの特性評価方法よりも悪くなる可能性があり、堅牢性が不十分であったり、予測パフォーマンスが不十分であったりするなどの問題にも直面することになります。

しかし、それでも、3 次元構造情報は、分子の物理化学的特性と生物学的活性の違いを決定することが多いため、非常に重要です。

最も典型的な例は、高校で学んだ異性体です。

ジクロロエチレンを例にとると、シス構造とトランス構造があり、その幾何学的構造の違いにより、両者の水への溶解度は異なります。

シスプラチンやトランスプラチナム(ジアミンジクロロプラチナム)などの薬剤もあります。シスプラチンは人気の抗がん剤ですが、トランスプラチナムは有毒であり、抗がん作用はありません。

ということで、この研究がどのように問題を解決するかを見てみましょう。

まず、グラフニューラルネットワークを見てみましょう。今回、研究者らはGeoGNNを提案しました。各分子の入力は、原子、結合、結合角の影響を同時にシミュレートする 2 つのマップで構成されます。

最初のグラフである 2 次元構造グラフは、原子化学結合グラフとも呼ばれ、依然として原子をノードとして使用し、結合をエッジとして使用します。

2 番目の図、化学結合 - 結合角図では、結合をノード、結合角をエッジとして扱います。

GeoGNN は、複数回の反復を通じて原子と結合の表現ベクトルを学習します。2 つのグラフを接続するために、化学結合はグラフ G とグラフ H の間の橋渡しとして機能し、各反復ラウンドで情報を交換します。

最後に、原子表現を組み合わせて分子表現を取得し、化合物の特性を予測します。

分子空間知識をより良く学習するために、研究チームは、幾何学的情報を入力として使用することに加えて、さらにいくつかの自己教師学習タスクを設計しました。

たとえば、化学結合の長さ、化学結合の結合角、2 つの原子間の距離を予測します。

このうち、結合長と結合角は化合物の局所的な構造を記述しますが、2 つの原子間の距離は化合物の全体的な構造に重点を置いています。

局所構造については、特定の原子中心(図のN)のサブグラフをランダムに選択してマスクし、化学結合の結合長と結合角を予測します。

全体構造については、原子距離行列内の要素を予測します。

事前トレーニングのプロセス中に、チームは GeoGNN をトレーニングするために、公開データセット Zinc1522 から2,000 万個のラベルなし分子を抽出しました。

分子の 90% はトレーニングに使用され、残りはテストに使用されます。

最終結果では、現在認められている化合物特性予測データセットであるMoleculeNet21の15のベンチマークデータセットのうち、既存の方法と比較して14のSOTA結果が得られたことがわかりました。

その中で、GEM は、tox21、toxcast、HIV ウイルス データセットなどの毒性関連のデータセットでは、 Tencentの GROVER、スタンフォードの PretrainGNN、 MITの D-MPNN などの他のモデルよりも優れたパフォーマンスを発揮します。

全体的に、Baidu の GEM モデルは、回帰タスクでは既存の方法より 8.8%、分類タスクでは4.7%改善されています。

ご覧のとおり、回帰データセットの結果は分類データセットの結果よりもはるかに優れています。研究チームは、これは回帰データセットが分子構造と密接に関連する量子化学的および物理化学的特性の予測に重点を置いているためだと推測している。

さらに、研究チームは、事前トレーニングを行わない場合の回帰データセットにおける GeoGNN のパフォーマンスへの影響を調査しました。

結果は、一般的に使用されている GNN アーキテクチャ、3D 分子形状を組み込んだアーキテクチャ、分子表現アーキテクチャなど、既存の GNN アーキテクチャと比較されます。

これまでの最高結果と比較すると、全体的な改善率は 7.9% です

さらに、自己教師学習法に関するアブレーション実験でも、空間構造に基づく自己教師学習法の有効性が実証されています。

このプロジェクトは GitHub でオープンソース化されています。

研究チームは、学術誌に掲載されたことに加え、この研究が医薬品開発の分野で商業化され、パートナー企業の初期医薬品スクリーニングパイプラインに応用されていることを明らかにした。

将来的には、この技術は、化合物の薬効予測、小分子薬物のスクリーニング、薬物の組み合わせ、その他の特定のシナリオなど、より予測可能な応用価値を持つようになります。

これをもう少し拡張すれば、タンパク質や核酸などの分野で高分子ベースの特性評価モデルを構築できる可能性があり、より多くの医薬品の開発に役立つでしょう。

実際、Baidu が Nature のサブジャーナルに掲載されたことは、計算生物学の分野に新たな進歩をもたらしました。

それは理屈に合わないことですが、予想通りです。

ほとんどの人が知らないのは、Baidu の計算生物学の探求が実はかなり以前から始まっていたということだ。

GNNのトップ競争でDeepMindを上回ったことがある

百度は2018年に早くも計算生物学の分野での研究を正式に開始した。

有名なRNA二次構造のオープンソースアルゴリズムであるLinearFoldは、COVID-19の予測を当初の55分から27秒(約120倍)に加速させたとBaiduの研究成果の1つです。

2020年12月、百度は研究してきた一連のバイオコンピューティング関連技術を正式に統合し、PaddleHelixをリリースした。

これは、さまざまな「AI + 計算生物学」オープンソースツールを含む生物学コンピューティングプラットフォームです。Baidu PaddlePaddleフレームワークに基づいて開発されており、医薬品開発、ワクチン設計、精密医療などの分野で使用できます。

この研究は Baidu Propeller チームによるものです。

この研究を発表する前に、Propeller チームは、KDD、NeurIPS、IEEE BIBM などのトップ カンファレンスですでに多くの「AI + 生物学」の研究成果を発表していました。

たとえば、マルチタスク学習を使用して仮想薬物スクリーニング用のMLモデルをトレーニングする研究は、昨年末にトップのバイオインフォマティクスおよびバイオメディカル会議であるIEEE BIBM 2021に採択されました。

さらに、タンパク質やmRNAを含む多くの研究成果があります。たとえば、タンパク質配列に基づいてタンパク質間相互作用を予測するマルチモーダル事前トレーニングモデルがMLCB Spotlightに選ばれました。

分子特性を予測するためのグラフニューラルネットワークの関連モデルは、世界トップクラスの会議で最高の結果を達成しました。

例えば、昨年6月にはKDD CUPとOGB(Open Graph Benchmark)が共同で第1回グラフニューラルネットワークコンテストOGB-LSCを開催し、 DeepMind、Microsoft、Ant Financialなど、世界各国の500以上の有名大学や機関が参加しました。

そのうち、OGB はグラフ ニューラル ネットワークの総合的なパフォーマンス評価ベンチマーク データセットであり、「グラフ ニューラル ネットワークの ImageNet」と呼ばれています。KDD CUP は、データ マイニング分野における最高峰の国際コンテストです。

コンテストは、大規模ノード分類、大規模グラフ関係予測、化学分子グラフ特性予測の3つのパートに分かれています。

化学分子画像特性予測コンテストでは、百度プロペラバイオコンピューティングチームが2位を獲得しました。優勝者はMSRA、北京大学などの大学機関の合同チームで、DeepMindが3位でした。

これは、3 つの GNN コンテストのうち、生物学的コンピューティングに関連するものだけです。

同イベントの他の2つのグラフニューラルネットワーク競技、ノード分類とグラフ関係予測では、プロペラバイオコンピューティングプラットフォームの背後にあるBaidu PaddlePaddleフレームワークが、DeepMindなどのチームを上回り、 2年連続で優勝しました。

これらのモデルや研究は単なる机上の空論ではなく、その結果の多くはすでに実装されています。

例えば、百度はSMICと協力してLinearDesignのmRNAワクチン配列設計アルゴリズムに関する生物学的実験を行い、モデルの主要指標がベンチマーク配列を20倍上回り、ワクチンの研究開発において確かに高い実用価値を持っていることを証明しました。

その後、百度は製薬会社サノフィとも契約を結び、リニアデザインを利用してmRNAワクチンの設計と開発を最適化した。

先行研究の LinearFold オープンソース アルゴリズムは、何百もの企業によるワクチン設計研究に使用されています。

すべての兆候は、Baidu の生物学的コンピューティングへの参入が一夜にして起こるものではないことを示している。

それどころか、ネイチャー誌に掲載されたこの研究は、生物学的コンピューティングにおける長年の研究の成果を強力に証明するものである。

データ爆発の中のバイオテクノロジー

バイオテクノロジーの追求に取り組んでいるのは百度だけではない。

計算生物学のより広い分野に目を向けると、百度だけでなく、テンセント、アリババ、インテル、サムスン、グーグルの親会社アルファベットなど国内外のテクノロジー企業も近年、実際にレイアウトを拡大している。

これは、現在の技術成長の傾向にも関係しています。生物学分野の発展は、データ爆発の時代と AI による従来の研究方法の変革と一致しています。

技術応用の観点から見ると、代表的なものの一つはAI+新薬研究開発です。

データ駆動型のディープラーニング技術は、従来の新薬研究開発に大きな可能性をもたらします。

製薬業界には、よく知られた反ムーアの法則がある。それは、9年ごとに、10億ドルの投資で市場に投入される新薬の数が半分に減るというものだ。一般的には、ファーストインクラスの医薬品は、承認された新薬の総数の半分未満を占めます。

一方、AIを活用することで、ADMETを用いて薬物スクリーニングの特性を予測するなどのステップで、多くの人的資源と物的資源を節約することができます。ファイザーやアストラゼネカなどの伝統的な製薬会社も、AIの研究開発への投資を増やしたり、AI企業との協力を模索し始めています。

AI+新薬開発は、バイオテクノロジーの爆発的な発展における技術応用のほんの一部にすぎません。

業界全体を見渡せば、生物学分野への科学技術の推進自体が、抗えない潮流の一つとなりつつあります。

QuantumBit Think Tankが以前に発表した「2021年のトップ10最先端技術トレンド」のうち、ほぼ半数が生物学技術のブレークスルーに関連しています。

AI を活用して新薬の開発を支援することに加え、CRISPR 遺伝子編集、侵襲性脳コンピューターインターフェース、AI を使用してタンパク質構造を予測する AlphaFold2 モデルなどの実用的なアプリケーションもあります。

業界の観点から見ると、Baidu のような AI 企業は研究に多額の投資を行っており、これは AI がバイオテクノロジー分野にもたらす可能性と価値を物語っています。

2018年以来、百度はRNA二次構造予測などのアルゴリズムを開発してきました。その後、ロビン・リーは百度生物科学を設立し、その後サノフィなどの伝統的な製薬会社と協力してアルゴリズムの研究を実施しました。

李延紅氏はこの分野に対する楽観的な見方を何度も強調している。

生物学的コンピューティング エンジンを利用することで、大量の生物学的データを効果的に活用し、新薬発見における「干し草の山から針を探す」作業を「地図をたどって馬を見つける」作業に変えることができます。

Baiduだけではありません。川の水温が上昇していることを最初に知るのは常にテクノロジー企業です。

Googleの親会社であるAlphabetは最近、AI+新薬の研究開発におけるAlphaFold2の機能を商業化する方法の研究を行う新会社、Isomorphic Laboratoriesを設立すると発表した。

OpenAI はまた、AI モデルを使用して、病気を診断したり複雑なタンパク質構造を予測したりできる複雑なシステムをトレーニングしようとしています...

AI+バイオテクノロジーは、業界の実装トレンドの新たな「コンセンサス」になりつつあります。

21世紀は生物学の世紀です。あなたは私に正直ですか?

論文リンク:
https://www.nature.com/articles/s42256-021-00438-4

GitHub リンク: https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/pretrained_compound/ChemRL/GEM

<<:  2022年の7つの最先端技術:量子シミュレーションと標的遺伝子治療

>>:  大規模なカーネル畳み込みを3つのステップに分割し、清華大学の胡世民氏のチームの新しいビジュアルバックボーンが3つの主要なタスクでリストのトップに立った。

ブログ    

推薦する

今後 10 年間で人工知能が私たちの生活を支配するようになるとき、携帯電話はどのようなものになるでしょうか?

テクノロジー業界のほとんどの人は、今後 10 年以内にユビキタス テクノロジーが 1 日のあらゆる瞬...

...

美団下華夏:「無人配達」は技術的に難しいことではない

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ドローン操縦開始!この国は迎撃のための航空システムを開発している

ドローンはハイテク製品として、遠隔操作が可能で、移動が地形に制限されないことから、技術愛好家や写真愛...

ロボットが仕事を独占するなら、私たちの仕事は誰が守ってくれるのでしょうか?

ロボットが人間の仕事を奪いつつあることは、何も新しいことではありません。産業技術の発展に伴い、将来的...

「2024年最重要AIチャート」が大拡散中!オープンソースのAIモデルは独自のモデルよりも優れているとルカン氏は称賛

最近、この写真はAIコミュニティで広まり始め、LeCun氏もそれを転送しました。この図は、AI オー...

北京大学の法律モデルChatLawがサーバー爆発:張三の裁判方法を教えます

大型モデルが再び「爆発」した。昨夜、法律モデルChatLawがZhihuのホット検索リストのトップに...

エキサイティング!自動運転におけるGPT-4Vの予備研究

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

「中国版ダヴィンチ」ロボットが人気!ブドウの皮を縫うだけでなく、このような創造的な作業もあります

ブドウを縫うことができる DIY ロボットアームを作りますか? [[428703]]最近、有名な「ハ...

...

ビッグニュース! ChatGPTの2つの主要イベント

1 つ目は、GPT-4 API です。完全にオープンに使用できます。 7月7日、OpenAIは公式ウ...

感染症の流行に直面して、AIがいかに有用であるかを実感した

インターネット時代では、テクノロジーの発展により、私たちの生活で利用できる手段が大幅に強化されました...