いくつかの文章を入力すると、分子を生成できます。分子を見ると、説明文も生成されます。謎に包まれた Google X により、マルチモーダル AI がブラック テクノロジーになりました。

いくつかの文章を入力すると、分子を生成できます。分子を見ると、説明文も生成されます。謎に包まれた Google X により、マルチモーダル AI がブラック テクノロジーになりました。

医師が患者を治療するための薬を説明するために数文を書くと、AI が必要な薬の正確な構造を自動的に生成することを想像してください。まるでSFのように聞こえるが、自然言語と分子生物学の交差点における進歩により、いつか現実になるかもしれない。従来、医薬品の開発は分子構造の手作業による設計と構築に頼っていることが多く、新薬を市場に出すには10億ドル以上の費用と10年以上かかることもあります(Gaudelet et al.、2021)。

最近、化学情報科学とも呼ばれる分野では、ディープラーニングツールを使用して計算薬物設計を改善することに大きな関心が寄せられています (Rifaioglu et al.、2018)。しかし、これらの実験のほとんどは、依然として分子とその低レベルの特性(logP、オクタノール/水分配係数など)のみに焦点を当てています。将来的には、自然言語を通じて簡単に実現できる、分子設計に対するより高度な制御が必要になります。

イリノイ大学アーバナ・シャンペーン校と Google X の研究者は、1) 分子の説明を生成すること、2) テキストからのガイダンスに従って分子をゼロから生成すること、という 2 つの新しいタスクを提案することで、この研究目標に取り組んでいます。

論文アドレス: http://blender.cs.illinois.edu/paper/molt5.pdf

下の図に示すように、テキストガイドによる分子生成タスクは、与えられた自然言語の説明に一致する分子を作成することであり、これにより複数の科学分野の研究が加速されます。

マルチモーダル モデルの分野では、自然言語処理とコンピューター ビジョン (V+L) の交差点が広く研究されてきました。自然言語を通じて画像の意味レベルの制御を実現する上で一定の進歩が遂げられており、マルチモーダル データとモデルに対する関心が高まっています。

本研究で提案された分子言語タスクは、V+Lタスクといくつかの類似点がありますが、いくつかの特別な難しさもあります。1) 分子の注釈を作成するには多くの専門知識が必要です。2) そのため、多数の分子説明ペアを取得することは困難です。3) 同じ分子に多くの機能があり、複数の異なる説明が必要になる可能性があるため、4) 既存の評価指標(BLEUなど)ではこれらのタスクを適切に評価できません。

データ不足の問題に対処するため、本研究では、事前トレーニング済みの多言語モデルの最新の進歩(Devlin et al.、2019; Liu et al.、2020)に触発された新しい自己教師あり学習フレームワークMolT5(Molecular T5)を提案しました。 MolT5 はまず、単純なノイズ除去の目的を使用して、大量のラベルのない自然言語テキストと分子文字列でモデルを事前トレーニングします。その後、事前トレーニング済みモデルは、限定されたゴールド スタンダード注釈に基づいて微調整されます。

さらに、分子記述や生成モデルを完全に評価するために、この研究では Text2Mol と呼ばれる新しい指標を提案しました (Edwards et al.、2021)。 Text2Mol は検索モデルを再利用して、実際の分子/説明と生成された説明/分子間の類似性を個別に評価します。

マルチモーダルテキスト - 分子表現モデル MolT5

研究者はインターネットから大量の自然言語テキストをスクレイピングできます。たとえば、Raffel ら (2019) は、700 GB を超える比較的クリーンな自然な英語テキストを含む Common Crawl ベースのデータセットを構築しました。一方、ZINC-15などの公開データベースからは、10億個を超える分子のデータセットを入手することもできます。本研究では、大規模な事前トレーニングの最近の進歩に触発され、大量のラベルなし自然言語テキストと分子文字列を利用できる新しい自己教師あり学習フレームワーク MolT5 (Molecular T5) を提案します。

図 3 は MolT5 アーキテクチャの図です。この研究では、まず、T5.1.1 (T5 の改良版) の公開チェックポイントの 1 つを使用して、エンコーダー/デコーダー Transformer モデルを初期化しました。その後、研究者らは「破損したスパンを置き換える」という目標を使用してモデルを事前トレーニングしました。具体的には、各事前トレーニング ステップで、この研究では自然言語シーケンスと SMILES シーケンスを含むミニバッチをサンプリングします。研究者は各シーケンスごとに、シーケンス内のいくつかの単語をランダムに選択して変更しました。連続する各スパン内の破損したトークンは、センチネル トークンに置き換えられます (図 3 の [X] と [Y] で示すように)。次のタスクは、ドロップアウトされたスパンを予測することです。

分子(たとえば、SMILES 文字列によって表される)は、非常に独特な構文を持つ言語と考えることができます。直感的に言えば、この研究の事前トレーニング段階では、本質的には 2 つの異なる言語からの 2 つの単一言語コーパスで言語モデルをトレーニングしており、2 つのコーパスの間には明示的な整合はありません。このアプローチは、mBERT や mBART などの多言語モデルの事前トレーニング方法に似ています。 mBERT などのモデルは優れたクロスリンガル機能を実証しているため、この研究では、MolT5 で事前トレーニングされたモデルがテキストから分子への翻訳タスクにも役立つことが期待されています。

事前トレーニング後、事前トレーニング済みモデルは分子のキャプション作成または生成用に微調整できます (図 3 の下部を参照)。分子生成では、入力は説明であり、出力はターゲット分子の SMILES 表現です。一方、分子記述では、入力は分子の SMILES 文字列であり、出力は入力分子を記述するテキストです。

実験結果

下の表 1 は分子の説明に関するテスト結果を示しています。この研究では、T5 や MolT5 などの大規模な事前トレーニング済みモデルは、分子を説明する現実的な言語を生成する上で、Transformer や RNN よりもはるかに優れていることがわかりました。

下の図 5 は、さまざまなモデル出力の例をいくつか示しています。

さまざまなモデルから生成された結果の例 (抜粋)。

一般に、分子生成では RNN モデルが Transformer モデルよりも優れていますが、分子記述タスクでは、大規模な事前トレーニング済みモデルが RNN モデルや Transformer モデルよりも優れたパフォーマンスを発揮します。モデルのサイズと事前トレーニングデータを拡大するとパフォーマンスが大幅に向上することはよく知られていますが、この研究の結果はそれでも驚くべきものです。

たとえば、テキスト データのみで事前トレーニングされたデフォルトの T5 モデルは、RNN よりも真実に近い分子を生成でき、一般的に効果的です。そして、この傾向は言語モデルのサイズが拡大しても持続し、7億7000万のパラメータを持つT5-largeは、6000万のパラメータを持つ特別に事前トレーニングされたMolT5-smallよりも優れています。それでも、MolT5 での事前トレーニングにより、一部の分子生成結果がわずかに改善され、特に有効性が大幅に向上します。

下の図 4 はモデルの結果を示しており、入力の説明ごとに番号が付けられています。実験により、MolT5 は分子を操作するための指示を T5 よりもよく理解できることがわかりました。

さまざまなモデルによって生成された分子の例のプレゼンテーション。

<<:  人工知能システムにおける不確実性の定量化

>>:  XiaoIce 技術担当副社長、周 立氏: AI 対話がメタバースの新たな未来を切り開く

ブログ    
ブログ    
ブログ    

推薦する

...

TENSORFLOW を使用してリカレント ニューラル ネットワーク言語モデルをトレーニングする

[[201448]]私は、TensorFlow リカレント ニューラル ネットワークのチュートリアル...

...

機械学習とディープラーニングの違いは何ですか?

機械学習とディープラーニングのアルゴリズムフローついに人工知能研究僧に入学しました。機械学習とディー...

Kuaishouは、技術的な実践を共有する最初のFlutter交換会を開催しました

Flutter はますます多くの開発者や組織で使用されており、Kuaishou も Flutter ...

言語モデルの氷山の一角: 微調整は不要、AI21 Labs は凍結モデルの未開発の可能性を探る

現在、特定の NLP タスクのパフォーマンスを最適化するための最善のアプローチは、事前トレーニング済...

スタンフォード大学のマニング教授はAAAS特別号に記事を掲載した。「ビッグモデルは画期的な進歩となり、汎用人工知能に期待が寄せられている」

NLP は人工知能を刺激的な新時代へと導きます。現在、人工知能分野で最もホットな話題は、大規模モデ...

...

...

インテリジェントなケアに加えて、感情的なニーズもあります。人工知能と高齢者ケアについてお話ししましょう。

2017年は「人工知能」が輝きました。ディープラーニング「AlphaGo」が柯潔に勝利し、無人運転...

Ctrip の AI 推論パフォーマンスの自動最適化プラクティス

[[424530]] 1. 背景近年、人工知能はセキュリティ、教育、医療、観光などの産業や生活の場面...

...

小井ロボットの華蔵エコシステムの出現は、大型モデルの商業化の始まりを示しています

10月26日、「人工知能分野での中国初の上場企業」であるXiaoi RobotがHuazang Un...

2020年末レビュー: AIの失敗トップ10

これは、Synced の年末総集編「AI の失敗」の第 4 弾です。私たちの目標は、AI 研究を非難...

Pythonでシンプルな遺伝的アルゴリズムをゼロから実装する

遺伝的アルゴリズム遺伝的アルゴリズムは、自然選択のプロセスを模倣した最適化アルゴリズムです。 彼らは...