生成された分子は、逆分子設計の誘導拡散モデリングに対してほぼ100％有効です。

「デノボ分子設計」は材料科学の「聖杯」です。生成的ディープラーニングの導入により、この方向は大きく前進しましたが、分子の発見は依然として困難であり、非効率的であることが多いです。

イスラエル工科大学とイタリアのヴェネツィア・カ・フォスカリ大学の研究チームは、逆分子設計のための誘導拡散モデル「GaUDI」を提案した。これは、特性予測のための等変グラフニューラルネットワークと生成拡散モデルを組み合わせたものである。

研究者らは、得られた 475,000 個の多環芳香族システムのデータセットに単一目的および複数目的のタスクを適用することで、有機エレクトロニクスアプリケーション用の分子を設計するための GaUDI の有効性を実証しました。 GaUDI は、改善された条件付き設計を示し、最適な特性を持つ分子を生成し、元の分布を超えて、データセット内の分子よりも優れた分子を提案します。 GaUDI は、ポイントごとのターゲットに加えて、オープンエンドのターゲット (最小値や最大値など) にも向けることができ、すべてのケースで、生成された分子の有効性は 100% に近くなります。

「逆分子設計のための誘導拡散」と題されたこの研究は、2023年10月5日にNature Computational Scienceに掲載されました。

分子設計の既存の方法と課題

新しい技術の開発は、多くの場合、新しい機能を持つ分子を入手する能力に依存します。しかし、分子や材料の特性を正確にモデル化することは難しいため、化学者や材料科学者にとって分子の発見は未解決の課題のままです。この問題は、触媒が安定かつ活性である必要があるなど、矛盾したり相互に排他的であることもある複数の要件を満たすことによって、さらに悪化することがよくあります。したがって、特定の分子が目的の機能を提供できるように、複数の分子特性間の最適なトレードオフを見つけることが重要です。

このスイートスポットを見つけるには、まず分子構造とそのさまざまな特性との関係を特定する必要があります。このため、従来の分子設計法は、手作業で構築されたヒューリスティックスと化学的な直感に依存しています。これらは、時間がかかり、困難であるだけでなく、通常、小さな化学空間内に関連する比較的単純な構造と特性の関係に限定されます。

近年、この化学的課題を逆設計問題として定式化する生成モデルが代替アプローチとして導入され、さまざまな用途の新しい候補構造を特定するための強力なツールとしてますます強力になっています。

拡散モデルは、画像、ビデオ、テキスト生成など、多くの生成タスクの主要なアプローチになっています。拡散モデリングは化学の分野でも大きな可能性を示しています。しかし、この分野はまだほとんど研究されていないため、普及モデルの力はまだ十分に活用されていません。さらに、条件付き生成も実行する既存の拡散モデルでは、いわゆる標準的な方法が使用されますが、条件付き分布の学習は困難です。また、ポイント単位の目的に限定されており、新しい属性を追加するには再トレーニングする必要があり、異なるデータセットでジェネレーターと予測子をトレーニングすることはできません。条件付き分布からサンプリングするガイド拡散モデルの機能は、化学的なコンテキストでは十分にテストされていません。

GaUDIは、標的特性を持つ分子を生成および設計するために使用されます。

ここでは、ターゲット特性を持つ分子を生成するためのガイド拡散モデル GaUDI を設計および実装することで、このギャップを解決します。

研究者らは、分子を設計するために 2 つの事前トレーニング済みモデルを使用しました。1 つ目は、与えられたデータ分布から無条件のサンプルを生成するようにトレーニングされた生成拡散モデルであり、2 つ目は分子の特性を予測するようにトレーニングされた予測モデルです。

標準的な拡散サンプリングと同様に、拡散モデルは扱いやすいノイズ源からサンプリングを行い、その後、信号を繰り返しノイズ除去します。ただし、標準的な無条件モデルとは異なり、GaUDI では、生成モデルの中間出力が予測モデルに送られ、一連の定義済みプロパティが予測されます。これらの特性に関する目的関数の勾配は、各反復で補正項を追加することによってサンプリングプロセスをガイドするために使用されます。このようにして、拡散生成は、目的関数値が低い分子（つまり、ターゲットに最も近い分子）に偏ります。これは、ほぼ任意の複雑な条件を持つ条件付き分布からサンプリングするのと同等のプロセスです。

図1: 生成プロセス。（出典：論文）

この研究では、さまざまなサイズと原子組成の複数の芳香環で構成された分子である多環芳香族系 (PAS) の使用例における GaUDI のパフォーマンスが実証されました。多環芳香族系は既知の分子の 3 分の 2 を占め、有機半導体の大部分を構成するため、有機エレクトロニクスの基礎となります。したがって、有機発光ダイオード、電界効果トランジスタ、太陽光発電、その他のオプトエレクトロニクスなどの先進技術には、カスタマイズされた特性を持つ新しい PAS が不可欠です。

新しく生成された 475,000 PAS データセットでトレーニングした後、GaUDI は、有効性と平均誤差の両方の点で、単一オブジェクト生成タスクと複数オブジェクト生成タスクの両方で他の主要な拡散モデルよりも優れています。 GaUDI は、元のデータセットの分布を超えて、最適な特性を持つ新しい分子を提供します。

図 2: 高い HOMO-LUMO (HLG) 値を持つ PAS のガイド付き設計。（出典：論文）

さらに、リンググラフ (GOR) 表現と併用すると、GaUDI によって生成される分子のほぼ 100% が有効で、新規かつユニークになります。

表 1: 非ガイド生成のパフォーマンス。（出典：論文）

さらに、多くの既存の方法とは対照的に、GaUDI は高い目的関数の汎用性を提供し、事前に不明な場合でもターゲット属性の最小値/最大値を見つけるなどのオープンエンドの目的を含む、単一または複数の属性の微分可能な目的関数を処理できます。

研究では、研究者らはこの機能を使用して、安価な計算方法で取得したデータで GaUDI をトレーニングし、値は異なっていたものの、この方法では同じ構造特性の傾向を捉えました。

図 3: 狭いバンドギャップ分子のガイド付き設計。（出典：論文）

GaUDI は、初期のトレーニングセットにある分子を超えて、望ましい特性を持つ新しい分子を提案できるため、有機エレクトロニクスやオプトエレクトロニクスに限らず、多くの関心領域で分子の設計と発見を加速できます。

今後の方向性としては、GaUDI を応用して機能化 PAS およびペリ凝縮 PAS を設計することが挙げられます。並行して、研究者らは、GaUDI が特定のサブ構造を、目標とする特性を持つ最終分子に精製するという代替アプローチも模索しています。

論文リンク: https://www.nature.com/articles/s43588-023-00532-0

<<:

>>: 小型モデルは大型モデルとどう比較できるのか？北京理工大学はMindの大型モデルであるMindLLMをリリースし、小型モデルの大きな可能性を示した。