有機構造の画像を分子構造に変換するトランスフォーマーベースの人工ニューラルネットワーク

有機構造の画像を分子構造に変換するトランスフォーマーベースの人工ニューラルネットワーク

人類は人工知能の時代に突入しています。化学もまた、ニューラル ネットワークのトレーニングに大量の定性データを必要とする最新のディープラーニング手法によって変革されるでしょう。良いニュースは、化学データは「良好に保存される」ということです。化合物がもともと 100 年前に合成されたとしても、その構造、特性、合成方法に関する情報は今日でも重要です。 残念なことに、化学式を表現するのに世界的に受け入れられている標準的な方法は存在しません。化学者は一般的に、よく知られている化学基を省略表記で表すためにさまざまな手法を使用します。しかし、化学者ごとに習慣は異なり、慣習は変わることもあります。コンピューターアルゴリズムにとって、このタスクは克服不可能なようです。 Skoltechの新興企業Syntellyとモスクワ国立大学の研究者らは、有機構造の画像を分子構造に変換できるTransformerベースの人工ニューラルネットワークを開発した。このネットワークをトレーニングするために、さまざまな描画スタイル、機能グループ、機能グループプレースホルダー (R グループ)、および視覚的な汚染をランダムにシミュレートする合成データ ジェネレーターが開発されました。Image2SMILES: トランスフォーマーベースの分子光学認識エンジンと題されたこの研究は、 2022年1月11日にChemistry-Methods誌に掲載されました

化学構造認識は課題に直面

長年にわたり、大量の化学データが文献に掲載されてきました。残念ながら、コンピューター時代以前は、この貴重なデータは紙のリソースにしか存在していませんでした。現在の課題は、これらのソースからデータを抽出してマイニングすることです。ディープニューラルネットワークの広範な開発により、光学認識タスクのパフォーマンスが大幅に向上しました。しかし、グラフや弱い構造情報による認識は常に困難な問題でした。一般的な例としては、化学構造の認識が挙げられます。まず、化合物の描画スタイル(原子ラベルのフォント、結合の描写スタイルなど)は出版社間で完全に標準化されていません。第二に、化合物は多くの場合、多くの化合物を記述できる足場であるマルクーシュ構造として描かれますが、マルクーシュ構造に対する普遍的なガイドラインは存在せず、その結果、多種多様なマルクーシュ表現が生まれます。さらに、場合によっては、化学論文の著者は化学構造を表現するために芸術的なスタイルを使用します。

芸術的なスタイルで描かれた分子の例。

要約すると、化学構造と分子テンプレートの特定は、AI ベースのツールでのみ解決できる困難な問題であると考えられます。研究のアイデアと方法Transformer は、もともと Google チームによってニューラル翻訳用に提案されたアーキテクチャです。ただし、このアーキテクチャとその修正は、他の多くのタスクで優れたパフォーマンスを発揮します。たとえば、化学では、Transformer は有機反応の結果の予測や SMILES 名と IUPAC 名の変換に適用されています。 Transformer ベースのアーキテクチャは一般に RNN ベースの方法よりもパフォーマンスが優れていることがわかります。この観察が、研究者たちが化学構造の光学認識のためのトランスフォーマーベースのエンジンを実装する動機となりました。データは機械学習の鍵となります。しかし、私たちの知る限りでは、化学論文に関する注釈付きオブジェクトを含むオープンアクセス データセットは存在しません。大規模なデータセットを取得する唯一の方法は、データ生成モデルを構築することです。提案された方法の新規性は、データ生成スキームに重点を置いていることと、有機構造だけでなく分子テンプレートも処理できるため、実際のデータに使用できるという事実にあります。この研究では、このネットワークをトレーニングするために、さまざまな描画スタイル、機能グループ、機能グループプレースホルダー (R グループ)、および視覚的な汚染をランダムにシミュレートする合成データ ジェネレーターが開発されています。 PubChem データベースには約 1 億個の分子が含まれています。自動描画ツールとしてRDKitを選択します。官能基と R 基ほとんどの化学文献では、著者は官能基と R 基置換基を持つ分子を描いています。このような置換基を持つ分子を生成するために、研究者らは 100 を超える一般的な官能基のリストを作成しました。各グループは SMARTS テンプレートとして記述されます。拡張アルゴリズムは分子内の官能基をランダムに置き換えて拡張データセットを生成します。一部の機能グループはネストされていることに注意してください。典型的な例は、メチル (-Me) 基とメトキシ (-OMe) 基です。研究者たちは、ネストされたグループが重複するのを防ぐ解析方法を考案しました。

官能基と R 基を持つ生成された分子の例。

研究者らは、リング内のR基の位置を変えた画像を生成する手法を実装した。

可変位置を持つ R 塩基の例。

環に置換基が 2 つ以下しかない場合、R 基 (R、R1、R2、R'、R'') は 20% の確率で可変位置に描画されますが、アルゴリズムは環ごとに 1 つの置換を行い、分子ごとに最大 2 つの置換を行います。 RDKit がラジカルを環結合の前に配置するようにダミー結合を追加し、その後 SVG 後処理を使用して 2 つの結合を 1 行に置き換えました。次の例は直感的な説明を示しています。

R 基は可変の位置に存在します。

官能基 SMILES は標準 SMILES の分子テンプレートを表現できないため、ここでは修正された構文が設計され、FG-SMILES と名付けられています。これは、置換基または R グループを単一の擬似原子として記述できる標準 SMILES の拡張です。置換基が官能基である場合、対応する擬似原子を置き換えることによって、FG-SMILES を SMILES に直接変換できます。例: SMILES: Cc1cc(C)c(-c2ccccc2)c(-c2ccc([N+](=O)[O-])cc2)c1FG-SMILES: [Me]c1cc([Me])c(-[Ph])c(-c2ccc([NO2])cc2)c1さらに、FG-SMILES 表記法では、可変 R グループの位置を記述できます。 v 記号は、芳香族系内の可変 R グループを表すために追加されます。画像拡張、モデルが実際の環境で実行されると、光学スキャンから領域が切り取られ、入力として使用されます。しかし、分子画像は他の詳細によって汚染されることが多く、実験では画像内の小さな汚染でも予測を台無しにする可能性があることが示されています。この問題に対処するため、研究者らは典型的な汚染をシミュレートする汚染強化アルゴリズムを提案した。次の図は、汚染強化アルゴリズムの結果の例を示しています。

汚染強化アルゴリズムによって生成された分子の例。

さらに、研究者らは「albumentations」ライブラリに実装されている標準的なコンピュータービジョン拡張機能を使用しました。モデル アーキテクチャImg2SMILES モデルの入力形状は 384 x 384 です。研究者らは、CNN ブロックとして ResNet-50 を使用しました。 ResNet モジュールの出力形状は 2048x12x12 です。 Transformer デコーダーのその他のパラメータは、従来のアーキテクチャから取得されます。

Img2SMILES モデルのアーキテクチャ図。

研究者らは、トランスフォーマーベースのアーキテクチャがジェネレータから化学的な洞察を収集できることを実証しました。つまり、Transformer を使用すると、データ シミュレーションに完全に集中して、優れた認識モデルを構築できるということです。光学認識エンジンの Web デモは Syntelly プラットフォーム上でオンラインで公開されており、データセットの生成に使用されたコードは GitHub で無料で入手できます。 「私たちの研究は、化学構造の光学認識における進行中のパラダイムシフトの好例です。これまでの研究は分子構造認識そのものに焦点を当てていましたが、Transformer や類似のネットワークの独自の機能を持つようになった今、私たちは代わりに、既存の分子テンプレート記述のほとんどを模倣する人工サンプルジェネレーターの作成に取り組むことができます。私たちのアルゴリズムは、分子、官能基、フォント、スタイル、さらには印刷欠陥を組み合わせ、追加の分子や抽象フラグメントなどを導入します。化学者でさえ、分子が実際の紙から直接来たのか、ジェネレーターから来たのかを見分けるのは困難です」と、この研究の主任研究者でスタートアップ企業 Syntelly の CEO であるセルゲイ・ソスニン氏は語っています。研究の著者らは、このアプローチが、高度な資格を持つ化学者と同等に研究論文を「読み」「理解」できる人工知能システムに向けた重要な一歩となることを期待している。

データジェネレーターのGitHubアドレス: https://github.com/syntelly/img2smiles

論文リンク: https://chemistry-europe.onlinelibrary.wiley.com/doi/10.1002/cmtd.202100069

<<:  清華大学 IEEE 論文: 自動運転の判断を支援する新しいトレーニング方法を使用して「路側干渉」を排除

>>:  ジェフ・ディーン: 「スパースモデル設計ガイド」を作成しましたので、ぜひご覧ください。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

「アルゴリズムとデータ構造」では、バックトラッキングアルゴリズムの美しさを紹介します。

[[345679]]序文今回は、バックトラッキング アルゴリズムについて確認します。この問題解決の...

...

世界はとても広い。AIがあなたと一緒に世界を旅します

[オリジナル記事は51CTO.comより] 私の周りには、「世界は広いから、外に出て旅をしたい」と言...

Java 上級: 負荷分散のための 5 つのアルゴリズムの詳細な理解

この記事はWeChatの公開アカウント「Android Development and Progra...

血みどろの惨劇を突破できるのは誰か?自動運転プレイヤーが腕前を披露!

自動運転は爆発的な成長を遂げている最先端分野です。水平的な視点で見ると、BATを含むインターネット大...

...

2022QSリスト公開! MITがコンピュータサイエンスランキングでトップ、清華大学は15位、北京大学はトップ20から脱落

2022年QS世界大学分野別ランキングが発表されました!全体的には、21年前と比べて大きな変化はあり...

マイクロソフト、NvidiaとIntelに対抗する2つのカスタムAIチップをリリース

マイクロソフトは最近、シアトルで開催されたIgniteカンファレンスで2つのAIチップをリリースした...

...

スマート製品はどこにでもあります。人工知能と通常の知能の違いは何でしょうか?

多くの一般消費者にとって、どれが本物の人工知能でどれが単なる普通の知能なのかを区別することは不可能で...

...

プロジェクトを始めたいけれど、どこから始めればいいのか分からないですか?興味深いオープンソースの機械学習プロジェクト7つを試してみる

プロジェクトを実行することが機械学習を学ぶ唯一の方法であり、興味深く価値のあるプロジェクトを見つける...

...

AIはDevOpsエクスペリエンスに目に見える以上の変化をもたらす

Cycode の共同創設者兼 CTO である Ronen Slavin 氏は、AI によって実現され...