DeepMindの最新研究がNatureに掲載され、AI時代の科学研究の新たなパラダイムを明らかにし、未知の領域を探索し、新たな課題をもたらしている。

AIがさまざまな科学分野と融合するにつれ、可能性と課題に満ちた技術革命が起こっています。

AI は、理論を探求し、実験を設計し、データを分析することで、私たちが知っている科学的発見を大幅に促進します。

写真

8月2日、Googleチームの研究者らは、科学的発見におけるAIの応用と進歩をまとめた研究論文をNature誌に発表した。「人工知能時代の科学的発見」である。

写真

論文アドレス: https://www.nature.com/articles/s41586-023-06221-2

データがどのように収集され、変換され、理解されるかは、科学的な洞察と理論の基礎となります。

2010 年代初頭のディープラーニングの台頭により、こうした科学的発見プロセスの範囲と野心は大幅に拡大しました。

AI は、膨大なデータセットの統合、測定の精度向上、実験のガイド、データに一致する理論空間の探索、科学的ワークフローと統合して自律的な発見を可能にする実用的な信頼性の高いモデルの提供など、科学分野全体でますます応用されるようになっています。

写真

データの収集と分析は、科学的理解と発見の基礎であり、科学、定量的手法、および新興技術の 2 つの中核的な目標です。

1950 年代のデジタル化の導入により、科学研究におけるコンピュータの広範な使用への道が開かれました。

2010 年代以降のデータサイエンスの台頭により、AI は大規模なデータセットから科学的に関連するパターンを識別できるようになり、貴重なガイダンスを提供できるようになりました。

科学的な実践とプロセスは科学研究のさまざまな段階で異なりますが、AI アルゴリズムの開発は、従来サイロ化された分野にまたがっています。

このようなアルゴリズムは科学的研究の設計と実行を強化することができ、研究者にとって欠かせないツールになりつつあります。

写真

科学的発見は、仮説の形成、実験設計、データ収集、分析など、相互に関連するいくつかの段階を含む多面的なプロセスです。

科学分野における AI の最近の進歩には、50 年前のタンパク質折り畳み問題の解決や、数百万の粒子を含む分子システムの AI によるシミュレーションなどがあり、困難な科学的問題を解決する AI の可能性を示しています。

他の新しいテクノロジーと同様に、AI4Science の成功は、それを日常業務に取り入れ、その可能性と限界を理解する能力にかかっています。

科学的発見における AI の広範な導入を阻む障壁としては、発見プロセスの各段階に固有の内部要因と外部要因のほか、方法、理論、ソフトウェア、ハードウェアの有用性と潜在的な誤用に関する懸念などがあります。

この論文では、研究者らが人工知能の科学における発展を探り、重要な疑問に答えます。

AI支援による科学研究データの収集と管理

実験プラットフォームによって収集されるデータセットのサイズと複雑さが増大するにつれ、科学研究は、高速で生成されるデータを選択的に保存および分析するために、リアルタイム処理と高性能コンピューティングにますます依存するようになりました。

データの選択

典型的な粒子衝突実験では、1 秒あたり 100 TB を超えるデータが生成されます。このような科学的実験は、既存のデータ伝送および保存技術の限界に挑戦しています。

これらの物理実験では、生の機器データの 99.99% 以上がバックグラウンドイベントであり、データレートを管理するためにリアルタイムで検出して破棄する必要があります。

将来の科学研究のために稀なイベントを識別するために、ディープラーニングのアプローチでは、事前にプログラムされたハードウェアイベントトリガーを、「外れ値信号を検索する」アルゴリズムに置き換えて、圧縮中に見逃された可能性のある予期しない現象や稀な現象を検出します。

バックグラウンドプロセスでは、ディープオートエンコーダーを使用してモデルを生成できます。

オートエンコーダーは、バックグラウンド分布に属さない、これまで見たことのない信号 (まれなイベント) に対して、より高い損失値 (異常スコア) を返します。教師あり異常検出とは異なり、教師なし異常検出では注釈が不要であり、物理学、神経科学、地球科学、海洋学、天文学で広く使用されています。

データ注釈

教師ありモデルのトレーニングには、モデルトレーニングをガイドし、入力に基づいてターゲット変数の関数または条件付き分布を推定するための教師あり情報を提供する注釈を含むデータセットが必要です。

生物学では、実験的にラベルを生成することは非常に難しいため、新たに特徴付けられた分子に機能的および構造的なラベルを割り当てる技術は、モデルの下流のトレーニングを監督するために非常に重要です。

たとえば、次世代シーケンシング技術は継続的に進歩しているにもかかわらず、配列決定されたタンパク質のうち、生物学的機能が注釈付けされているのは 1% 未満です。

もう 1 つのデータラベリング戦略は、手動でラベル付けされたデータでトレーニングされたインテリジェントエージェントモデルを使用してラベル付けされていないサンプルにラベルを付け、これらの予測された疑似ラベルを使用して下流の予測モデルを監視することです。

対照的に、ラベル伝播は、特徴埋め込みに基づいて構築された類似性グラフを介して、ラベルのないサンプルにラベルを拡散します。

自動注釈に加えて、アクティブラーニングでは、手動注釈が必要な最も有益なデータポイントや、実行する最も有益な実験も識別できます。

このようにして、専門家が提供するラベルを少なくしてモデルをトレーニングすることができます。データ注釈のもう 1 つの戦略は、ドメイン知識を使用して注釈ルールを開発することです。

データ生成

トレーニングデータセットの品質、多様性、サイズが増加するにつれて、ディープラーニングのパフォーマンスは向上し続けます。

より優れたモデルを作成するための効果的な方法は、自動データ拡張とディープ生成モデルを通じて追加の合成データポイントを生成し、トレーニングデータセットを強化することです。

このようなデータ拡張を手動で設計することに加えて、強化学習法では、柔軟で下流のモデルに依存しない自動データ拡張戦略を発見できます。

変分オートエンコーダー、生成的敵対ネットワーク、正規化フロー、拡散モデルなどの深層生成モデルは、基礎となるデータ分布を学習し、最適化された分布からトレーニングポイントをサンプルできます。

生成的敵対的ネットワークは、多くの分野でリアルな画像を合成できるため、科学的画像処理に有用であることが示されています。

確率的プログラミングは生成モデリングにおける新しい手法であり、データ生成モデルをコンピュータプログラムとして表現します。

科学データの意味のある表現を学ぶ

ディープラーニングは、さまざまな抽象化レベルで科学データの意味のある表現を抽出し、多くの場合エンドツーエンドの学習を通じてそれらを最適化して研究を導くことができます。

高品質な表現では、シンプルでわかりやすいまま、できるだけ多くのデータ情報を保持する必要があります。

科学的に意味のある表現は、簡潔で、識別力があり、変動の潜在的な要因を区別でき、複数のタスクにわたって一般化可能な基礎となるメカニズムをエンコードできるものでなければなりません。

ここでは、これらの要件を満たす 3 つの新しい戦略、つまり幾何事前分布、自己教師学習、言語モデリングを紹介します。

幾何事前分布

幾何学と構造は科学において中心的な役割を果たすため、表現の学習に「幾何学的事前条件」を取り入れることは効果的であることが示されています。

対称性は幾何学において広く研究されている概念です。不変性と等価性を使用して数学関数の動作を記述し、一連の変換の下でのニューラル特徴エンコーダの動作を表すことができます。

科学的画像解析では、オブジェクトは画像内で移動しても変化しません。つまり、入力ピクセルが移動されると画像セグメンテーションマスクも同等に変化するため、移動と同等です。

モデルに対称性を組み込むと、トレーニングサンプルを増やすことで AI が限られたラベル付きデータからメリットを得られるようになり、モデルのトレーニング中に遭遇したものとは大きく異なる入力に対する外挿予測を改善できます。

幾何学的ディープラーニング

グラフニューラルネットワークは、基礎となる幾何学的構造と関係構造を持つデータセットのディープラーニングにおける主要なアプローチとなっています。

大まかに言えば、幾何学的ディープラーニングでは、関係パターンを発見し、ニューラルメッセージ転送アルゴリズムを通じてグラフや変換グループの形式でローカル情報をエンコードします。

写真

科学的データの意味のある表現を学ぶ

自己教師学習

モデルのトレーニングに使用できるラベル付きサンプルが少数しかない場合や、特定のタスクのデータのラベル付けにコストがかかりすぎる場合は、教師あり学習では不十分な場合があります。

この場合、ラベル付きデータとラベルなしデータの両方を活用することで、モデルのパフォーマンスと学習機能を向上させることができます。

自己教師学習は、明示的なラベルに依存せずにモデルがデータセットの一般的な特性を学習できるようにする手法です。

自己教師学習は、大規模なラベルなしデータセットで転送可能な機能を学習し、その後、小規模なラベル付きデータセットでモデルを微調整して下流のタスクを実行できる重要な前処理手順です。

科学分野に関する幅広い知識を持つこのような事前トレーニング済みモデルは、さまざまなタスクに適用できる一般的な予測子であり、それによって注釈の効率が向上し、純粋に教師ありの手法を上回ります。

言語モデル

マスク言語モデリングは、自然言語や生物学的シーケンスの自己教師学習のための一般的なアプローチです。

自然言語と生物学的配列処理が進歩し続けるにつれて、それらは互いの発展に影響を与えます。

トレーニング中の目標はシーケンス内の次のトークンを予測することですが、マスクベースのトレーニングでは、自己教師タスクは双方向シーケンスコンテキストを使用してシーケンス内のマスクされたトークンを回復することです。

タンパク質言語モデルは、アミノ酸配列をエンコードして構造的および機能的特性を捉え、ウイルス変異体の進化的適応度を評価することができます。

トランスフォーマーアーキテクチャ

トランスフォーマーは、任意のトークンペア間の相互作用を柔軟にシミュレートすることでトークンシーケンスを処理できるニューラルアーキテクチャの一種であり、シーケンスモデリングにリカレントニューラルネットワークを使用する以前の取り組みを上回ります。

Transformer はグラフニューラルネットワークと言語モデルを統合しますが、Transformer の実行時間とメモリ使用量はシーケンスの長さの 2 乗になる可能性があり、その結果、長距離モデリングと線形化された注意メカニズムの効率に課題が生じます。

そのため、教師なしまたは自己教師ありの生成的事前トレーニング済みトランスフォーマーが広く使用され、その後に効率的なパラメータの微調整が行われます。

ニューラルオペレータ

標準的なニューラルネットワークモデルは、データの離散性が固定されていると想定しているため、科学的アプリケーションのニーズを満たさない可能性があります。

このアプローチは、さまざまな解像度とグリッドで収集された多くの科学的データセットには適用できません。

さらに、データは通常、連続領域の基礎となる物理現象からサンプリングされ、ニューラルオペレーターは関数空間間のマッピングを学習することによって、離散化の影響を受けない表現を学習します。

ニューラル演算子は離散化不変であることが保証されており、入力の任意の離散化を処理し、メッシュが細分化されたときに限界に収束することを意味します。

ニューラルオペレータを一度トレーニングすると、再トレーニングなしで任意の解像度で評価できます。対照的に、標準的なニューラルネットワークでは、展開時のデータ解像度がモデルのトレーニング時に使用されたデータ解像度から変更されると、パフォーマンスが低下します。

人工知能に基づく科学的仮説生成

検証可能な仮説は科学的発見の中心です。

科学的仮説のブラックボックス予測

科学的調査のための有望な仮説を特定するには、多くの候補を効率的に検討し、下流のシミュレーションと実験の成果を最大化する仮説を選択する必要があります。

創薬においては、ハイスループットスクリーニングによって数千から数百万の分子を評価することができ、アルゴリズムによって実験的に調査する分子を優先順位付けすることができます。モデルは、関連する分子特性や観察に適合する記号式など、実験の有用性を予測するようにトレーニングできます。

ただし、多くの分子では、これらの予測因子に関する実験的な事実データが利用できない可能性があります。

したがって、これらのモデルをトレーニングするには、ノイズの多い、制限のある、または不正確な監督をトレーニング信号として使用する、弱監督学習法を使用できます。

これらの方法は、人間の専門家による注釈付け、高価なコンピューター計算、またはより忠実度の高い実験をコスト効率よく置き換えることができます。

写真

人工知能による科学的仮説生成

高精度シミュレーションでトレーニングされた AI 手法は、大規模な分子ライブラリを効率的にスクリーニングするために使用されています。

これらのプロセスの効率をさらに向上させるために、AI によって選択された候補を中程度または低程度のスループットの実験に投入し、実験のフィードバックを使用して候補を継続的に改良することができます。

結果は、アクティブラーニングとベイズ最適化を使用して AI モデルにフィードバックされ、アルゴリズムが予測を改善し、最も有望な候補に焦点を当てることが可能になります。

人工知能の手法は、仮説に分子などの複雑なオブジェクトが含まれる場合に非常に価値が高まります。

たとえば、タンパク質の折り畳みでは、AlphaFold2 は、タンパク質の構造がトレーニングデータセット内のどのタンパク質とも異なっていても、アミノ酸配列に基づいてタンパク質の 3 次元原子座標を原子レベルまでの精度で予測できます。

この画期的な進歩により、RoseTTAFold106 などのさまざまな AI 駆動型タンパク質折り畳み方法の開発が促進されました。

AI 手法は、順問題に加えて、一連の観測結果を生み出した原因要因を理解することを目的とした逆問題にもますます使用されるようになっています。

逆フォールディングや固定バックボーン設計などの逆問題では、何百万ものタンパク質構造でトレーニングされたブラックボックス予測子を使用して、タンパク質バックボーンの 3D 原子座標からアミノ酸配列を予測できます。

しかし、このようなブラックボックス AI 予測器には大規模なトレーニングデータセットが必要であり、既存の科学的知識への依存度は低下するものの、解釈可能性は限られています。

複合仮説空間のナビゲート

データに一致するすべての仮説をサンプリングするのは困難ですが、管理可能な目標は、最適化問題として定式化できる適切な仮説を見つけることです。

手動で設計されたルールに依存する従来の方法と比較して、AI 戦略を使用すると、各検索の報酬を推定し、より価値の高い検索方向を優先することができます。

強化学習アルゴリズムを使用してトレーニングされたエージェントは通常、ポリシーを学習するために使用されます。

エージェントは、生成された仮説やその他の関連基準の品質を反映するものと定義できる報酬信号を最大化するアクションを探索空間で実行することを学習します。

最適化問題を解決するには、進化的アルゴリズムを使用して記号回帰タスクを解決することができます。アルゴリズムは、初期ソリューションセットとしてランダムな記号法則を生成します。

各世代で、候補ソリューションはわずかに変化します。

アルゴリズムは、変更によって生成された記号法則が以前のソリューションよりも観測に適合しているかどうかを確認し、次の世代のために最適なソリューションを保持します。

しかし、強化学習法が徐々にこの標準的な戦略に取って代わりつつあります。

強化学習では、ニューラルネットワークを使用して、定義済みの語彙から数学記号を追加し、学習したポリシーを使用して次に追加する記号を決定することで、数式を順次生成します。

数式は解析ツリーとして表現されます。学習ポリシーは、解析ツリーを入力として受け取り、どのリーフノードを拡張し、どのシンボルを追加するかを決定します。

ニューラルネットワークを使用して数学の問題を解く別の方法は、数式をバイナリ記号のシーケンスに変換することです。

ニューラルネットワーク戦略では、バイナリ文字を確率的な順序で 1 つずつ増やすことができます。

この方法では、推測を反駁する能力を測定するための報酬を設計することにより、数学の問題に関する事前の知識がなくても数学的な推測を反駁する方法を見つけることができます。

組み合わせ最適化は、分子設計の各ステップが個別の意思決定プロセスである、望ましい薬物特性を持つ分子の発見などのタスクにも適用できます。

このプロセスでは、部分的に生成された分子グラフが学習ポリシーへの入力として与えられ、新しい原子を追加する場所と分子内の選択された位置に追加する原子について個別の選択が行われます。

このプロセスを繰り返し実行することで、この戦略は、ターゲット特性に対する適合性に基づいて評価されるさまざまな可能な分子構造を生成することができます。

AI エージェントが学習したポリシーは、最初は型破りに思えるが、結局は効果的であることが判明するアクションを予測します。

たとえば、数学では、教師ありモデルは数学的オブジェクト間のパターンと関係を識別し、直感を導き、推測を策定するのに役立ちます。

これらの分析は、これまで知られていなかったパターンや、世界の新しいモデルさえも示しています。

ただし、強化学習法は、エージェントが適切に機能する一連のアクションを見つけると、局所最適値に陥る可能性があるため、モデルのトレーニング中に目に見えないデータにうまく一般化できない可能性があります。

一般化を改善するには、エージェントが新しい設定や変更された設定でより優れたパフォーマンスを発揮できるように、より広範囲の検索軌跡を収集するためのいくつかの探索戦略が必要です。

微分可能仮説空間の最適化

科学的仮説は、物理学における記号式や、製薬および材料科学における化合物など、個別のオブジェクトの形をとることがよくあります。

組み合わせ最適化技術はこれらの問題のいくつかで成功を収めてきましたが、微分可能空間は局所最適値を効率的に見つけることができる勾配ベースの方法に適しているため、最適化にも使用できます。

勾配ベースの最適化手法を使用できるようにするには、2 つのアプローチがよく使用されます。

1 つ目は、VAE などのモデルを使用して、個別の候補仮説を潜在変数空間内のポイントにマッピングすることです。

2 番目のアプローチは、離散仮定を、微分可能空間で最適化できる微分可能オブジェクトに緩和することです。

この緩和は、離散変数を連続変数に置き換えたり、元の制約のソフトバージョンを使用したりなど、さまざまな形式をとることができます。

物理学における記号回帰アプリケーションでは、文法 VAE が使用されます。これらのモデルは、文脈自由文法を使用して、離散的な記号表現を構文解析木として表現し、構文解析木を微分可能な潜在空間にマッピングします。

次に、ベイズ最適化を使用して、表現が構文的に有効であることを保証しながら、記号法則の潜在空間を最適化します。

多くの科学分野では、仮説空間は実験的に調査できる範囲よりもはるかに広い場合があります。

したがって、これらのほとんど未開拓の領域で高品質の候補ソリューションを効率的に検索して特定する方法が緊急に必要です。

AIを活用した実験とシミュレーション

実験を通じて科学的仮説を評価することは、科学的発見に不可欠です。

しかし、実験室での実験は法外な費用がかかり、非現実的である可能性があります。

コンピューターシミュレーションは、実験よりも効率的で柔軟性が高いという利点を持つ有望な代替手段として登場しました。

シミュレーションは、実際のシナリオを模倣するために手作業で作成されたパラメータと先駆的な方法に依存していますが、物理的な実験と比較すると、精度と速度の間にトレードオフがあり、基礎となるメカニズムを理解する必要があります。

しかし、ディープラーニングの登場により、効率的なテストのために仮説を特定して最適化し、コンピューターシミュレーションで観察結果と仮説を結び付けることによって、これらの課題に対処できるようになりました。

科学的仮説を効率的に評価する

AI システムは、従来の科学的手法を補強し、必要な実験の数を減らし、リソースを節約できる実験設計および最適化ツールを提供します。

具体的には、AI システムは、実験テストの 2 つの重要なステップである計画とガイドを支援できます。

従来の方法では、これらの手順には試行錯誤が必要になることが多く、非効率的でコストがかかり、場合によっては命を脅かすこともあります。

AI イニシアチブは、実験の設計、効率の最適化、未知の領域の探索に対する体系的なアプローチを提供します。

同時に、AI は実験プロセスを高収量仮説に向けて導き、システムが以前の観察から学習して実験プロセスを調整できるようにします。

これらの AI 手法では、シミュレーションや事前の知識に基づいてモデルを構築したり、純粋な機械学習アルゴリズムに基づいてモデルを構築したりできます。

AI システムは、リソースの使用を最適化し、不要な調査を減らすことで、実験計画を支援できます。仮説探索とは異なり、実験計画には科学的実験の設計に関わる手順とステップが含まれます。

一例としては化学合成プログラムが挙げられます。化学合成計画には、既存の化合物から目的の化合物を合成できる一連の手順を見つけることが含まれます。

AI システムは、目的の化合物を得るための合成経路を設計できるため、人間の介入の必要性が減ります。

アクティブラーニングは、材料の発見や合成にも使用されています。能動学習では、仮説を改善するための実験的フィードバックとの反復的なやり取りが行われます。材料合成は、高次元パラメータ空間の効率的な探索を必要とする複雑でリソース集約的なプロセスです。

アクティブラーニングは、不確実性の推定値を利用してパラメーター空間を探索し、不確実性を可能な限り低減します。

実験を行っている間は、決定をリアルタイムで調整する必要があることがよくあります。ただし、このプロセスは、人間の経験と直感だけに頼ると困難になったり、エラーが発生しやすくなったりする可能性があります。強化学習は、変化する環境に継続的に対応し、実験の安全性と成功の保証を最大化できる代替アプローチを提供します。

たとえば、磁気制御トカマクプラズマの実験では、強化学習法はトカマクシミュレータと対話することでプロセスを制御する戦略を最適化します (下の図を参照)。

写真

別の研究では、強化学習エージェントが、風速や太陽高度などのリアルタイムのフィードバックに基づいて成層圏気球を制御し、航行に適した風の流れを探し出しました。

量子物理学では、将来の複雑な実験に最適な選択に基づいて実験設計を動的に調整する必要があり、強化学習法は実験を反復的に設計し、そこからフィードバックを得ることでこの問題を克服できます。

たとえば、強化学習アルゴリズムは量子システムの測定と制御を最適化するために使用され、それによって実験の効率と精度が向上しました。

シミュレーションを使用して仮説から観察を導き出す

コンピュータシミュレーションは、仮説から観察結果を導き出す強力なツールであり、直接テストできない仮説を評価することを可能にします。

しかし、既存のシミュレーション技術は、研究対象システムの根本的なメカニズムに対する人間の理解と知識に大きく依存しており、シミュレーションが最適で効率的でない可能性があります。

AI システムは、より正確かつ効率的に学習し、複雑なシステムの主要なパラメータをより適切に適合させ、複雑なシステムを制御する微分方程式を解き、複雑なシステムの状態をモデル化することで、コンピューターシミュレーションを強化できます。

科学者は、多くの場合、パラメータ化された形式を含むモデルを作成して複雑なシステムを研究しますが、パラメータの初期の記号表現を識別するには専門的なドメイン知識が必要です。

たとえば、分子力場は解釈可能ですが、さまざまな機能を表現する能力が限られており、生成するには強い帰納的バイアスまたは科学的知識が必要です。

分子シミュレーションの精度を向上させるために、従来の力場に代わる、高価だが正確な量子力学データに適合する AI ベースのニューラルポテンシャルが開発されました。

さらに、不確実性の定量化は高次元自由エネルギー面におけるエネルギー障壁の位置を特定するために使用され、それによって分子動力学の効率が向上しました169（下記）。

写真

粗粒度分子動力学の場合、AI モデルは、学習した隠れた複雑な構造からシステムをどの程度粗粒化する必要があるかを判断することで、大規模システムの計算コストを削減できます。

量子物理学では、ニューラルネットワークは柔軟性とデータを正確に適合させる能力があるため、手動で推定された波動関数または密度関数の記号形式に取って代わっています。

微分方程式は、空間と時間における複雑なシステムのダイナミクスをモデル化するために不可欠です。 AI ベースのニューラルソルバーは、数値代数ソルバーよりもシームレスにデータと物理を統合します。

これらのニューラルソルバーは、ドメイン知識に基づいてニューラルネットワークをモデル化することにより、物理学とディープラーニングの柔軟性を組み合わせます (下記)。

写真

AI 手法は、計算流体力学、ガラス系の構造予測、難しい化学反応速度論の問題の解決、地震波の伝播時間を特徴付けるアイコナール方程式の解決など、さまざまな分野の微分方程式の解決に適用されてきました。

ダイナミクスモデリングでは、ニューラル ODE を使用して連続時間をモデル化できます。ニューラルネットワークは、物理的な情報損失を介して、空間時間領域におけるナビエ-ストークス方程式の解をパラメーター化できます。

ただし、標準的な畳み込みニューラルネットワークでは、ソリューションのきめ細かい特徴をモデル化する能力が限られています。この問題は、ニューラルネットワークを使用して関数間のマッピングをモデル化する演算子を学習することで解決できます。

さらに、ソルバーはさまざまなドメインと境界条件に適応できる必要がありますが、これはニューラル微分方程式とグラフニューラルネットワークを組み合わせたグラフ分割によって実現できます。

統計モデリングは、複雑なシステム内の状態の分布をモデル化することで、複雑なシステムの包括的な定量的記述を提供できる強力なツールです。

正規化フローでは、一連の可逆ニューラルネットワークを使用して、複雑な分布を事前分布 (単純なガウス分布など) にマッピングしたり、その逆を行ったりすることができます。

計算コストは高くなりますが (通常、数百または数千のニューラルレイヤーが必要)、正規化フローは正確な密度関数を提供し、サンプリングとトレーニングを可能にします。

従来のシミュレーションとは異なり、正規化フローは事前分布から直接サンプリングし、ニューラルネットワークを適用することで平衡状態を生成できるため、計算コストは固定されます。

これにより、グリッド場とゲージ理論におけるサンプリングが強化され、モード混合により収束に失敗する可能性のあるマルコフ連鎖モンテカルロ法が改善されます。

大きな課題

科学的データを活用するには、人間の専門知識に基づいてモデルを構築し、シミュレーションで強化する必要があります。

この統合により、科学的発見の新たな機会が生まれます。

しかし、科学における AI の影響をさらに高めるには、理論、方法、ソフトウェア、ハードウェアインフラストラクチャの大幅な進歩が必要です。

AI を通じて科学を進歩させるための包括的かつ実践的なアプローチを実現するには、分野を超えたコラボレーションが不可欠です。

実用的な考慮事項

科学データセットは、不完全なデータセット、偏ったまたは矛盾した読み取り値、プライバシーとセキュリティの問題によるデータアクセスの制限などを生成する測定技術の制限により、AI 分析に適さないことがよくあります。

データ処理の作業負荷を軽減するには、標準化された透明性のある形式が必要です。

モデルカードとデータテーブルは、科学的データセットとモデルの動作特性を文書化する取り組みの例です。

さらに、フェデレーテッドラーニングと暗号化アルゴリズムを使用すると、商業価値の高い機密データがパブリックドメインに公開されるのを防ぐことができます。

オープンな科学文献、自然言語処理、ナレッジグラフ技術を活用することで、文献マイニングが容易になり、材料の発見、化学合成、治療科学の進歩に貢献できます。

ディープラーニングの使用は、人間が関与する AI 主導の設計、発見、評価に複雑な課題をもたらします。

科学的ワークフローを自動化し、大規模なシミュレーションコードを最適化し、機器を操作するために、自律ロボット制御は予測を活用し、高スループットの合成およびテストラインで実験を実施して、自律的なラボを構築できます。

材料探索における生成モデルの初期の応用では、望ましい特性と機能を持つ何百万もの可能性のある材料を特定し、その合成可能性を評価できることが示されています。

たとえば、King らは論理 AI とロボット工学を組み合わせて、酵母に関する機能ゲノミクスの仮説を自律的に生成し、実験室の自動化を使用してこれらの仮説を実験的にテストしました。

化学合成では、AI が候補となる合成経路を最適化し、予測された合成経路に従ってロボットが化学反応を誘導します。

AI システムの実装には複雑なソフトウェアおよびハードウェアエンジニアリングが含まれ、データのスクリーニングと処理からアルゴリズムの実装、ユーザーアプリケーションインターフェイスの設計まで、一連の相互依存的なステップが必要です。

実装における小さな違いがパフォーマンスに大きな変化をもたらし、AI モデルを科学的実践に統合する成功に影響を与える可能性があります。

したがって、データとモデルの標準化を考慮する必要があります。 AI 手法では、モデルトレーニングの確率的性質、モデルパラメーターの変動、トレーニングデータセットの変更により、データ関連とタスク関連の両方で再現性の問題が発生する可能性があります。

標準化されたベンチマークと実験設計により、これらの問題を軽減できます。再現性を向上させるもう 1 つの方法は、オープンモデル、データセット、教育プロジェクトを公開するオープンソースイニシアチブを活用することです。

アルゴリズムの革新

科学的理解に貢献するため、あるいは科学的理解を自律的に獲得するためには、科学的プロセス全体を通じて最良のアルゴリズムを使用する基礎的なエコシステムを構築するためのアルゴリズムの革新が必要です。

分布を超えた一般化の問題は、AI 研究の最前線にあります。

特定の範囲からのデータでトレーニングされたニューラルネットワークは、後者の基礎分布が変化したため、異なる範囲のデータに適用できないパターンを発見する場合があります。

多くの科学的法則は普遍的に適用可能ではありませんが、一般的に幅広い適用性を持っています。また、人間の脳は、最も進行したAIよりも改良された環境に適応することができます。

人間が観察するものに基づいて統計的モデルを構築するだけでなく、因果モデルも構築するという興味深い仮説があります。

これは、可能なすべての介入（例：異なる初期状態、異なるエージェント行動、または異なる状況）によってインデックス付けされた統計モデルのコレクションです。

因果関係をAIに組み込むことは依然として研究されていない領域であり、まだやるべきことがたくさんあります。

自己学習学習などの手法は、科学的な問題の大きな可能性を秘めています。なぜなら、彼らは大量のラベル付けされたデータを活用して、そこに含まれる知識を低データドメインに転送できるからです。

ただし、現在の転送学習スキームは、特定の状況ではアドホックソリューションであり、理論的なガイダンスがなく、基礎となる分布の変化に対して脆弱です。

いくつかの最初の試みがこの課題に対処していますが、ドメイン間の転送可能性を体系的に測定し、負の伝達を防ぐためにはさらなる調査が必要です。

さらに、科学者が懸念している困難に対処するために、AIメソッドの開発と評価は、薬物設計における可能性のある合成経路などの現実世界の状況で実施され、モデルを実用的なアプリケーションに転送する前にモデルの信頼性を評価するための適切に調整された不確実性の推定値を含めなければなりません。

科学データはマルチモーダルであり、画像（宇宙論におけるブラックホールの画像）、自然言語（例：科学文献）、時系列（材料の熱黄色など）、シーケンス（例えば、生物学的配列）、グラフ（例：複合システム）、および構造（例えば、3D、プロタイン - ラガンド定着）が含まれています。

AIメソッドはしばしばブラックボックスとして動作します。つまり、ユーザーは出力の生成方法と出力の生成においてどの入力が重要であるかを完全に理解できません。

ブラックボックスモデルは、予測に対するユーザーの信頼を減らし、モデル出力を実装前に理解する必要があるドメインでのアプリケーションが限られている可能性があります。

多くの説明技術にもかかわらず、透明な深い学習モデルはとらえどころのないままです。

しかし、人間の脳は、たとえ不完全であっても、他の人間に説得力がある高レベルの説明を合成することができます。

これは、同様に高いレベルの抽象化で現象をシミュレートすることにより、将来のAIモデルが、少なくとも人間の脳によって提供されるものと同じくらい価値がある説明と理解を提供することを希望します。

これはまた、高レベルの認知を研究することで、現在の深い学習能力と、言葉による抽象化、因果的推論を操作し、分布を超えて一般化する能力を組み合わせた将来の深い学習モデルを刺激する可能性があることを示唆しています。

科学研究に対するAIの影響

今後、AIの専門知識の需要は2つの力の影響を受けます。

第一に、一部の領域は、自律研究所などのAIアプリケーションからすぐに恩恵を受けることができます。

第二に、スマートツールは最先端を前進させ、実験的に観察できない生物学的、化学的、または物理的プロセスの研究など、新しい機会を生み出すことができます。

これらの2つの力に基づいて、研究チームの構成がAIの専門家、ソフトウェア、ハードウェアエンジニア、およびあらゆるレベルの政府、教育機関、および企業が関与する新しい形態のコラボレーションを含むように変化することを期待しています。

最新の最新のディープラーニングモデルは成長し続けています10,234。これらのモデルは、数百万または数十億のパラメーターで構成されており、毎年10倍に成長しています。

これらのモデルのトレーニングには、複雑なパラメーター化された数学操作にデータを渡すことが含まれ、パラメーターが更新され、モデルの出力が望ましい値に向かってプッシュされます。

ただし、これらの更新を計算するための計算およびデータの要件は膨大であり、その結果、巨大なエネルギー消費と高い計算コストが発生します。

その結果、大規模なテクノロジー企業は、インフラストラクチャとクラウドサービスの計算に多額の投資を行い、規模と効率の限界を推進しています。

営利目的および非学術組織には大規模なコンピューティングインフラストラクチャがありますが、高等教育機関は学際的な統合に有利になる可能性があります。

さらに、学術機関には、他の場所に存在しないかもしれないがAI4Scienceに必要な独自の歴史的データベースと測定技術があることがよくあります。

これらの補完的な資産は、選択された研究の質問に影響を与える可能性のある産業協会のコラボレーションの新しいモデルを育成します。

AIシステムがアプローチし、人間のパフォーマンスを上回るにつれて、それらは日常的な実験室の仕事の実行可能な代替手段になりつつあります。

このアプローチにより、研究者は実験データから予測モデルを開発し、実験を選択して、骨の折れる繰り返しタスクを手動で実行することなく、これらのモデルを改善することができます。

このパラダイムシフトをサポートするために、科学的研究における実験室の自動化とAIの設計、実装、および応用の科学者を訓練するために、教育プログラムが出現しています。これらのプログラムは、科学者がAIの使用がいつ適切であるかを理解し、AI分析の誤解を防ぐのに役立ちます。

結論は

AIシステムは、視覚化または検出できないプロセスやオブジェクトを研究できるようにすることにより、データからモデルを構築し、シミュレーションとスケーラブルなコンピューティングを組み合わせて創造性を体系的に刺激することにより、科学的理解に貢献できます。

この可能性を実現するには、AIの使用によって提起された安全性の懸念は、テクノロジーの責任ある思慮深い展開を通じて対処する必要があります。

科学研究におけるAIの責任ある使用には、AIシステムの不確実性、エラー、およびユーティリティレベルを決定する必要があります。

この理解は、AIの出力を正確に解釈し、欠陥のある結果に過度に依存しないようにするために重要です。

AIシステムが進化し続けるにつれて、信頼できる実装の優先順位付けと適切な保護手段を導入することが、リスクを最小限に抑え、利益を最大化するための鍵です。

AIには、以前は手の届かないところにあった科学的発見を明らかにする可能性があります。

参考文献:

https://www.nature.com/articles/S41586-023-06221-2

<<: GPT-4 脳を解読する 0 コード!海外のネットユーザーがLLMのガードレールを突破し、AIに段階的に爆弾を作らせる

>>: MuskxAIの創設メンバーが中国で最初の声明を発表: ChatGPTの時代では「困難な時代に英雄が現れる」、次のステップはより多くの数理科学データトレーニングを使用することです

ブログ

DeepMindの最新研究がNatureに掲載され、AI時代の科学研究の新たなパラダイムを明らかにし、未知の領域を探索し、新たな課題をもたらしている。

AI支援による科学研究データの収集と管理

科学データの意味のある表現を学ぶ

人工知能に基づく科学的仮説生成

AIを活用した実験とシミュレーション

大きな課題

結論は

新世代のAIがディープラーニングの問題を解決する

2021 年の AI イノベーショントレンドトップ 10

初心者のためのディープラーニングの10,000語レビュー

まだ理解していないフーリエ変換。ニューラルネットワークはそれを学習するのにたった30行以上のコードしか使用しませんでした

不確実な環境での自動運転の軌道計画を改善するにはどうすればよいでしょうか?

AI幻覚にどう対処するか？

推薦する

ヤン・ルカンは、テンセントのポートレート写真生成が自由にできることを明かした。

ガートナーの2020年のトップ10戦略的テクノロジートレンド: ハイパーオートメーション、分散クラウド、AIセキュリティなど

サイバー犯罪者が機械学習を利用する 7 つの方法: 対抗策

AIアルゴリズムから製品実装までの8つのギャップを数える

Google Gemini の大きな転換？ Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

米国の光学半導体ウエハ検査機はAIとビッグデータを統合し動作速度を3倍に向上

生徒のエッセイ採点における新たな傾向: 教師と AI の共同モデル

「3D ガウス」バージョンですべてをセグメント化: ミリ秒単位で 3D セグメンテーション、1,000 倍高速

OpenAIの最新の評価額は半年で3倍になり、800億ドルを超える

Python vs R: 機械学習とデータ分析の比較

論文をレビューするための新しい Python プログラム。手動レビューをなくし、arXiv 論文のスコアを自動的に付けます。

AI時代の従業員のスキルアップのための5つのヒント