この方程式はバイナリツリーの森ですか?データから直接未知の支配方程式と物理的メカニズムを発見する

研究者たちは、機械学習の手法を使用して、高次元の非線形データから直接最も価値があり重要な内部法則を自動的にマイニングし（つまり、問題の背後にある PDE に基づいて主に制御方程式をマイニングし）、自動的な知識発見を実現することを望んでいます。

最近、東方科技大学、ワシントン大学、瑞来知能、北京大学などの研究チームが、記号数学に基づく遺伝的アルゴリズムSGA-PDEを提案し、オープンな候補セットを構築し、データからあらゆる形式の制御方程式を直接マイニングできるようになりました。

実験により、SGA-PDE は、データから Burgers 方程式 (相互作用項を含む)、Korteweg-de Vries 方程式 (KdV、高次微分項を含む)、Chafee-Infante 方程式 (指数項と微分項を含む) をマイニングできるだけでなく、粘性重力流問題における合成関数を含む制御方程式や、分数構造を含む方程式 (後者 2 つは以前の方法では発見が困難) も正常にマイニングできることが示されています。 SGA-PDE は方程式の形式に関する事前の知識に依存せず、複雑な構造制御方程式をマイニングするという問題のギャップを埋めます。このモデルでは、一連の候補方程式を事前に与える必要がないため、未知の科学的問題における自動知識発見アルゴリズムの実用化に役立ちます。

「開形式偏微分方程式を発見するための記号遺伝的アルゴリズム（SGA-PDE）」と題されたこの研究は、6月1日にPhysical Review Research誌に掲載された。

現在、知識発見の一般的な考え方は、スパース回帰を使用することです。つまり、閉じた候補セットを事前に与え、そこから方程式の項を選択し、SINDyやPDE-FINDなどの制御方程式を組み合わせることです。しかし、このタイプの方法では、ユーザーが事前に方程式の近似形を決定し、対応するすべての微分演算子を関数項として候補セットに事前に与える必要があります。候補セットに存在しない関数項をデータから見つけることは不可能です。最近のいくつかの研究では、遺伝的アルゴリズムを使用して候補セットを拡張しようとしましたが、遺伝子の組み換えと突然変異には大きな制限があり、依然として複雑な関数項（分数構造や複合関数など）を生成することはできません。

データから直接オープン形式の制御方程式をマイニングするための鍵は、計算的に扱いやすい方法で任意の形式の制御方程式を生成して表現し、生成された方程式と観測データ間の適合度を測定することによって方程式形式の精度を評価し、マイニングされた方程式を反復的に最適化することです。したがって、自動知識発見の中心的な問題は表現と最適化です。

表1. 自動制御方程式マイニング手法の比較

表現問題の課題は、 1. 有限の基本単位を使用して無限の複雑な構造制御方程式（つまり、オープン候補セット）を表現する方法、 2. 計算が容易な制御方程式表現方法を構築する方法です。任意の構造の方程式を自由に表現できるようにするために、研究者らは SGA-PDE の基本表現単位をオペランドと演算子に弱め、記号数学手法によるバイナリツリーを使用してオープン候補セットを構築しました。

最適化問題の課題は、 1.方程式形式と方程式評価指標間の勾配を計算するのが難しいこと、 2.オープン候補セットの実行可能領域が無限であり、最適化プロセスで探索と活用のバランスを効果的に取るのが難しいことです。オープン候補セット問題を効率的に最適化するために、研究者はツリー構造用に特別に設計された遺伝的アルゴリズムを使用して、方程式の形で最適化を実現しました。

図1: 自動知識発見問題とSGA-PDEの概略図

研究者らはまず、アルゴリズム内の方程式の基本的な表現単位を改良し、方程式の表現スケールを独立した関数項のレベルから演算子とオペランドのより基本的なレベルに変換することによって、開形式偏微分方程式を表現した。

SGA-PDE は、制御方程式内の演算子を二重演算子 (+、- など) と単一演算子 (sin、cos など) に分割し、すべての潜在的な変数をオペランド (x、t、u など) として定義します。研究者たちは、バイナリツリー構造を使用して演算子とオペランドを組み合わせ、さまざまな方程式をエンコードしました。バイナリツリー内のすべての終端ノード (次数 0 のリーフノード) はオペランドに対応し、すべての非終端ノードは演算子に対応します。二重演算子は次数 2 のノードに対応し、単一演算子は次数 1 のノードに対応します。

図2に示すように、計算可能な文字列を接続として使用することで、任意の関数項をバイナリツリーに変換できます。同時に、特定の数学的規則を満たすバイナリツリーも関数項に変換できます。したがって、複数の関数項を持つ制御方程式は、複数のバイナリツリーで構成されるフォレストと同等です。 SGA-PDE は、記号数学によって任意の開形式の偏微分支配方程式を表すことができます。さらに、この論文では、数学的な意味を持つ二分木をランダムに生成する方法も提案しており、これにより、生成された二分木が数学的な原理に違反しないことを保証できます。

図2: 二分木と関数項の表現と変換方法

図 2 に示す表現方法は、関数空間内のサンプルと二分木空間内のサンプルを 1 対 1 で対応させることができるためです。これは、記号数学に基づく表現が効率的で冗長性がなく、遺伝的アルゴリズムのエンコードプロセスとして使用できることを意味します。研究者らは、実験データから観測データと一致する制御方程式を自動的にマイニングするためのツリー構造の遺伝的アルゴリズム (図 3) を提案しました。このツリー構造の遺伝的アルゴリズムは、さまざまなレベルで最適化を実現できます。

再結合フェーズは、バイナリツリー (関数項) の最適な組み合わせを見つけるために、フォレスト (方程式) レベルで最適化されます。このステップは、閉じた候補セット内で最適なソリューションを見つけるという、現在一般的なスパース回帰法に似ています。

突然変異フェーズは、バイナリツリー (関数項) レベルで最適化されます。さまざまなノード属性をランダムに生成することにより、特定のバイナリツリー構造におけるノード属性の最適な組み合わせが見つかります。これは基本的に、現在の構造を活用することです。

置換フェーズもバイナリツリー（関数項）レベルで最適化されますが、ツリー構造の探索であり、完全にオープンな候補セットでの最適化を実現する新しいバイナリツリー構造を生成します。

SGA-PDE は、マルチレベルの最適化を通じて、バイナリツリートポロジ構造の利用と探索を考慮に入れることができ、最適な方程式形式を効率的に見つけるのに役立ちます。

図3: ツリー構造の遺伝的アルゴリズム

実験データは図4に示されており、2列目はSGA-PDEの唯一の入力情報である物理的なフィールド観測を示しています。 3 列目と 4 列目の基礎となる 1 次導関数は、物理的な場の観測値を差分することで取得できます。最初の列は正しい方程式の形式です。実験では、SGA-PDE は同じプリセットオペランドと演算子を使用し、特定の問題に合わせて調整する必要がないため、アルゴリズムの普遍性が検証されます。

最終的に、SGA-PDE は、データから Burgers 方程式、KdV 方程式、Chafee-Infante 方程式、複合関数導関数を持つ粘性重力流制御方程式、および分数構造を持つ方程式を正常にマイニングしました。上記の方程式には、指数項、高次微分項、相互作用項、合成関数、入れ子構造など、さまざまな複雑な形式があります。

表2は、上記の5つの例におけるさまざまな既存アルゴリズムの計算結果を比較したものです。SGA-PDEは、複雑な構造の制御方程式のマイニングにおけるギャップを埋めていることがわかります。

図4: 実験データグラフ

表2 さまざまな制御方程式マイニング問題における自動知識発見アルゴリズムの実験結果

SGA-PDE の最適化プロセスをより深く理解するために、図 5 に KdV 方程式をマイニングする際の進化パスを示します。第一世代で生成された最適方程式は実際の方程式から大きく離れていることがわかります。その後の進化の過程では、二分木の位相構造やノードの意味の変化、関数項間の相互組み換えなどを経て、第31世代でようやく正しい解が見つかり、この時点でAIC指数は記事で示された収束基準に達しました。興味深いことに、最適化が継続すると、69 世代目に、複合関数の導関数に基づく KdV 方程式のより簡潔な表現が見つかります。図6は、分数構造を持つ制御方程式を見つける際のSGA-PDEの最適化プロセスを示しています。

図5: KdV方程式のSGA-PDE最適化プロセス

図6: 分数構造を持つ方程式のSGA-PDE最適化プロセス

制御方程式はドメイン知識を効率的に表現します。しかし、多くの現実の問題では、パラメータや方程式の形式さえも不確実であるため、正確な制御方程式を記述することが困難です。これにより、機械学習におけるドメイン知識の応用が大きく制限されます。

SGA-PDE は、記号数学手法を使用して方程式を変換することにより、あらゆる形式の偏微分方程式の表現問題を解決します。さらに、SGA-PDE はバイナリツリー用に設計された遺伝的アルゴリズムを使用して、ツリートポロジとノード属性を反復的に最適化することにより、オープンドメインから観測されたデータに適合する制御方程式を自動的にマイニングします。最適化において、SGA-PDE は方程式の形式に関する事前情報に依存せず、また与えられた候補セットも必要としないため、複雑な構造方程式の自動最適化を実現します。同時に、SGA-PDE は勾配フリーアルゴリズムでもあり、方程式構造と損失値の間の勾配の計算が難しいという問題を回避します。

今後の研究では、1. 強化学習または組み合わせ最適化アルゴリズムを組み合わせること、2. 物理的メカニズムを埋め込むことでソリューション空間を狭める、3. SGA-PDE のスパースデータおよびノイズの多いデータへの適用性を評価および改善すること、4. 知識埋め込み方法と知識発見方法を統合することに焦点を当てます。

論文リンク（無料アクセス）：

https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.4.023174

コードとサンプルデータリンク:

https://github.com/YuntianChen/SGA-PDE

<<: セマンティックAIとデータ管理の5つのトレンド

>>: 合成データは AI をより良くすることができるでしょうか?