高度な数学に希望があります！ニューラルネットワークは1秒未満で偏微分方程式を解く

タスクの数が増えるにつれて、現在の計算方法を使用して汎用の日常的なロボットを構築するコストは法外なものとなり、解決策の模索が急速に進んでいます。我々は、汎用ロボットが清掃、メンテナンス、配達などのさまざまな複雑な作業を実行することを期待しています。

「上級数学」はいかがですか？

微分方程式は数学において重要な科目です。微分方程式は、未知の関数の導関数を含む方程式です。一般的に言えば、未知の関数、その導関数、独立変数の関係を表す方程式は、微分方程式と呼ばれます。

未知の関数が単一変数関数である場合、それは常微分方程式と呼ばれます。

未知の関数が多変数の場合、それは偏微分方程式と呼ばれます。

偏微分方程式の応用範囲は広く、空中での旅客機の飛行姿勢のシミュレーション、地球上の地震波のシミュレーション、群衆の間での感染症の蔓延、基本的な力と粒子の相互作用の研究などが含まれます。エンジニア、科学者、数学者は皆、偏微分方程式を利用して、多くの独立変数を含む複雑な現象を記述します。

しかし、偏微分方程式を解くことは、特にコンピュータにとっては非常に難しく、最も不器用な方法でしか解くことができません。

特に複雑な偏微分方程式の場合、解を解くのに数百万 CPU 時間かかることがあります。より優れたロケットエンジンの設計から気候変動のシミュレーションまで、問題が複雑化するにつれて、科学者はよりスマートなアプローチを必要としています。

ニューラルネットワークでしょうか?

最近、研究者たちは実験を通じて、ニューラルネットワークが従来の偏微分方程式ソルバーよりも速く近似解を見つけることができることを実証しました。

さらに驚くべきことは、トレーニングされたネットワークは、追加のトレーニングなしで偏微分方程式のクラスを解くことができることです。

通常、ニューラルネットワークは、ある有限次元空間 (画像のピクセル値など) から別の有限次元空間 (猫の場合は 1、犬の場合は 2 など、画像を分類する数字など) にデータをマッピングまたは変換します。

偏微分方程式を解くニューラルネットワークは、無限空間から無限空間にマッピングします。

偏微分方程式の有用性は、その複雑さに伴って生じます。たとえば、飛行機の翼の周りの空気の流れを 2 次元の視点で見たい場合、空間内の任意の点 (流れ場とも呼ばれます) とさまざまな時間における流体の速度と圧力を知りたい場合は、モデル作成者は偏微分方程式を使用する必要があります。

特定の偏微分方程式であるナビエ・ストークス方程式は、エネルギー、質量、運動量の保存則を考慮して、この流体の流れをモデル化できます。

この場合、解決策としては、開発者がさまざまな時点での流れ場の状態を計算できるようにする特定の数式が考えられます。

偏微分方程式は往々にして非常に複雑なため、一般的な解析解を得ることができません。これは特に、ナビエ・ストークス方程式の最も一般的な形式に当てはまります。数学者は、実際に解析的に解を見つけるどころか、一意の解が存在するかどうかをまだ証明していません。

このような場合、モデル作成者は数値的手法を利用して偏微分方程式を扱いやすい代数方程式に変換します。この代数方程式は、小さな空間と時間の増分に対して成立すると想定されます。

複雑な偏微分方程式を数値的に解くには、スーパーコンピュータで数か月かかることがあります。

さらに、初期条件や境界条件、あるいは研究対象のシステムの形状（翼の設計など）が変更された場合は、ソリューションを再開する必要があります。同様に、使用される増分が小さいほど（研究者が言うように、メッシュが細かくなるほど）、モデルの精度は高くなりますが、数値的に解くのにかかる時間は長くなります。

ニューラルネットワークは、入力がベクトルで出力が別のベクトルであるこのブラックボックスのような未知の関数のフィッティングに優れています。入力ベクトルのセットを出力ベクトルのセットにマッピングする関数が存在する場合、ネットワークはそのマッピングを学習するようにトレーニングできます。2 つの有限次元空間間の任意の関数は、ニューラルネットワークによって近似できます。

2016年、研究者たちは、画像認識によく使われるディープニューラルネットワークを偏微分方程式を解くためにどのように使用できるかを研究しました。まず、研究者らはネットワークをトレーニングするためのデータを生成しました。数値ソルバーは、xy のさまざまなサイズと方向を持つ基本的な形状 (三角形、四角形など) の単純なオブジェクト上を流れる流体の速度場を計算しました。 2D 画像は、オブジェクトの形状と流体の初期条件に関する情報を入力としてエンコードし、対応する速度場の 2D スナップショットが出力として提供されます。

無限空間から無限空間へのマッピング

2016 年の研究と比較すると、この研究はより意義深いものです。ネットワークは関数を近似する方法を学習できるだけでなく、「次元爆発」の問題なしに関数を「演算子」にマッピングすることも学習できます。たとえば、他のニューラルネットワークや機械学習アルゴリズムでエラー率を 10% から 1% に減らしたい場合、必要なトレーニングデータの量やネットワークのサイズが指数関数的に増加し、タスクが達成できなくなる可能性があります。

数学では、演算子の入力と出力は無制限です。たとえば、正弦関数 sin(x) は、x が任意の値になり、関数が x に作用する任意の変換になるため、無限次元の入力と出力を持ちます。

近似演算子を学習するディープラーニングネットワークを使用すると、類似した偏微分方程式をすべて一度に解き、さまざまな初期条件と境界条件、および物理パラメータに対して同じ現象をモデル化できます。

1995 年の研究により、浅いネットワークが演算子を近似できることが示されました。ニューラルネットワークの導入により、このような演算子はニューラル演算子と呼ばれ、実際の演算子の近似値になります。

2019年、研究者らは1995年の研究に基づいてDeepONetを提案した。その独自性は、2 つの並列ネットワーク (ブランチとトランク) でデータを処理する分岐アーキテクチャにあります。前者は入力に対して何らかの関数の近似値を学習し、後者は出力に対して同じ関数を学習します。

DeepONet は 2 つのネットワークの出力を組み合わせて、偏微分方程式に必要な演算子を学習します。 DeepONet はトレーニングされ、ブランチネットワークとバックボーンネットワークの重みが各反復で調整され、ネットワーク全体でエラー許容範囲外のエラーがほとんどなくなるまで続きます。

トレーニングが完了すると、DeepONet は入力時に偏微分方程式を表すデータを取り込んで演算子をシミュレートし、ネットワークトレーニングによって得られた近似解を出力します。

トレーニングデータに含まれていない初期/境界条件と物理パラメータを表す 100 個のサンプルと、フローフィールドが必要な場所を提供すると、DeepONet はフローフィールドの状態をほんの一瞬で提供できます。

しかし、DeepONet のトレーニングプロセスには依然として多くの計算能力が必要であり、精度を向上させてステップサイズを縮小し、より多くの計算を生成する方法も問題です。もっと早くできますか？

視点を変える

昨年、アナンドクマール氏とカリフォルニア工科大学およびパデュー大学の同僚らは、はるかに高速であると主張するフーリエニューラルオペレータ（FNO）と呼ばれるディープニューラルネットワークを構築した。

彼らのネットワークは、関数を関数に、無限次元空間から無限次元空間にマッピングし、偏微分方程式でニューラルネットワークをテストしました。

彼らのソリューションの中心となるのはフーリエ層です。

トレーニングデータをニューラルネットワークの単一レイヤーに通す前に、まずフーリエ変換を行いました。次に、レイヤーが線形演算によってそのデータを処理すると、逆フーリエ変換を実行してデータを元の形式に戻します。この変換は有名なフーリエ変換で、連続関数を複数の正弦関数に分解します。

ニューラルネットワーク全体は複数のフーリエ層で構成されています。

このプロセスは DeepONet の計算よりも簡単で、PDE と他の関数の間の畳み込みと呼ばれる面倒な数学演算を実行して PDE を解くことに似ていることがわかります。

フーリエ領域では、畳み込みには単純な乗算が含まれます。これは、フーリエ変換されたデータを人工ニューロンの層（トレーニング中に取得された正確な重みを持つ）に渡し、その後逆フーリエ変換を行うことと同等です。

したがって、最終結果として、FNO は偏微分方程式全体の演算子を学習し、関数を関数にマッピングします。

このアプローチにより、解決速度が大幅に向上します。

比較的単純な例では、前述のナビエ・ストークス方程式を解くのに必要なシミュレーションは 30,000 回だけでした。各シミュレーションでは、FNO では数分の 1 秒かかりましたが、DeepONet では 2.5 秒かかりました。従来のソルバーでは、同じ精度を達成するのに 18 時間かかります。

数学的意義

両チームのアプローチは成功しましたが、ニューラルネットワークの広範な使用と同様に、なぜそれがうまく機能するのか、またすべての場合にうまく機能するかどうかは明らかではありません。ミシュラ氏とその同僚は現在、両方のアプローチを数学的に包括的に理解することに取り組んでいる。

1年間の懸命な努力の末、2月にミシュラ氏のチームはカルニアダキス氏の協力を得て、DeepONetアーキテクチャの112ページに及ぶ数学的分析を作成した。彼らは、このアプローチが、PDE だけでなく、入力の任意の関数セットを出力の任意の関数セットにマッピングできるという点で、真に汎用的であり、Karniadakis の定理 NET とその 1995 年の前身の定理の核心に到達するために必要な特定の仮定を行う必要がないことを示しました。

チームはまだ FNO を分析した論文を完成させていないが、ミシュラ氏は FNO が特定の問題を DeepONet よりも効果的に解決できると考えている。彼のチームは現在、DeepONet との比較を含め、FNO の詳細な分析を行っています。

ただし、どちらのアプローチも従来のソルバーよりも優れていることは明らかです。偏微分方程式を記述できないシナリオでは、ニューラル演算子がそのようなシステムをモデル化する唯一の方法となる場合があります。

これが科学的機械学習の未来です。

<<: Java プログラミングスキル - データ構造とアルゴリズム「基数ソート」

>>: スマートテクノロジーが戦いに加わり、宇宙探査が新たな機会をもたらす