ディープラーニングでは複素数を使うべきでしょうか?

ディープラーニングでは複素数を使うべきでしょうか?

マンデルブロ複素集合: https://en.wikipedia.org/wiki/Mandelbrot_set

ディープラーニングでは実数しか使えないというのは奇妙だと思いませんか?ディープラーニングが複素数を使用するというのは、おそらくさらに奇妙です (注: 複素数には虚数部があります)。脳が計算を行う際に複素数を使用する可能性は低いというのが、説得力のある議論です。もちろん、脳は行列演算や連鎖律微分法を使わないと主張することもできます。さらに、人工ニューラル ネットワーク (ANN) には実際のニューロンのモデルがあります。長い間、私たちは生物学的妥当性を実際の分析に置き換えてきました。

しかし、実際の分析で止まってしまうのはなぜでしょうか?私たちは長い間、線形代数と微分方程式を使ってきました。そのため、それらをすべて解体し、複素解析を使用して新しいものを構築することができます。おそらく、さらに素晴らしい複雑な分析によって、さらに強力な手法が得られるでしょう。結局のところ、量子力学で機能するのであれば、ディープラーニングでも機能する可能性が高いのです。さらに、ディープラーニングと量子力学はどちらも情報処理に関するものであり、同じものである可能性があります。

議論の都合上、生物学的妥当性については今のところは脇に置いておきます。これは非常に古いアイデアで、フランク・ローゼンブラットが初めて人工ニューラル ネットワークを提案した 1957 年にまで遡ります。それで、質問は、実数では提供できないが複素数では何が提供できるのか、ということです。

過去数年間、深層学習における複素数の使用を検討した論文が数多く発表されてきました。不思議なことに、それらのほとんどは査読のある学術雑誌には受け入れられていません。ディープラーニングの正統性がこの分野で人気を博しているからです。しかし、私たちはまだいくつかの興味深い論文をレビューしたいと思っています。

DeepMind の論文「連想長期短期記憶」(Ivo Danihelka、Greg Wayne、Benigno Uria、Nal Kalchbrenner、Alex Graves)では、複素値を使用して連想記憶ニューラル ネットワークを形成する方法について検討しています。このシステムは、LSTM のメモリを強化するために使用されます。この論文では、複素数を使用するネットワークはより大きなメモリ容量を実現できると結論付けています。数学的には、複素数を使用する場合は、実数のみを使用する場合よりも小さい行列が必要になります。下の図に示すように、複素数を使用するニューラル ネットワークのメモリ オーバーヘッドは、従来の LSTM のメモリ オーバーヘッドとは大きく異なります。

モントリオールのヨシュア・ベンジオ氏と彼のチームは、複数形を使用する別の方法を研究しました。研究者らは、論文「ユニタリ進化リカレントニューラルネットワーク」(Martin Arjovsky、Amar Shah、Yoshua Bengio)でユニタリ行列を調査しました。彼らは、行列の固有値が 1 に近い場合、勾配の消失が実用的な利点をもたらす可能性があると主張しています。この研究では、RNN ネットワークの重みとして複素数を使用しました。結論は次のとおりです。

我々は、uRNN が長いシーケンスを通じて勾配情報を伝播するのに優れており、LSTM ほど隠れ状態の飽和の影響を受けないことを経験的に示しています。

彼らは、複素数を使用したネットワークと従来の RNN のパフォーマンスを定量的に比較するために、いくつかの実験を実施しました。

複素数を使用するシステムは、パフォーマンスが大幅に堅牢かつ安定します。

Bengio 氏のチームと MIT が共同執筆した論文「Gated Orthogonal Recurrent Units: On Learning to Forget」(Li Jing、Caglar Gulcehre、John Peurifoy、Yichen Shen、Max Tegmark、Marin Soljačić、Yoshua Bengio) では、ゲーティング メカニズムを使用する方法が提案されています。この論文では、長期的な依存関係をより適切に把握し、より堅牢な忘却メカニズムを形成できる可能性について検討します。下の図は、コピータスクにおける他の RNN ベースのシステムの失敗を示しています。

同様の論文「クロネッカー回帰単位」(Cijo Jose、Moustpaha Cisse、Francois Fleuret)が FAIR と EPFL のチームによって発表され、そこでも複製タスクにユニタリ行列を使用する可能性が示されました。彼らは、必要なパラメータを大幅に削減できる行列分解法を実証しました。この論文では、複数形を使用する動機について説明しています。

実空間の行列式は連続関数なので、実空間のユニタリ集合は矛盾しています。したがって、標準的な連続最適化手順を使用して、実数値ネットワーク上で完全なユニタリ セットを交差することはできません。対照的に、ユニタリ集合は複素空間で連結されており、その行列式は複素空間の単位円上の点であるため、複素数を使用する場合にはこの問題は発生しません。

この論文の要点の一つは、次のような建設的な考え方です。

大容量ネットワークが入力を内部状態にエンコードし、予測を抽出できるようにするには、状態を高次元に保つ必要があります。しかし、低容量モデルを使用することで再帰的なダイナミクスを実現できます。

現在、これらの方法では、RNN での複素値の使用が検討されています。最近の MILA (Montreal Institute for Learning Algorithms) の論文「Deep Complex Networks」(Chiheb Trabelsi 他) では、畳み込みニューラル ネットワークにおけるこれらの手法の使用についてさらに詳しく説明しています。著者らはコンピュータービジョンタスクでネットワークをテストし、競争力のある結果を達成しました。

最後に、GAN における複素数の使用について一言述べなければなりません。結局のところ、GAN はおそらく最もホットなトピックです。論文「GAN の数値計算」(Lars Mescheder、Sebastian Nowozin、Andreas Geiger) では、GAN の複雑な収束特性について考察しています。彼らは複素値を持つヤコビ行列の特性を研究し、それを活用して GAN 均等化問題に対する最先端のアプローチを生み出しました。

昨年のブログ投稿で、ホログラフィック原理とディープラーニングの関係を紹介しました。ブログ記事のアプローチでは、テンソル ネットワークとディープラーニング アーキテクチャ ネットワークの類似点を探ります。量子力学は、より一般的な形の確率を使用していると考えることができます。複素数を使用すると、通常の確率では提供できない追加の機能が提供されます。具体的には、重ね合わせたり干渉したりする能力です。ホログラフィーを実現するには、プロセスで複素数を使用するのが最適です。

機械学習やディープラーニングの分野で行われる数学的分析のほとんどは、ベイズの考え方を議論として使用する傾向があります。実際、ほとんどの専門家はこれをベイズ統計だと考えていますが、実際には統計の仕組みから来ています (名前を除いて、ここには統計の煩雑な手続きはありません)。

しかし、量子力学が一般化された確率であるならば、代わりに QM にヒントを得たアプローチを使用したらどうなるでしょうか?いくつかの論文ではこの方向性を研究しようと試みており、その結果は見る価値があります。昨年の論文「量子クラスタリングとガウス混合」で、著者らは教師なし平均クラスタリングの使用について検討しました。報告書にはこう記されている。

したがって、ガウス混合モデルでは現れない量子のような干渉現象が観察されます。量子法はあらゆる点でガウス混合法よりも優れていることを示します。

両者の比較を図に示します。

騒音はどうなったんですか?

20 年前の実用的な量子確率論があるのに、なぜ 18 世紀のベイズ理論に固執するのでしょうか?

この記事で言及されている研究論文は、ディープラーニング アーキテクチャで複素数を使用すると「実際の」利点がもたらされることを証明しています。この研究では、複素数を使用すると、層間の勾配情報の伝播がより堅牢になり、メモリ容量が増加し、忘却動作がより正確になり、ネットワーク サイズが大幅に縮小され、GAN をトレーニングする際の安定性が向上することが示されています。これらの利点は単純に無視することはできません。どの層でも差別化は公平であるという、ディープラーニングの現在の主流の見解を受け入れるなら、おそらく多くのバリエーションを格納するネットワークでは複雑な分析を使用する必要があるでしょう。

複数形があまり使われない理由は、研究者がそれに慣れていないからかもしれません。最適化研究コミュニティでは、数学的な伝統に複素数は関係ありません。しかし、物理学者は複素数を常に使用しています。それらの虚数部分は量子力学において常に存在します。これは驚くべきことではなく、現実です。これらのディープラーニング システムがなぜそれほど有用なのかは、まだよくわかっていません。したがって、他の表現を探索すると、予期しないブレークスルーにつながる可能性があります。

この状況は近い将来に変わる可能性があります。最も高度な構造では複素数が頻繁に使用されるため、複素数を使用しないのは奇妙に思えるかもしれません。

オリジナルリンク: https://medium.com/intuitionmachine/should-deep-learning-use-complex-numbers-edbd3aac3fb8

<<:  機械学習を妨害する10のサイバー攻撃

>>:  知っておきたい!AI を活用したサイバー犯罪対策に機械学習を活用する方法

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

GenAI Security: Microsoft Copilot でデータ侵害を防ぐ方法

Microsoft の Copilot は、世界で最も強力な生産性向上ツールの 1 つと言われていま...

直接的な選好最適化戦略を用いたミストラル7bモデルの微調整

翻訳者|朱 仙中レビュー | Chonglou導入通常、事前トレーニング済みの大規模言語モデル (L...

人工知能(AI)と機械学習(ML)の最新動向

[[422288]]人工知能 (AI) には、分析モデルの構築を自動化する機械学習 (ML) を含む...

ヘルスケアに影響を与える5つのテクノロジートレンド

過去数年間、世界中の地域の医療システムは、他のほとんどの業界よりも大きな変化を遂げてきました。パンデ...

...

百度と東軟教育が共同で「東軟百度人工知能アカデミー」を設立し、AIの「人材不足」を打破

インテリジェント時代が加速しており、人工知能の人材はAIの発展を支える第一のリソースとして特に重要で...

遅めのエクスタシー!動画の動きがどんなに大きくても、写真はスムーズに主役の代わりを務めることができる|Meta & シンガポール国立大学

最後に家族は喜びました。今では、ビデオの主人公をたった 1 枚の写真に置き換えることができ、その効果...

交渉は失敗しました!ウルトラマンはOpenAIへの復帰に失敗し、Twitchの創設者が新CEOに就任

会談は決裂した。アルトマン氏はOpenAIを完全に離れることになる。反転しつつあるこの宮廷ドラマに関...

...

速報です!李菲菲の一番弟子カルパシーが辞任、テスラの自動運転は危機に瀕しているのか?

たった今、テスラはまた別の技術専門家を失いました!テスラAIのシニアディレクターであり、自動運転ビジ...

世界初の「サイボーグ」が死んだ!さようなら、ピーター 2.0

2020年、ピーター・スコット・モーガン博士はインターネットで話題になりました。人気の検索タイトル...

製造業における人工知能: 産業用 AI のユースケース

AspenTech 2020 Industrial AI Studyによると、大手工業企業の83%...

...

NLPモデル「包括的分析+評価ランキング」、CMUの最新ツールが優れたアイデアを見つけるのに役立ちます

[[396522]] CMU は、復旦大学とオハイオ州立大学の研究者と共同で、モデルの理解度分析と...