量子畳み込みネットワークにおける「不毛のプラトー」現象が解決され、新たな研究により量子AIの大きな問題が克服された

量子畳み込みネットワークにおける「不毛のプラトー」現象が解決され、新たな研究により量子AIの大きな問題が克服された

量子コンピュータの出現は、コンピュータ分野に多くの進歩をもたらしました。量子コンピュータ上で実行される畳み込みニューラル ネットワークも、従来のコンピュータよりも量子データをより適切に分析できる可能性を秘めていることから、大きな注目を集めています。量子ニューラル ネットワーク (QNN) は、物理シミュレーション、最適化などの用途を持つ、最も有望なアーキテクチャの 1 つと考えられています。

QNN の大きな可能性にもかかわらず、多くの QNN アーキテクチャは「不毛のプラトー」現象に悩まされていることが示されています。この現象では、コスト関数の勾配がシステムのサイズとともに指数関数的に消失し、QNN アーキテクチャが大規模な問題に対してトレーニングできなくなります。

最近、ロスアラモス国立研究所 (LANL) とユニバーシティ・カレッジ・ロンドンの研究者らは、不毛なプラトーを持たない特定の QNN アーキテクチャを構築しました。研究論文「量子畳み込みニューラルネットワークにおける不毛なプラトーの不在」が PHYSICAL REVIEW X に掲載されました。

論文アドレス: https://journals.aps.org/prx/pdf/10.1103/PhysRevX.11.041011

ロスアラモス国立研究所 (LANL) とユニバーシティ・カレッジ・ロンドンによるこの研究では、最近提案された量子畳み込みニューラルネットワーク (QCNN) アーキテクチャにおけるパラメータの勾配スケーリングを厳密に分析します。研究では、勾配の分散が多項式よりも速く消失しないことが分かりました。これは、QCNN が不毛なプラトー現象を経験しなかったことを意味します。この結果は、ランダム初期化による QCNN のトレーニング可能性に対する解析的保証を提供し、QCNN がランダム初期化でトレーニング可能であるという点で他の多くの QNN アーキテクチャとは異なることを強調しています。

勾配消失問題を回避する

その解析結果を得るために、本研究では、ハール分布ユニタリーの期待値を解析する新しいグラフベースの方法を提案しました。これは非常に効果的な方法である可能性があります。最後に、この研究では数値シミュレーションを使用して分析結果を検証しました。

QCNN アーキテクチャ

QCNN アーキテクチャには、データの特性に関する情報を保持しながら量子ビットの数を削減する一連の畳み込み層とプーリング層が含まれます。

下の図 1 に示すように、QCNN アーキテクチャは、ヒルベルト空間 H_in 内の n 量子ビットの入力状態 ρ_in を入力として受け取り、一連の畳み込み層とプーリング層で構成される回路に送ります。畳み込み層は、隣接する量子ビットの交互のペアに作用する、パラメーター化された 2 量子ビット ゲートの 2 列で構成されます。各プーリング層では、量子ビットの半分が測定され、これらの測定結果によって隣接する量子ビットに適用されるユニタリが制御されます。 QCNN には、L 畳み込み層とプーリング層の後に、残りの量子ビットにユニタリを適用する完全接続層も含まれます。最後に、あるエルミート演算子 O の期待値を測定します。

QCNN アーキテクチャ図

この研究では、QCNN の入力状態をヒルベルト空間の縮小状態にマッピングします。ここで、H_out の次元は H_in の次元よりもはるかに小さくなります。出力ステータスは次のように表現されます。

ここで、V(θ) は畳み込み層とプーリング層、および完全接続層のゲートを含むユニタリであり、θ は H_out を除くすべての量子ビットの部分トレースを表すトレーニング可能なパラメータのベクトルです。 QCNN の非線形性はプーリング層内のプーリング演算子に起因し、各層の自由度を実質的に低下させることに注意してください。

コスト関数

QCNNの目標は、入力状態を含むトレーニングセットS(サイズM = |S|)を適用して、QCNNのパラメータを最適化し、コスト関数を最小化することです。これは次のように表すことができます。

ここでc_αは下式(1)から得られる実係数であり、各入力状態はρ_inである。

仮説

簡潔にするために、この研究では主に n=2^k および L=log(n)=k の 2 つのケースを検討します。したがって、dim(H_out)=2 となります。さらに、この研究では、畳み込み層とプーリング層のユニタリが独立していると仮定しています。つまり、V(θ)の畳み込み層と完全結合層は、隣接する量子ビットに作用する2つの量子ビットパラメータ化されたユニタリブロックで構成され、 と表記されます。

研究者らは、この一般化には、同じ畳み込み層またはプーリング層内のブロックが同一である特殊なケースとして、一般的な QCNN 構造が含まれていると指摘しています。さらに、研究者らは論文の結果のセクションで、畳み込み層におけるユニタリー相関がコスト関数の勾配振幅を増加させる傾向があることを論じました。

式(13)に示すように、コスト関数の偏微分の分散はI_ijの制御されたユニタリに依存しないため、プーリング層における演算子I_ijの効果は畳み込み層におけるユニタリの効果に結びつくことができる。したがって、QCNN のテンソル ネットワーク表現を以下の図 2 に示します。

QCNNのテンソルネットワーク表現

さらに、この研究では、GRIM と呼ばれる分散スケーリングを分析するための新しい方法を提案しました。

QCNNアーキテクチャのGRIMモジュール

この研究の意義は何ですか?

QCNN は人工知能の手法として視覚皮質にヒントを得たもので、データセットの重要な特徴を保持しながらデータの次元を削減する一連の畳み込み層とプーリング層を伴います。これらのニューラル ネットワークは、画像認識から材料の発見まで、さまざまな問題を解決するために使用できます。不毛なプラトーを克服することが、AI アプリケーションにおける量子コンピュータの潜在能力を最大限に引き出し、従来のコンピュータに対する優位性を実証するための鍵となります。

論文の共著者の一人であるマルコ・セレゾ氏は、これまで量子機械学習の研究者らは不毛のプラトーの影響を軽減する方法を分析してきたが、それを完全に回避するための理論的根拠が欠けていたと述べた。 LANL の研究は、一部の量子ニューラル ネットワークが実際には不毛なプラトーの影響を受けないことを示している。

「この保証により、研究者は量子システムに関する量子コンピュータのデータを精査し、その情報を物質特性の研究や新素材の発見などに活用できるようになる」とLANLの量子物理学者パトリック・コールズ氏は述べた。

物理学者たちは40年以上もの間、量子コンピュータが量子粒子システムのシミュレーションと理解に役立ち、従来の古典的コンピュータに取って代わると信じてきた。 LANL の研究は、量子シミュレーション データの分析への応用が期待される、堅牢なタイプの量子畳み込みニューラル ネットワークを実証しています。

「レーザーに関する有名な引用があります。レーザーが初めて発見されたとき、人々はそれが問題解決の手段だと言いました。現在、レーザーはあらゆるところで使用されています。同様に、量子データが高度に利用可能になるかどうかについては、多くの人が疑念を抱いています。これは、量子機械学習も普及する可能性があることを意味します」とコールズ氏は語った。

参考リンク: https://discover.lanl.gov/news/releases/1015-quantum-ai

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  自動運転に関する期限の問題

>>:  IoTセキュリティ戦略における機械学習の重要性

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

アリババの音声ロボットが李佳琦の生放送室に登場、その応答速度はSiriの20倍

10月30日、終了したばかりの李佳琦のライブ放送室で、オンラインショッピング客はアリババの音声ロボッ...

...

現在、CIOは企業におけるGenAIの応用価値を慎重に検討している。

ほとんどの CIO は、自社のビジネスがテクノロジーのトレンドに追いつくために GenAI の検討を...

2019 年に CIO が AI 導入をリードできる 5 つの方法

[[261760]]詳細な宿題のレビューからバックオフィスの自動化まで、AI の進歩は今後 1 年間...

遺伝的アルゴリズムとPython実装におけるいくつかの異なる選択演算子

序文この論文では、遺伝的アルゴリズムにおけるいくつかの選択戦略についてまとめています。比例ルーレット...

...

車チームは解散です!アップルの自動車製造の8年間の夢がまたも打ち砕かれる

Apple Carはまた失敗するのでしょうか?最近、著名なアナリストのミンチー・クオ氏が自身のツイッ...

...

機械学習の理論的基礎はどの程度しっかりしているのでしょうか?

機械学習の分野では、いくつかのモデルが非常に効果的ですが、その理由は完全にはわかっていません。逆に、...

OpenAIの仮説が覆される!計算量を考慮すると、小さいモデルの方が大きいモデルよりも優れています。Llama 2 のトレーニングは GPU コンピューティングに関連しています。

モデルを推論する際には、収束が遅いために計算能力を無駄にしないようにすることが重要です。孫子の兵法に...

スマートビルディング技術のトレンド: 5つの将来のアイデアと例

1. 拡張現実(AR)建築の世界では、拡張現実と仮想現実が岐路に立っています。 AR はコンピュータ...

TensorFlow 2.0 中国語オープンソースブックプロジェクト: 1 日あたり 700 件の「いいね!」を獲得、GitHub のホットリストに

TensorFlow2.0の正式版がリリースされてからしばらく経ちますが、それに関連する体系的なチュ...

...