Nature: 光コンピューティングと AI 推論を統合して高速かつ高帯域幅の AI コンピューティングを実現

電子コンピューティングと比較すると、光コンピューティングは高速、高帯域幅、低消費電力という利点があります。しかし、光コンピューティングはまだ十分に成熟しておらず、特定の分野で非常に限定的にしか使用されていません。最近、Nature 誌の Perspective 記事では、ディープ光学とディープフォトニクスの人工知能推論アプリケーションが分析され、この分野（特に光電気ハイブリッドシステム）の開発可能性が実証されました。

さまざまなアプリケーションで AI タスクを高速かつ低消費電力で実行するには、アクセラレータが必要です。光コンピューティングシステムはこれらの分野の特定のニーズを満たすことができるかもしれませんが、半世紀にわたる研究を経ても、汎用光コンピューティングシステムはまだ成熟した実用的な技術には発展していません。ただし、特にビジュアルコンピューティングアプリケーションにおける AI 推論は、光学およびフォトニクスシステムに基づく推論の機会を提供する可能性があります。

この記事では、人工知能のための光コンピューティングに関する最近の研究結果をレビューし、その可能性と課題を探ります。

コンピューティングシステムの機能は、解釈しようとする視覚データの量が急速に増加していることと競争状態にあります。計算イメージングシステムは、自動運転、ロボットビジョン、スマートホーム、リモートセンシング、顕微鏡検査、監視、防衛、モノのインターネットなど、多岐にわたるアプリケーションで、これまでにない量のデータを記録および処理します。このデータの解釈は人間が行うことはできず、人工知能 (AI) に基づいて構築されたアルゴリズムを使用する必要があります。

これらのアプリケーションの中で、ディープニューラルネットワーク (DNN) は、視覚データ処理の標準的なアルゴリズム手法として急速に普及しつつあります。これは主に、DNN が多くのベンチマークで最先端の結果を達成し、他の方法を大幅に上回るパフォーマンスを発揮することがよくあるためです。ディープラーニングにおける最近の進歩は、主に最新のグラフィックスプロセッシングユニット (GPU) の強力な処理能力と並列コンピューティング機能、および大規模なビジュアルデータセットの利用可能性によるものです。これらの進歩により、教師あり機械学習戦略を使用して DNN を効率的にトレーニングできるようになりました。

しかし、ますます複雑化するニューラルネットワークを実行するハイエンド GPU やその他のアクセラレータでは、高い電力と帯域幅の要件があり、処理時間が長く、フォームファクタも大きくなります。これらの制限により、カメラ、自律走行車、ロボット、IoT 周辺機器などのエッジデバイスで DNN を使用することは困難になります。自動運転車のビジョンシステムを例に挙げてみましょう。限られたコンピューティングリソースを使用して、安定した信頼性の高い決定をリアルタイムで下す必要があります。車が高速で走行しているとき、一瞬の判断が生死を分けることがあります。実際、ほぼすべてのエッジデバイスは、計算イメージングシステムの合理化によってレイテンシが低減し、サイズ、重量、消費電力が改善されることでメリットを得ることができます。

DNN は通常、トレーニングと推論の 2 つの段階で構成されており、これら 2 つの段階の計算要件は大きく異なります。トレーニングフェーズでは、多数のラベル付きサンプルが DNN に入力され、特定のタスクに対して反復的な方法を使用して DNN のパラメーターが最適化されます。トレーニングが完了すると、DNN を使用して推論を実行できます。つまり、データ (画像など) が順方向にネットワークに入力され、ネットワークがそれを処理して目的の結果を計算します。一部のアプリケーションでは推論を実行するために GPU を使用しますが、多くのエッジデバイスでは、上記の理由により GPU を使用することは現実的ではありません。

電子 AI アクセラレータは柔軟性がありますが、光ニューラルネットワーク (ONN) とフォトニック回路は、このアプリケーションやその他の機械学習アプリケーションにパラダイムシフトをもたらす可能性があります。光コンピューティングシステムは、より小さなデバイスサイズで、また一部の実装では非常に低い消費電力で、大規模な並列コンピューティングを可能にする可能性を秘めています。実際、光を使用してコンピューティングシステムでの通信を可能にする光相互接続テクノロジは、今日のデータセンターですでに広く使用されており、コンピューティングシステムのより深い部分で光相互接続の使用が増えることが、継続的な拡張の鍵となる可能性があります。

電気相互接続技術とは異なり、光、光電子、電子デバイスのより深い統合により、光相互接続は、通信ビットあたりの帯域幅密度とエネルギー消費を数桁改善することが期待されています。この改良された相互接続技術により、電気光学ハイブリッド DNN の実装が可能になり、この低電力で高度な並列統合技術は、アナログ光プロセッサのコンポーネントとしても使用できます。

光コンピュータの大きな可能性と約半世紀にわたる研究にもかかわらず、汎用光コンピューティングはまだ成熟した実用的な技術ではありません。ただし、推論タスク、特にビジュアルコンピューティングアプリケーションの推論タスクは、すでに全光学式またはハイブリッド光電子システムを使用して適切に実装できます。たとえば、線形光学では、畳み込み、フーリエ変換、ランダム投影、その他多くの演算をほぼ「無料で」計算できます。これは、これらの演算が光と物質の相互作用や光の伝播の副産物として発生するためです。これらの操作は、DNN アーキテクチャの基本的な構成要素であり、最新のビジョンコンピューティングアルゴリズムのほとんどを駆動します。これらの操作を、ほとんどまたはまったく電力を消費せずに光速で実行できる可能性があります。この記事は、これが変革の可能性を秘めていると主張しています。

光コンピューティングの歴史を振り返る

下の図 1 は、AI と関連する光学およびフォトニクスの実装のタイムラインを示しています。最近の進歩に焦点を当て、厳選されたマイルストーンや論文を紹介します。

具体的な年は以下の通りです。

1949年ドナルド・O・ヘブが『行動の組織化』を出版
1957年、フランク・ローゼンブラットはパーセプトロンを提案した。
1960年にウィドローとホフは適応スイッチング回路を提案した。
1964年、ルグトは光学相関を提案した。
1982年にジョン・ホップフィールドはホップフィールドネットワークを提案し、コホネンは自己組織化特徴マップを提案した。
1984年、グッドマンらは「VLSIシステムのための光相互接続」という論文を発表した。
1985年に、Farhatらは「ホップフィールドモデルの光学的実装」という論文を発表しました。
1986 年に、Rumelhart らはバックプロパゲーションを使用した多層パーセプトロンを提案しました。
1990 年に、LeCun らは CNN を使用してデジタル文字認識を実現し、Psaltis らは非線形光反応性結晶の光ニューラルネットワーク (ONN) を使用しました。
2006年にヒントンとサラクディノフはディープオートエンコーダを提案した。
2012年にKrizhevksyらは深層CNNを提案した。
2017 年に Shen らはナノフォトニック回路を使用したディープラーニングを提案し、Tait らはニューロモルフィックフォトニックネットワークを提案しました。
2018年にChangらは光学CNNを提案し、Linらは全光回折ニューラルネットワークを提案した。
2019年、Feldmanらは高帯域幅の光子ニューラルシナプスネットワークを提案しました。

人工知能のための光子回路

最新の DNN アーキテクチャは、線形レイヤーのカスケードとそれに続く非線形アクティベーション関数で構成され、これが何度も繰り返されます。線形層の最も一般的な形式は、完全接続層です。この場合、各出力ニューロンはすべての入力ニューロンの加重合計になります。数学的には、これは行列とベクトルの乗算として表現でき、光学技術を使用して効率的に実装できます。つまり、光子回路を使用して人工知能関連の計算を実行できるということです。しかし、関連技術には、プログラミング可能性など、解決すべき問題がまだ残っています。

自由空間、レンズ、複雑なメディアを使ったコンピューティング

フォトニック回路に代わる方法があります。それは、自由空間または何らかの媒体を伝播する光場上に直接計算能力を構築することです。 (下の図 2 を参照) 数学的には、自由空間を伝播する波はキルヒホッフの回折積分によって記述することができ、これはフィールドを固定カーネルで畳み込むことと同等です。この操作は、最も一般的に使用されているビジュアルコンピューティングフレームワークである畳み込みニューラルネットワーク (CNN) の基本的な構成要素です。

図 2: 光波伝播の概要。図に示すように、上段は自由空間およびさまざまな媒体における波の伝播を示し、下段は対応する線形行列演算を示します。ここで、a は自由空間を伝わる波の場合であり、数学的には波動場と複素数値カーネルの畳み込みとして記述されます。 bg は異なる媒体を使用するため、独自の異なるマトリックスを持ちます。

深層計算光学と画像化を用いて推論を実行する

計算イメージングの分野では、計算カメラの機能強化などのアプリケーションに使用できる光学系と画像処理の共同設計を研究します。カメラをエンコーダー/デコーダーシステムとして説明すると役立ちます。したがって、カメラ設計の問題は、光学と画像処理のエンドツーエンドの最適化問題として全体的な観点から見ることができます。したがって、物理レンズとディープニューラルネットワークは、損失関数とトレーニングデータセットを介して定義された特定のタスクに合わせて共同で最適化できます。（下図3参照）

図 3: 光学エンコーダ - 電子デコーダシステムの概略図。センサーはボトルネックとして機能し、角度、波長スペクトル、露出時間、位相、その他の入射光メトリックを統合します。フリーフォームレンズまたはカスタムセンサーエレクトロニクスは、特定のタスクに合わせてオフラインで最適化し、その後、画像コードを光学的および電子的に記録するように処理できます。その後、ニューラルネットワークまたはその他の微分可能な画像処理アルゴリズムを使用して、観察結果から必要な情報を抽出できます。これらのエンコーダーとデコーダーを組み合わせることで、光電気ハイブリッドニューラルネットワークが形成されます。

光学操作の原理は、データ記録を処理する電子プラットフォームと連携して動作するプリプロセッサまたはコプロセッサというコンピューティングの一形態として解釈することもできます。この理解に基づいて、光学コンポーネントに可能な限り多くの作業を実行させることで、計算イメージングシステムの待ち時間と電力要件を最適化できます。

顕微鏡の用途

光学顕微鏡も、コヒーレントイメージング、明視野顕微鏡、蛍光顕微鏡など、複数の手法にわたって、ディープラーニング手法がすでに大きな影響を与えている分野です。顕微鏡画像の再構成と強調の逆問題を解決することは、何十年もの間、注目されている研究テーマです。これまでの方法の鍵は、画像システムの順方向モデルを確立することです。ディープラーニングに基づくデータ駆動型の方法は、光学顕微鏡の逆問題を解決するためのもう 1 つのアプローチです。

図 4: 深層光学およびフォトニクスの応用例 I. a. 光学画像分類、b. ハイブリッド光電子画像分類、c. 疑似ランダム投影を使用した画像分類、d. 仮想染色、e. 仮想再フォーカス。

図 5: 深層光学およびフォトニクスのアプリケーションの例 I. a. シングルピクセルカメラ、b. ビデオ超解像度用ニューラルセンサー、c. ナノフォトニック回路、d. フォトニック集積回路、e. 光干渉計、f. 逆設計不均質媒体。

将来に向けて

この記事では、ハイブリッド光電気コンピューティングシステムがこの分野で最も有望な方向性であると考えています。ハイブリッドシステムは、光コンピューティングの帯域幅と速度の利点と電気コンピューティングの柔軟性を組み合わせ、アナログおよびデジタルの光/光電子/電子システムのエネルギー効率の高い技術基盤も活用します。ハイブリッド光電気推論マシンは、AI 推論をコンピュータービジョン、ロボット工学、顕微鏡検査、その他の視覚コンピューティングタスクに適用できるため、光コンピューターがずっと前から備えるべきだった変革機能を実現できます。

<<: 人工知能とはいったい何でしょうか?映画の中で人類の支配は起こるのでしょうか？答えはここにあります

>>: AI は予測分析にどのように役立ちますか?