将来のディープラーニングの鍵はフォトニックコンピューティング

今日では、人間の直感を備えたコンピューターは、画像内の物体の認識、音声の書き起こし、外国語の翻訳、病状の診断、複雑なゲームのプレイ、車の運転など、さまざまな場面で使用されています。

これらの驚くべき発展を可能にした技術はディープラーニングと呼ばれ、人工ニューラルネットワークとして知られる数学モデルを指す用語です。ディープラーニングは機械学習のサブフィールドであり、複雑なモデルをデータに適合させることに基づくコンピューターサイエンスの分野です。

機械学習は長い間存在してきましたが、ディープラーニングが注目されるようになったのはごく最近のことです。幅広い分野で利用できる計算能力がますます高まるにつれ、大量のデータを簡単に収集し、ニューラルネットワークのトレーニングに使用できるようになります。

グラフィックス処理ユニット (GPU) が非グラフィックスコンピューティングに使用され始めた 2000 年頃から、コンピューティング能力が急速に向上し始めました。この傾向は、過去 10 年間でますます人気が高まっています。しかし、ディープラーニングの計算需要はさらに急速に高まっており、この動向により、エンジニアはディープラーニング専用の電子ハードウェアアクセラレータの開発を余儀なくされました。Google の TPU はその好例です。

この記事では、この問題に対する別のアプローチ、つまり光プロセッサを使用して電子ではなく光子でニューラルネットワークの計算を実行する方法を紹介します。

人工ニューロンは、ある種のデジタル電子コンピュータ上で実行される特別なソフトウェアを使用して構築されます。ソフトウェアは、特定のニューロンに対して複数の入力と 1 つの出力を提供します。各ニューロンの状態は、非線形関数 (活性化関数と呼ばれる) が適用された入力の加重合計によって決まります。最終的に、このニューロンの出力は他のさまざまなニューロンへの入力になります。

[[417023]]

このコンピューターレンダリングは、著者とその同僚が光を使用してニューラルネットワーク計算を実行するために設計したフォトニックチップ上のパターンを表しています。

ニューラルネットワークのエネルギー需要を減らすには、光コンピューティングの使用が必要になるかもしれない

計算効率を確保するために、ニューロンはグループ化され、データは隣接するグループ間で送信されます。科学計算は線形計算によって行われますが、ネットワークのサイズが大きくなるにつれて、ニューロンとグループの数が増加し、線形計算はますます複雑になります。現代のコンピュータハードウェアは行列演算に最適化されており、線形計算が高性能コンピューティングの基礎となっています。

ディープラーニングでは、ますます多くの乗算と累積の演算が必要になります。画像分類用に設計された画期的なディープニューラルネットワークである LeNet を例に挙げてみましょう。 1998 年には、手書きの文字と数字の認識において他の機械技術よりも優れていることが示されました。しかし、2012 年までに、ニューラルネットワーク AlexNet は、LeNet の 1,600 倍の乗算と累積の演算を実行できるようになり、画像内の何千もの異なる種類のオブジェクトを認識できるようになりました。

LeNet の初期の成功から AlexNet に移行するには、計算パフォーマンスを約 11 倍向上させる必要がありました。この 14 年間で、成長の大部分はムーアの法則によってもたらされました。ムーアの法則は頭打ちになっており、現在の課題はこの傾向を維持することであり、通常の解決策は、より多くのコンピューティングリソースと、より多くの時間、資金、エネルギーを問題に投入することです。

今日、大規模なニューラルネットワークをトレーニングすると、重要な環境要因が反映されることがよくあります。たとえば、2019 年のある事例では、自然言語処理用のディープニューラルネットワークをトレーニングすると、自動車のライフサイクル全体にわたって自動車を運転する際に通常発生する CO2 排出量の 5 倍が発生することが判明しました。

デジタル電子コンピュータの改良によりディープラーニングが普及したことは否定できない。しかし、これはニューラルネットワーク計算を行う唯一の方法がそのようなマシンを使用することだという意味ではありません。数十年前、デジタルコンピューターがまだ比較的原始的だった頃、一部のエンジニアは難しい計算を解くためにアナログコンピューターを使用していました。デジタル電子機器が進歩するにつれて、それらのアナログコンピュータは時代遅れになりました。特にアナログ計算を光学的に実行できるようになった今こそ、この戦略を再び採用する時期かもしれません。

光ファイバーは電線よりも高いデータレートをサポートできます。そのため、1970 年代後半から、すべての長距離通信回線は光ファイバーになりました。それ以来、光データリンクは、データセンターのエンドツーエンド通信に至るまで、ますます短いスパンで銅線に取って代わりました。光データ通信はより高速で、消費電力も少なくなります。光コンピューティングにも同じ利点があります。

しかし、データを通信することと、それを使用して計算することの間には大きな違いがあります。ここで、アナログ光学アプローチは行き詰まります。従来のコンピューターはトランジスタをベースにしていますが、トランジスタは高度に非線形な回路要素であり、出力が入力に単純に比例するわけではありません。非線形アルゴリズムはトランジスタ上でスイッチングコマンドを実行しますが、ロジックコマンドの実行は通常、電子デバイスによって行われます。しかし、光子はマクスウェル方程式に従うため、光学装置の出力は一般に入力に比例します。

これがどのように実現されるかを説明するために、ここでは、いくつかの単純なアナログ電子機器と組み合わせると 2 つの行列を乗算できるフォトニックデバイスについて説明します。この乗算は、1 つの行列の行と別の行列の列を結合します。

光コンピューティングはより高速で、消費電力も少ない

この装置の基本的な計算ユニットはビームスプリッターと呼ばれる光学素子で、45 度の角度の半銀鏡として考えることができます。側面から光線を送ると、ビームスプリッターにより光の半分がまっすぐに通過し、残りの半分は角度のついたミラーで反射して、入射光線に対して 90 度で跳ね返ります。

次に、最初の光線に対して垂直に 2 番目の光線をこのビームスプリッターに照射し、角度の付いたミラーの反対側に当たるようにします。この 2 番目のビームの半分も同様に透過され、90 度の角度で反射されます。 2 つの出力ビームは、最初のビームの 2 つの出力と結合されます。したがって、このビームスプリッターには 2 つの入力と 2 つの出力があります。

この装置を使用して行列乗算を実行するには、乗算する 2 つの数値に比例する電界強度を持つ 2 つの光線を生成する必要があります。これらの磁場の強さを x と y と呼びます。次に、これら 2 つのビームはビームスプリッターに送られ、そこで 2 つのビームが結合されます。この特定のビームスプリッタは、電界値が ( x + y )/√2 と ( x ? y )/√2 の 2 つの出力を生成します。

このアナログ乗算器には、ビームスプリッターに加えて、2 つの出力ビームを測定するための 2 つの単純な電子部品 (光検出器) が必要です。ここでは、これらのビームの電界強度は測定されませんが、電界強度の 2 乗に比例するビームの電力が測定されます。

つまり、ある数値をある強度の光線としてエンコードし、別の数値を別の強度の光線としてエンコードし、これらをこのようなビームスプリッターに通して、2 つの出力を光検出器で測定し、結果として得られる電気信号の一部を相殺してから加算すると、2 つの数値の積に比例する信号が得られます。

出力信号はコンデンサに送られ、パルスが続く限り電荷が蓄積されます。次に、入力は同じ期間だけ再度パルスされ、今度は乗算される 2 つの新しい数値がエンコードされます。このプロセスは複数回繰り返す必要があり、そのたびに乗算と累積の演算を実行します。

最も電力を消費する部分は、このコンデンサの両端の電圧を読み取る部分であり、これにはアナログ-デジタルコンバータが必要です。ただし、すべてのパルスの後にこれを行う必要はありません。たとえば、一連の N パルスが終了するまで待つことができます。これは、N が小さいか大きいかに関係なく、デバイスが同じエネルギーを使用して N 回の乗算累算演算を実行し、答えを読み取ることができることを意味します。ここで、N はニューラルネットワークの各層のニューロンの数に対応します。

同じ値が複数のニューロンへの入力として使用されることが多いためです。この数値を何度も光に変換する代わりに（そのたびにエネルギーを消費する）、一度だけ変換し、結果として得られるビームを多数のチャネルに分割することができます。このようにして、入力変換のエネルギーコストを多くの操作にわたって償却することができます。

光線を複数のチャネルに分割するのは光学レンズほど複雑ではありませんが、レンズをチップ上に配置するのは難しいです。したがって、ニューラルネットワークの計算を光学的に実行するために開発されているデバイスは、最終的には高度に統合されたフォトニックチップと個別の光学コンポーネントを組み合わせたハイブリッドになる可能性があります。

フォトニクスはディープラーニングを桁違いに加速させる可能性を秘めている

光コンピューティング技術には克服すべき課題がまだ多く残っています。 1つは、電子機器に必要な効果を実現するために、アナログ光学計算の精度とダイナミックレンジを向上させることです。これらの光プロセッサは、さまざまなノイズ源の影響を受け、データの入出力に使用されるデジタル-アナログコンバータおよびアナログ-デジタルコンバータの精度が限られています。これには、特にニューラルネットワークのトレーニングにおいて、より高い精度が必要です。

光学部品をチップに統合するのも困難です。これらのコンポーネントは数十ミクロンの大きさなので、トランジスタほど密集させることができず、必要なチップ面積が急速に増加します。 2017 年に MIT の研究者が行ったこのアプローチのデモンストレーションでは、1.5 ミリメートルの辺の長さのチップが使用されましたが、最大のチップでも数平方センチメートル以下であるため、この方法で並列処理できるマトリックスのサイズには制限があります。

理論的には、フォトニクスはディープラーニングを数桁高速化する可能性があります。さまざまなコンポーネント (光変調器、検出器、増幅器、アナログ - デジタルコンバーター) に現在利用可能なテクノロジに基づくと、ニューラルネットワークの計算は、今日の電子プロセッサよりも 1,000 倍のエネルギー効率を実現できると想定するのが妥当です。

アナログ光コンピューティングの多くの概念は数十年前から存在しています。中にはシリコンコンピュータよりも古いものもあります。光行列乗算、さらには光ニューラルネットワークの方式は、1970 年代に初めて実証されました。しかし、このアプローチは普及しませんでした。今回は違うでしょうか? おそらく、3 つの理由から違うでしょう。

まず第一に、ディープラーニングは単なる学術的な理論的知識ではなく、実生活で利用されるようになりました。第二に、電子製品を継続的に改良するためには、ムーアの法則だけに頼ることはできません。最後に、統合フォトニクスという新しいテクノロジーをご紹介します。これらの要因は、光ニューラルネットワークがディープラーニングにとって計算上重要な技術になることを示唆しています。

<<: エレクトロニック・アーツは、人工知能によってゲームキャラクターがよりリアルになると述べている

>>: よく使われる4つの推奨アルゴリズムの一覧