最も孤独なニューラル ネットワーク: たった 1 つのニューロンですが、「クローンをシャドウ」することができます

最も孤独なニューラル ネットワーク: たった 1 つのニューロンですが、「クローンをシャドウ」することができます

世界で最も先進的なニューラルネットワークモデルは何ですか?それは人間の脳に違いない。

人間の脳には860億個のニューロンがあります。ニューロンの組み合わせで形成されるニューラルネットワークは、性能において人工ニューラルネットワークを上回るだけでなく、驚くほど少ないエネルギーしか消費しません。

現在の AI システムは、できるだけ多くのニューロンをできるだけ小さなスペースに詰め込むことを目指して、多層ニューラル ネットワークを作成することで人間の脳を模倣しようとしています。

このアプローチによりパフォーマンスは向上しましたが、このような設計では大量の電力が必要になるだけでなく、出力結果も人間の脳に比べると劣ってしまいます。

推定によると、OpenAI はマイクロソフトのデータセンターで Nvidia GPU を使用して GPT-3 ニューラル ネットワークをトレーニングするために約 19 万キロワット時の電力を必要としており、これはデンマークの 126 世帯が 1 年間に使用する電力量に相当します。化石燃料によって生成される二酸化炭素量に換算すると、車で地球から月まで往復するのに相当します。

そして、ニューラル ネットワークの数と、膨大なデータセットを使用してニューラル ネットワークをトレーニングするために必要なハードウェアの量は、増加し続けています。 GPT を例にとると、GPT-3 にはすでに 1,750 億個のパラメータがあり、これは前身の GPT-2 の 100 倍に相当します。

この「大きいほど良い」というニューラル ネットワーク設計は、持続可能な科学的発展の概念とは明らかに一致していません。

ベルリン工科大学の学際的研究チームが最近、新しいタイプのニューラル「ネットワーク」を作成した。しかし、これをネットワークと呼ぶのは少々無理があります。なぜなら、このネットワークの目新しさは、ニューロンが 1 つしかないという点にあるからです。

研究者らは、あらゆる規模のディープニューラルネットワークを、複数の遅延フィードバックを持つ単一のニューロンループに折りたたむことができる新しい方法を提案した。この単一ニューロンのディープ ニューラル ネットワークには、単一の非線形性と適切に調整されたフィードバック信号のみが含まれており、スパース DNN を含む標準的なディープ ニューラル ネットワーク (DNN) を完全に表現し、DNN の概念を動的システムの実装に拡張できます。

Folded-in-time Fit-DNN とも呼ばれるこの新しいモデルは、ベンチマーク タスクのテストでもかなり優れたパフォーマンスを示しています。

一本の木だけでは森は作れないのでしょうか?

従来のニューラル ネットワークでは、空間的に相互に接続するために複数のノードを適用する必要がありますが、単一のニューロン モデルは時間次元で拡散的に接続されます。

研究者らが考案した多層フィードフォワード DNN の完全な時間的折り畳みには、フィードバック制御の遅延ループを備えた単一のニューロンのみが必要です。非線形操作を時間的に順序付けることにより、任意の深さまたは幅の DNN を実装できます。

GPT-3 のような従来のニューラル ネットワークでは、結果を微調整するために各ニューロンに重み値が割り当てられています。しかし、このアプローチでは通常、より多くのニューロンが生成され、その結果、より多くのパラメータが生成され、より多くのパラメータによってのみ、より正確な結果が得られます。

しかし、ベルリン工科大学のチームは、異なる重み付けをしたニューロンを空間全体に分散させるのではなく、同じニューロンを異なる時間に異なる重み付けをすることで、同様の機能を実現できることを発見しました。

宴会のように、席を素早く切り替えて、さまざまなゲストがさまざまな部分を話しているふりをすることで、テーブルでの会話をシミュレートできます。

少し「多重人格」のように聞こえますが、この時間的拡張により、1 人の人間 (ニューロン) が、複数の人間でしかできないことを達成できるようになります。

先ほど「高速」な切り替えについて言及したところ、ベルリン チームは、この表現はすでに控えめな表現だと述べました。

実際、彼らのシステムはレーザーを使用してニューロン内の時間ベースのフィードバック ループをアクティブ化します。理論的には宇宙の限界に近い速度、つまり光速またはそれに近い速度でニューラル ネットワークを切り替えることができます。

研究者らによると、これが人工知能にとって何を意味するかというと、極めて大規模なニューラルネットワークを訓練するためのエネルギーコストが大幅に削減される可能性があるということだ。

これを達成するために、研究者たちは、システムの状態が一般形の微分方程式に従って連続時間で進化すると仮定しました。

ここで、x(t) は時刻 t におけるニューロンの状態を表します。f は非線形関数であり、そのパラメーター a(t) はデータ信号 J(t)、時間変動バイアス b(t)、および関数 Md(t) によって変調された遅延フィードバック信号 x(t - τd) を組み合わせたものです。異なる遅延長 τd の複数のループを明示的に考慮することができます。フィードバック ループにより、システムはいわゆる遅延動的システムになります。

直感的に言えば、Fit-DNN のフィードバック ループにより、ニューロンは非線形性 f をすでに通過した情報を再導入し、非線形性 f を複数回連鎖させることができます。従来の DNN はニューロンを層ごとに使用してトレーニング可能な表現を構築しますが、Fit-DNN は同じニューロンにフィードバック信号を繰り返し導入することで同じ目的を達成します。

各パスでは、時間とともに変化するバイアス b(t) と遅延線上の変調 Md(t) によって、システムの時間的変化が望ましい方法で情報を処理することが保証されます。データ信号 J(t) と出力 y を取得するには、両方の変数に対して適切な前処理または後処理操作が必要です。

Fit-DNN が機能的に多層ニューラル ネットワークと同等であることをさらに説明するために、Fit-DNN が複数の遅延ループを持つ単一ニューロンのダイナミクスを DNN に変換できることがわかります。

x(t) の時間発展は長さ T の時間間隔に分割でき、各時間間隔は隠れ層をシミュレートします。各間隔で、N 個のポイントを選択します。小さな時間間隔 θ を持つ等距離の時間グリッドが使用されます。 N 個のノードを持つ隠れ層の場合、θ = T / N を導出できます。各時間グリッドポイントtn=nθにおいて、システム状態x(tn)が独立変数として取られます。各時間グリッドポイントtnはノードを表し、x(tn)はその状態を表します。さらに、データ信号J(t)、オフセットb(t)、変調信号Md(t)は、ステップサイズθのステップ関数であると仮定することができます。

研究者らは、非常にスパースなネットワークとして、まずFit-DNNを画像ノイズ除去タスクに適用しました。強度と分散が1のガウスノイズが、0(白)から1(黒)の間の値を持つベクトルとして扱われるFashion-MNISTデータセットの画像に追加されました。結果のベクトルエントリはしきい値 0 と 1 でクリップされ、ノイズの多いグレースケール画像が得られます。ノイズ除去のタスクは、ノイズの多いバージョンから元の画像を再構築することです。

実験結果では、オリジナルの Fashion-MNIST 画像、そのノイズバージョン、および再構築された画像の例を比較します。回復効果がかなり良いことがわかります。

しかし、Fit-DNN にとっての本当の疑問は、時間的に繰り返される単一のニューロンが数十億のニューロンと同じ結果を生成できるかどうかです。

Fit-DNN と時間状態の計算能力を実証するために、研究者は MNIST40、Fashion-MNIST41、CIFAR-10、CIFAR-100、SVHN の 5 つの画像分類タスクを選択しました。

この実験では、各隠れ層のノード数を N = 50、100、200、400 として、上記のタスクにおける Fit-DNN のパフォーマンスを比較します。結果から、比較的単純な MNIST および Fashion-MNIST タスクでは単一のニューロンが高い精度を達成したことがわかります。ただし、より難しい CIFAR-10、CIFAR-100、および SVHN タスクの精度は比較的低くなります。

これらの結果は、現在の SOTA モデルによって設定されたパフォーマンス記録と比較できるものではありませんが、まったく異なる新しいアーキテクチャで達成されています。特に、ここでの Fit-DNN は、重み行列の利用可能な対角線の半分のみを使用します。テストされたタスクでは、N を増やすとパフォーマンスが明らかに向上します。

科学者たちは、さらなる開発により、このシステムは時間次元における「無限の数」の神経接続にまで拡張できると考えている。

こうしたシステムは実現可能であり、人間の脳を超えて世界で最も強力なニューラルネットワークになる可能性があり、人工知能の専門家はこれを「スーパーインテリジェンス」と呼んでいるという。

<<:  模型の列車の速度を上げるコツは何でしょうか?まず、この問題の第一原理を理解しましょう。

>>:  コードを超高速で変更! GPT-3に編集機能とテキスト挿入機能が追加され、AIがあなたに代わって詩を書くことができる

推薦する

...

論文と新しいビデオはこちら、サウスイースト大学が「室温超伝導体」LK-99の奇妙な抵抗挙動を説明

最近、各国の科学者らが韓国の「常温超伝導」物質LK-99に関する研究を発表し、悲観的な見方をする人が...

...

スタンフォード大学の美容博士の起業プロジェクトは大成功! AIビデオ生成がトップストリーマーとしてデビュー

スタンフォード大学の中国人博士が休学して起業したところ、AI界でたちまち人気に!この新製品はAIによ...

AI が大学入試のエッセイのテーマを予測: 科学、形而上学、それとも誇大広告?

大学受験生にとって、出題される問題を全て知っていて、分からない問題の答えを暗記していることが一番幸せ...

デイリーアルゴリズム: 2 つのスタックを持つキューの実装

[[422522]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...

人工知能の世界における機械学習とディープラーニング

人工知能(AI)はAIと略されます。 AI は、機械に知能を持たせ、人間のように特定の問題を解決する...

アリババがコアテクノロジーを公開:推論性能が2位より5倍速く、4つの世界選手権で優勝した方法

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

静的な知識を動的にする: ナレッジグラフからファクトグラフへ

[[392524]]ソーシャル ネットワークには、有名な「6 次の隔たり理論」があります。 「世界中...

...

...

...

...

オッペンハイマーの「彼女は消えた」!物理学界のファーストレディ、呉健雄はマンハッタン計画の重要な問題を解決した

長い待ち時間を経て、ついに『オッペンハイマー』が国内で公開される。ノーラン監督は映画の細部と品質に細...

人工知能: 物理的セキュリティ業界における最大の破壊者

[[347792]]今日のセキュリティとテクノロジーの分野における大きなトレンドの 1 つは、世界中...