最も孤独なニューラル ネットワーク: たった 1 つのニューロンですが、「クローンをシャドウ」することができます

最も孤独なニューラル ネットワーク: たった 1 つのニューロンですが、「クローンをシャドウ」することができます

世界で最も先進的なニューラルネットワークモデルは何ですか?それは人間の脳に違いない。

人間の脳には860億個のニューロンがあります。ニューロンの組み合わせで形成されるニューラルネットワークは、性能において人工ニューラルネットワークを上回るだけでなく、驚くほど少ないエネルギーしか消費しません。

現在の AI システムは、できるだけ多くのニューロンをできるだけ小さなスペースに詰め込むことを目指して、多層ニューラル ネットワークを作成することで人間の脳を模倣しようとしています。

このアプローチによりパフォーマンスは向上しましたが、このような設計では大量の電力が必要になるだけでなく、出力結果も人間の脳に比べると劣ってしまいます。

推定によると、OpenAI はマイクロソフトのデータセンターで Nvidia GPU を使用して GPT-3 ニューラル ネットワークをトレーニングするために約 19 万キロワット時の電力を必要としており、これはデンマークの 126 世帯が 1 年間に使用する電力量に相当します。化石燃料によって生成される二酸化炭素量に換算すると、車で地球から月まで往復するのに相当します。

そして、ニューラル ネットワークの数と、膨大なデータセットを使用してニューラル ネットワークをトレーニングするために必要なハードウェアの量は、増加し続けています。 GPT を例にとると、GPT-3 にはすでに 1,750 億個のパラメータがあり、これは前身の GPT-2 の 100 倍に相当します。

この「大きいほど良い」というニューラル ネットワーク設計は、持続可能な科学的発展の概念とは明らかに一致していません。

ベルリン工科大学の学際的研究チームが最近、新しいタイプのニューラル「ネットワーク」を作成した。しかし、これをネットワークと呼ぶのは少々無理があります。なぜなら、このネットワークの目新しさは、ニューロンが 1 つしかないという点にあるからです。

研究者らは、あらゆる規模のディープニューラルネットワークを、複数の遅延フィードバックを持つ単一のニューロンループに折りたたむことができる新しい方法を提案した。この単一ニューロンのディープ ニューラル ネットワークには、単一の非線形性と適切に調整されたフィードバック信号のみが含まれており、スパース DNN を含む標準的なディープ ニューラル ネットワーク (DNN) を完全に表現し、DNN の概念を動的システムの実装に拡張できます。

Folded-in-time Fit-DNN とも呼ばれるこの新しいモデルは、ベンチマーク タスクのテストでもかなり優れたパフォーマンスを示しています。

一本の木だけでは森は作れないのでしょうか?

従来のニューラル ネットワークでは、空間的に相互に接続するために複数のノードを適用する必要がありますが、単一のニューロン モデルは時間次元で拡散的に接続されます。

研究者らが考案した多層フィードフォワード DNN の完全な時間的折り畳みには、フィードバック制御の遅延ループを備えた単一のニューロンのみが必要です。非線形操作を時間的に順序付けることにより、任意の深さまたは幅の DNN を実装できます。

GPT-3 のような従来のニューラル ネットワークでは、結果を微調整するために各ニューロンに重み値が割り当てられています。しかし、このアプローチでは通常、より多くのニューロンが生成され、その結果、より多くのパラメータが生成され、より多くのパラメータによってのみ、より正確な結果が得られます。

しかし、ベルリン工科大学のチームは、異なる重み付けをしたニューロンを空間全体に分散させるのではなく、同じニューロンを異なる時間に異なる重み付けをすることで、同様の機能を実現できることを発見しました。

宴会のように、席を素早く切り替えて、さまざまなゲストがさまざまな部分を話しているふりをすることで、テーブルでの会話をシミュレートできます。

少し「多重人格」のように聞こえますが、この時間的拡張により、1 人の人間 (ニューロン) が、複数の人間でしかできないことを達成できるようになります。

先ほど「高速」な切り替えについて言及したところ、ベルリン チームは、この表現はすでに控えめな表現だと述べました。

実際、彼らのシステムはレーザーを使用してニューロン内の時間ベースのフィードバック ループをアクティブ化します。理論的には宇宙の限界に近い速度、つまり光速またはそれに近い速度でニューラル ネットワークを切り替えることができます。

研究者らによると、これが人工知能にとって何を意味するかというと、極めて大規模なニューラルネットワークを訓練するためのエネルギーコストが大幅に削減される可能性があるということだ。

これを達成するために、研究者たちは、システムの状態が一般形の微分方程式に従って連続時間で進化すると仮定しました。

ここで、x(t) は時刻 t におけるニューロンの状態を表します。f は非線形関数であり、そのパラメーター a(t) はデータ信号 J(t)、時間変動バイアス b(t)、および関数 Md(t) によって変調された遅延フィードバック信号 x(t - τd) を組み合わせたものです。異なる遅延長 τd の複数のループを明示的に考慮することができます。フィードバック ループにより、システムはいわゆる遅延動的システムになります。

直感的に言えば、Fit-DNN のフィードバック ループにより、ニューロンは非線形性 f をすでに通過した情報を再導入し、非線形性 f を複数回連鎖させることができます。従来の DNN はニューロンを層ごとに使用してトレーニング可能な表現を構築しますが、Fit-DNN は同じニューロンにフィードバック信号を繰り返し導入することで同じ目的を達成します。

各パスでは、時間とともに変化するバイアス b(t) と遅延線上の変調 Md(t) によって、システムの時間的変化が望ましい方法で情報を処理することが保証されます。データ信号 J(t) と出力 y を取得するには、両方の変数に対して適切な前処理または後処理操作が必要です。

Fit-DNN が機能的に多層ニューラル ネットワークと同等であることをさらに説明するために、Fit-DNN が複数の遅延ループを持つ単一ニューロンのダイナミクスを DNN に変換できることがわかります。

x(t) の時間発展は長さ T の時間間隔に分割でき、各時間間隔は隠れ層をシミュレートします。各間隔で、N 個のポイントを選択します。小さな時間間隔 θ を持つ等距離の時間グリッドが使用されます。 N 個のノードを持つ隠れ層の場合、θ = T / N を導出できます。各時間グリッドポイントtn=nθにおいて、システム状態x(tn)が独立変数として取られます。各時間グリッドポイントtnはノードを表し、x(tn)はその状態を表します。さらに、データ信号J(t)、オフセットb(t)、変調信号Md(t)は、ステップサイズθのステップ関数であると仮定することができます。

研究者らは、非常にスパースなネットワークとして、まずFit-DNNを画像ノイズ除去タスクに適用しました。強度と分散が1のガウスノイズが、0(白)から1(黒)の間の値を持つベクトルとして扱われるFashion-MNISTデータセットの画像に追加されました。結果のベクトルエントリはしきい値 0 と 1 でクリップされ、ノイズの多いグレースケール画像が得られます。ノイズ除去のタスクは、ノイズの多いバージョンから元の画像を再構築することです。

実験結果では、オリジナルの Fashion-MNIST 画像、そのノイズバージョン、および再構築された画像の例を比較します。回復効果がかなり良いことがわかります。

しかし、Fit-DNN にとっての本当の疑問は、時間的に繰り返される単一のニューロンが数十億のニューロンと同じ結果を生成できるかどうかです。

Fit-DNN と時間状態の計算能力を実証するために、研究者は MNIST40、Fashion-MNIST41、CIFAR-10、CIFAR-100、SVHN の 5 つの画像分類タスクを選択しました。

この実験では、各隠れ層のノード数を N = 50、100、200、400 として、上記のタスクにおける Fit-DNN のパフォーマンスを比較します。結果から、比較的単純な MNIST および Fashion-MNIST タスクでは単一のニューロンが高い精度を達成したことがわかります。ただし、より難しい CIFAR-10、CIFAR-100、および SVHN タスクの精度は比較的低くなります。

これらの結果は、現在の SOTA モデルによって設定されたパフォーマンス記録と比較できるものではありませんが、まったく異なる新しいアーキテクチャで達成されています。特に、ここでの Fit-DNN は、重み行列の利用可能な対角線の半分のみを使用します。テストされたタスクでは、N を増やすとパフォーマンスが明らかに向上します。

科学者たちは、さらなる開発により、このシステムは時間次元における「無限の数」の神経接続にまで拡張できると考えている。

こうしたシステムは実現可能であり、人間の脳を超えて世界で最も強力なニューラルネットワークになる可能性があり、人工知能の専門家はこれを「スーパーインテリジェンス」と呼んでいるという。

<<:  模型の列車の速度を上げるコツは何でしょうか?まず、この問題の第一原理を理解しましょう。

>>:  コードを超高速で変更! GPT-3に編集機能とテキスト挿入機能が追加され、AIがあなたに代わって詩を書くことができる

ブログ    
ブログ    
ブログ    

推薦する

機械学習実践体験: データプラットフォームの設計と構築

近年人気の技術である機械学習は、数多くの「人工知能」製品でよく知られているだけでなく、従来のインター...

...

張三が試験でカンニングをしたい場合、どのような暗号化アルゴリズムを使用すればよいでしょうか?先生にバレないように?

「平常時に努力しなければ、試験では友達に頼らざるを得なくなる」ということわざがある。試験が近づくに...

Claude3 が GPT4 に教訓を与えました!オープンAI最強の対戦相手の深夜爆弾、全貌解析付き!

制作:51CTO テクノロジースタック(WeChat ID:blog)深夜、OpenAI の最大のラ...

ディープラーニングツール: TensorFlow と NLP モデル

[[200204]]序文自然言語処理 (略して NLP) は、コンピューターが人間の言語を処理する方...

この記事では人工知能とは何かを徹底的に解説します!

人工知能 (AI) は、自然科学のさまざまな分野を網羅しており、主に特定の種類の知的な人間の活動をモ...

認識を覆せ!ソフトロボットは確実に変化をもたらす

最近、米国プリンストン大学の研究者らがソフトロボットを製造する新しい方法を開発しました。このロボット...

世界の技術大国の人工知能+インテリジェント製造戦略の展開を振り返る

1. アメリカ合衆国2016 年 10 月、米国政府は「人工知能の未来への準備」と「国家人工知能研究...

5Gが企業に与える影響

画像ソース: https://pixabay.com/images/id-1069218/ 2024...

スタンフォード大学の研究:スマートフォンの録画で人が酔っているかどうかを98%の精度で識別できる

11月9日、スタンフォード大学の最近の研究で、スマートフォンは音声パターンから人が酔っているかどうか...

ディープフェイクは今回、顔を変えるだけでなく、街そのものを変えてしまった。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ノボ ノルディスクとマイクロソフトが提携し、糖尿病に関する質問に答えるロボットを開発

世界有数のバイオ医薬品企業であるノボ ノルディスクとマイクロソフトは、第3回中国国際輸入博覧会で、ノ...

物体検出のためのディープラーニングアルゴリズムの技術的な詳細を詳しく見てみましょう

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

AGVロボットマルチエージェント経路探索の4つの主要な研究方向

マルチエージェント経路探索 (MAPF) は、人工知能、ロボット工学、理論計算機科学、実践的オペレー...