この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 この記事は、Google が執筆した ICLR 2020 論文「NEURAL TANGENTS: FAST AND EASY INFINITE NEURAL NETWORKS IN PYTHON」の解釈です。
ディープラーニングは、自然言語処理、会話エージェント、コネクトミクスなど、多くの分野で効果的に応用されてきました。この学習方法は機械学習の研究環境を変え、研究者に多くの興味深く重要な未解決の疑問をもたらしました。たとえば、「ディープ ニューラル ネットワーク (DNN) は、過剰にパラメータ化されていても、なぜそれほどうまく一般化できるのか?」「ディープ ネットワークのアーキテクチャ、トレーニング、パフォーマンスの関係は何か?」などです。 ディープラーニングモデルから顕著な特徴を抽出するにはどうすればよいでしょうか? 近年この分野の進歩を可能にした重要な理論的洞察は、DNN の幅を広げるとより規則的な動作が生まれ、それらの動作を理解しやすくなるという点です。最近の多くの結果は、無限に広くなる可能性のある DNN が、ガウス過程と呼ばれる別のより単純なクラスのモデルに収束することを示唆しています。 この制限により、ベイズ推論や畳み込みニューラル ネットワークの勾配降下ダイナミクスなどの複雑な現象を単純な線形代数方程式に簡略化できます。これらの無限幅ネットワークのアイデアの一部は、有限ネットワークにも頻繁に拡張されます。 したがって、無限幅ネットワークは、ディープラーニングを研究するための次元として使用できるだけでなく、それ自体が非常に有用なモデルでもあります。 左: 無限に広いディープ ニューラル ネットワークが、どのように単純な入力/出力マッピングを生成するかを示す図。 右: ニューラル ネットワークの幅が広がるにつれて、さまざまなランダム インスタンスにわたるネットワーク出力の分布がガウス分布になることがわかります。 残念ながら、有限ネットワークの無限幅の限界を導き出すには、広範な数学が必要であり、研究対象のアーキテクチャごとに個別に計算する必要があります。無限幅モデルが導出された後、効率的でスケーラブルな実装を実現するためのさらなる作業には、多大なエンジニアリングの努力が必要です。全体として、有限幅のモデルを対応する無限幅のネットワークに変換するプロセスには数か月かかる可能性があり、それ自体が研究論文の主題になる可能性があります。 この問題を解決し、ディープラーニングの理論的進歩を加速するために、Google の研究者は、有限幅のニューラル ネットワークをトレーニングするのと同じくらい簡単に、無限幅のニューラル ネットワークを構築およびトレーニングできる新しいオープン ソース ソフトウェア ライブラリ「Neural Tangents」を提案しました。本質的には、Neural Tangent は、有限幅と無限幅の両方のニューラル ネットワークを構築できる、使いやすいニューラル ネットワーク ライブラリを提供します。 ニューラル タンジェントの使用方法の例として、あるデータで完全に接続されたニューラル ネットワークをトレーニングすることを想像してください。 通常、ニューラル ネットワークはランダムに初期化され、勾配降下法を使用してトレーニングされます。これらのニューラル ネットワークを初期化してトレーニングすると、統合ネットワークが生成されます。 研究者や実務家は、より良いパフォーマンスを得るために、アンサンブルのさまざまな部分からの予測を平均化することがよくあります。さらに、アンサンブル内の不確実性は、さまざまな部分の予測の分散から推定できます。このアプローチの欠点は、ネットワークのアンサンブルをトレーニングするには大きな計算予算が必要になるため、このアプローチはほとんど使用されないことです。ただし、ニューラル ネットワークが無限に広くなると、アンサンブルはガウス過程によって記述され、その平均と分散はトレーニング プロセス全体にわたって計算できます。 Neural Tangent を使用すると、これらの無限幅のネットワーク アンサンブルをわずか 5 行のコードで構築およびトレーニングできます。 トレーニング プロセスは次のとおりです。この実験用のインタラクティブな共同ノートブックを使用するには、次のアドレスにアクセスしてください。 https://colab.sandbox.google.com/github/google/neural-tangents/blob/master/notebooks/neural_tangents_cookbook.ipynb 両方の図で、著者らは、有限幅のニューラル ネットワーク アンサンブルのトレーニングと、同じ構造の無限幅のニューラル ネットワーク アンサンブルのトレーニングを比較しています。前者の実験的平均と分散は、2 本の薄い黒の破線の間にある黒の破線で表され、後者の閉じた形式の平均と分散は、塗りつぶされた色領域内の色付きの線で表されます。どちらの図でも、有限幅のネットワークと無限幅のネットワークは非常に密接に統合されているため、区別が困難です。 左: トレーニングの進行に伴う入力データ (水平 x 軸) 上の出力 (垂直 f 軸)。 右: トレーニング中の不確実性によるトレーニングとテストの損失。 無限幅ネットワーク積分は単純な閉形式表現によって制御されますが、有限幅ネットワーク積分との顕著な一貫性があります。また、無限幅のネットワーク アンサンブルはガウス過程であるため、自然に閉じた形式の不確実性の推定値 (上の図の色付きの領域) が提供されます。これらの不確実性の推定値は、有限幅ネットワークの多数の異なるコピーをトレーニングするときに観察される予測される変化とほぼ一致しています (破線)。 上記の例は、トレーニングのダイナミクスを捉える無限幅ニューラル ネットワークの威力を示しています。 ただし、ニューラル タンジェントを使用して構築されたネットワークは、通常のニューラル ネットワークを適用できるあらゆる問題に適用できます。 たとえば、以下では、CIFAR-10 データセットを使用して、画像認識における 3 つの異なる無限幅ニューラル ネットワーク アーキテクチャを比較します。 驚くべきことに、勾配降下法と完全なベイズ推論(有限幅ネットワーク領域では困難なタスク)を使用して、閉じた形式の無限幅残差ネットワークなどの非常に複雑なモデルを評価できます。 無限幅のネットワークは、完全接続ネットワークと同様のパフォーマンス レベルを持つ有限幅のニューラル ネットワークを模倣していることがわかります。完全接続ネットワークのパフォーマンスは畳み込みネットワークよりも低く、畳み込みネットワークのパフォーマンスは広い残差ネットワークよりも低くなります。 しかし、従来のトレーニングとは異なり、これらのモデルの学習ダイナミクスは閉じた形式で完全に扱いやすく、研究者にこれらのモデルの動作に関する前例のない洞察を提供します。 Leifeng.com Leifeng.com Leifeng.com (公式アカウント: Leifeng.com) https://ai.googleblog.com/2020/03/fast-and-easy-infinitely-wide-networks.html より |
>>: 百度の自動運転タクシーが長沙で運行開始!乗客は百度地図を通じて電話をかけ、無料の試乗を受けることができる。
3か月前、OpenAIのGPT-4がデビューし、注目を集めました。そのマルチモーダル機能は人類に衝撃...
Copilot、Codex、AlphaCode: プログラミングを自動化するコンピュータ プログラム...
OpenAI が最初に Sora を作成した理由は何ですか?現在、世界中の研究者、エンジニア、投資家...
GPT-4 が最近少し「怠惰」になっていることにお気づきでしょうか。現在、GPT-4 は常に特定のタ...
こんにちは、ルガです。今日は、人工知能 (AI) エコシステムに関連するテクノロジーについて、Goo...
AIの兵器化?大規模言語モデルの誕生以来、人々はその潜在的な影響について議論し続けています。しかし...
カリフォルニア大学サンディエゴ校で開発・実装されている AI 主導のテクノロジーとイノベーションの多...
今日、人工知能 (AI) は物理学を含む多くの業界に変化をもたらしています。関連報道によると、人工知...
すべての IT 問題には学習曲線と転換点があり、解決策が見つかる「なるほど!」という瞬間があります。...
【51CTO.comオリジナル記事】 [[344118]]近年、ロボティック・プロセス・オートメーシ...