ニューラルタンジェント、無限幅のニューラルネットワークモデルを作成するための 5 行のコード

[[322852]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

この記事は、Google が執筆した ICLR 2020 論文「NEURAL TANGENTS: FAST AND EASY INFINITE NEURAL NETWORKS IN PYTHON」の解釈です。

論文アドレス: https://arxiv.org/pdf/1912.02803.pdf
オープンソースアドレス: https://github.com/google/neural-tangents

ディープラーニングは、自然言語処理、会話エージェント、コネクトミクスなど、多くの分野で効果的に応用されてきました。この学習方法は機械学習の研究環境を変え、研究者に多くの興味深く重要な未解決の疑問をもたらしました。たとえば、「ディープニューラルネットワーク (DNN) は、過剰にパラメータ化されていても、なぜそれほどうまく一般化できるのか？」「ディープネットワークのアーキテクチャ、トレーニング、パフォーマンスの関係は何か？」などです。ディープラーニングモデルから顕著な特徴を抽出するにはどうすればよいでしょうか?

近年この分野の進歩を可能にした重要な理論的洞察は、DNN の幅を広げるとより規則的な動作が生まれ、それらの動作を理解しやすくなるという点です。最近の多くの結果は、無限に広くなる可能性のある DNN が、ガウス過程と呼ばれる別のより単純なクラスのモデルに収束することを示唆しています。

この制限により、ベイズ推論や畳み込みニューラルネットワークの勾配降下ダイナミクスなどの複雑な現象を単純な線形代数方程式に簡略化できます。これらの無限幅ネットワークのアイデアの一部は、有限ネットワークにも頻繁に拡張されます。したがって、無限幅ネットワークは、ディープラーニングを研究するための次元として使用できるだけでなく、それ自体が非常に有用なモデルでもあります。

左: 無限に広いディープニューラルネットワークが、どのように単純な入力/出力マッピングを生成するかを示す図。

右: ニューラルネットワークの幅が広がるにつれて、さまざまなランダムインスタンスにわたるネットワーク出力の分布がガウス分布になることがわかります。

残念ながら、有限ネットワークの無限幅の限界を導き出すには、広範な数学が必要であり、研究対象のアーキテクチャごとに個別に計算する必要があります。無限幅モデルが導出された後、効率的でスケーラブルな実装を実現するためのさらなる作業には、多大なエンジニアリングの努力が必要です。全体として、有限幅のモデルを対応する無限幅のネットワークに変換するプロセスには数か月かかる可能性があり、それ自体が研究論文の主題になる可能性があります。

この問題を解決し、ディープラーニングの理論的進歩を加速するために、Google の研究者は、有限幅のニューラルネットワークをトレーニングするのと同じくらい簡単に、無限幅のニューラルネットワークを構築およびトレーニングできる新しいオープンソースソフトウェアライブラリ「Neural Tangents」を提案しました。本質的には、Neural Tangent は、有限幅と無限幅の両方のニューラルネットワークを構築できる、使いやすいニューラルネットワークライブラリを提供します。

ニューラルタンジェントの使用方法の例として、あるデータで完全に接続されたニューラルネットワークをトレーニングすることを想像してください。通常、ニューラルネットワークはランダムに初期化され、勾配降下法を使用してトレーニングされます。これらのニューラルネットワークを初期化してトレーニングすると、統合ネットワークが生成されます。

研究者や実務家は、より良いパフォーマンスを得るために、アンサンブルのさまざまな部分からの予測を平均化することがよくあります。さらに、アンサンブル内の不確実性は、さまざまな部分の予測の分散から推定できます。このアプローチの欠点は、ネットワークのアンサンブルをトレーニングするには大きな計算予算が必要になるため、このアプローチはほとんど使用されないことです。ただし、ニューラルネットワークが無限に広くなると、アンサンブルはガウス過程によって記述され、その平均と分散はトレーニングプロセス全体にわたって計算できます。

Neural Tangent を使用すると、これらの無限幅のネットワークアンサンブルをわずか 5 行のコードで構築およびトレーニングできます。トレーニングプロセスは次のとおりです。この実験用のインタラクティブな共同ノートブックを使用するには、次のアドレスにアクセスしてください。

https://colab.sandbox.google.com/github/google/neural-tangents/blob/master/notebooks/neural_tangents_cookbook.ipynb

両方の図で、著者らは、有限幅のニューラルネットワークアンサンブルのトレーニングと、同じ構造の無限幅のニューラルネットワークアンサンブルのトレーニングを比較しています。前者の実験的平均と分散は、2 本の薄い黒の破線の間にある黒の破線で表され、後者の閉じた形式の平均と分散は、塗りつぶされた色領域内の色付きの線で表されます。どちらの図でも、有限幅のネットワークと無限幅のネットワークは非常に密接に統合されているため、区別が困難です。左: トレーニングの進行に伴う入力データ (水平 x 軸) 上の出力 (垂直 f 軸)。右: トレーニング中の不確実性によるトレーニングとテストの損失。

無限幅ネットワーク積分は単純な閉形式表現によって制御されますが、有限幅ネットワーク積分との顕著な一貫性があります。また、無限幅のネットワークアンサンブルはガウス過程であるため、自然に閉じた形式の不確実性の推定値 (上の図の色付きの領域) が提供されます。これらの不確実性の推定値は、有限幅ネットワークの多数の異なるコピーをトレーニングするときに観察される予測される変化とほぼ一致しています (破線)。

上記の例は、トレーニングのダイナミクスを捉える無限幅ニューラルネットワークの威力を示しています。ただし、ニューラルタンジェントを使用して構築されたネットワークは、通常のニューラルネットワークを適用できるあらゆる問題に適用できます。

たとえば、以下では、CIFAR-10 データセットを使用して、画像認識における 3 つの異なる無限幅ニューラルネットワークアーキテクチャを比較します。驚くべきことに、勾配降下法と完全なベイズ推論（有限幅ネットワーク領域では困難なタスク）を使用して、閉じた形式の無限幅残差ネットワークなどの非常に複雑なモデルを評価できます。

無限幅のネットワークは、完全接続ネットワークと同様のパフォーマンスレベルを持つ有限幅のニューラルネットワークを模倣していることがわかります。完全接続ネットワークのパフォーマンスは畳み込みネットワークよりも低く、畳み込みネットワークのパフォーマンスは広い残差ネットワークよりも低くなります。

しかし、従来のトレーニングとは異なり、これらのモデルの学習ダイナミクスは閉じた形式で完全に扱いやすく、研究者にこれらのモデルの動作に関する前例のない洞察を提供します。 Leifeng.com Leifeng.com Leifeng.com (公式アカウント: Leifeng.com)

https://ai.googleblog.com/2020/03/fast-and-easy-infinitely-wide-networks.html より

<<: データがあなたを監視することに抵抗はありませんか?

>>: 百度の自動運転タクシーが長沙で運行開始！乗客は百度地図を通じて電話をかけ、無料の試乗を受けることができる。

ロボットが医療に力を与える！しかし、医療ロボットがブレイクするまでには、まだ4歩の道のりがある。

ブログ

機械学習がゲーム・オブ・スローンズの結末を「ネタバレ」：3人の愚か者が最初に死に、ドラゴン・マザーとティリオンが最後に笑う

ニューラルタンジェント、無限幅のニューラルネットワークモデルを作成するための 5 行のコード

ロボットが医療に力を与える！しかし、医療ロボットがブレイクするまでには、まだ4歩の道のりがある。

GitHub ホットリスト 1 位: 数百万のトークンコンテキスト、動画も生成可能、カリフォルニア大学バークレー校制作

Google Cloud データベースに AI 機能が追加

速報です！ TensorFlow テクニカルディレクターの Pete Warden 氏は辞職し、博士号取得を目指してスタンフォード大学に戻りました。「Google では難しすぎた」からです。

機械学習がゲーム・オブ・スローンズの結末を「ネタバレ」：3人の愚か者が最初に死に、ドラゴン・マザーとティリオンが最後に笑う

ちょっとした機械学習でウェブサイトを高速化

アンサンブル法の簡単な分析

推薦する

EasyDL Professional Notebookモデリング機能の詳しい説明

2021 年に最も人気のある協働ロボットアプリケーションは何でしょうか?

「3D ガウス」バージョンですべてをセグメント化: ミリ秒単位で 3D セグメンテーション、1,000 倍高速

我々は最初のAI戦争を目撃したかもしれない

AIを活用したリアルタイムの脅威インテリジェンスでサイバー脅威に対抗する方法

PythonコードからAPPまで、必要なのは小さなツールだけ：GitHubには3,000以上のスターがある

MITの新しい「脳チップ」が利用可能になりました。これは数万の人工脳シナプスで構成されており、超複雑な計算を実行できます。

解雇はランダムに行われますか? Googleの上級エンジニアが従業員が抗議活動を準備していることを明らかに

自律飛行ロボットが浙江大学から集団で飛び立ち、サイエンス誌の表紙に登場

指先で操作できる人工知能（基礎編）

AIの冬が来ます！ディープラーニングはスケールしません...

モノのインターネットにおける人工知能の役割