LeCunの新作、カード1枚でトレーニングできる!分散正規化、スパースエンコーダがクラッシュしなくなりました

LeCunの新作、カード1枚でトレーニングできる!分散正規化、スパースエンコーダがクラッシュしなくなりました

最近、LeCun は、依然として崩壊問題と自己監督に関する新しい研究を発表しました。今回、彼は新しい正規化手法である分散正規化を提案しました。これは、コーディングの崩壊を効果的に防ぎ、再構築の品質を向上させることができます。たった 1 枚のグラフィック カードでトレーニングできます。

ニューラル ネットワークの学習には、研究者の間で特に人気のあるタイプがあり、それは自己教師あり学習 (SSL) です。

十分なデータが与えられている限り、自己教師学習は手動でラベル付けすることなくテキストと画像の表現を学習することができ、データの量が多く、モデルパラメータの数が多いほど、効果は向上します。

自己教師学習の動作原理も非常にシンプルです。たとえば、アプリケーション シナリオが画像の場合、SSL モデルの入力と出力を同じ画像に設定し、中間に隠し層を追加して、トレーニングを開始できます。

最もシンプルなオートエンコーダ AutoEncoder が準備完了です。

一般的に、隠れ層のニューロンの数は入力画像よりも少なくなります。このように、トレーニング後には、オートエンコーダの中間の隠れ層を画像の表現ベクトルとして使用できます。これは、トレーニング プロセスの目標がこの隠れベクトルのみを使用して画像を復元することであるためです。

オートエンコーダは、もともと次元削減の考え方に基づいて提案されました。ただし、隠れ層ノードの数が入力ノードの数より多い場合、オートエンコーダはサンプルの特徴を自動的に学習する能力を失います。このとき、隠れ層ノードに特定の制約を課す必要があります。

スパースオートエンコーダが誕生しましたが、制約の出発点は、高次元でスパースな表現がよいという点です。したがって、隠れ層ノードにのみスパース制約を課す必要があります。

一般的に使用されるスパースコーディング手法は、もちろん L1 正則化です。

最近、LeCun は、デコーダーを正規化する必要なしにコーディングの崩壊を防ぐことができる新しいスパース コーディング プロトコルを提案しました。新しいエンコーディング プロトコルは、各潜在コード コンポーネントの分散が、特定の入力セットのスパース表現に対して固定しきい値よりも大きくなるように、エンコーディングを直接正規化します。

論文: https://arxiv.org/abs/2112.09214

オープンソースコード: https://github.com/kevtimova/deep-sparse

さらに、研究者らは、線形辞書よりも複雑な関係をモデル化できるスパースコーディングシステムを効率的にトレーニングするために、多層デコーダーを使用する方法を検討しました。

MNIST と自然画像パッチの実験では、新しい方法を使用して学習したデコーダーが線形および多層の両方のケースで解釈可能な機能を備えていることを示しています。

線形辞書を使用するオートエンコーダと比較して、分散正則化法を使用してトレーニングされた多層デコーダを備えたスパースオートエンコーダは、より高品質の再構成を生成でき、分散正則化法によって取得されたスパース表現が、データ量が少ない場合のノイズ除去や分類などの下流タスクに役立つことも示しています。

論文中のLeCun氏の著者ユニットもFAIRからMeta AI Research (MAIR)に改名された。

分散正規化

入力 y と固定デコーダー D が与えられた場合、研究者は FISTA アルゴリズム (近似勾配法 ISTA の高速バージョン) を使用して推論し、D の要素を使用して入力 y を最もよく再構築できるスパース コード z* を見つけます。

デコーダーDの重みは、入力yとz∗から計算された再構成されたyとの間の平均二乗誤差(MSE)を最小化することによってトレーニングされます。

エンコーダEの重みはFISTAの出力z∗を予測することによって得られる。

潜在コードの L1 正則化が崩壊するのを防ぐために、研究者は、各潜在コードの分散が事前に設定されたしきい値よりも大きくなるように制約を追加しました。主な実装方法は、エネルギー関数に正規化項を追加して、すべての潜在的コンポーネントの分散を事前に設定されたしきい値以上に保つことです。

より具体的には、研究者は推論中に目的関数を修正してエネルギーを最小限に抑えました。

ヒンジ項は、新しい正則化項として L1 ペナルティ項を相殺します。新しい方程式は、各潜在コード コンポーネントの分散がしきい値を上回るように促すことができるため、潜在コードの L1 正則化が崩壊するのを防ぎ、デコーダーの重みを正則化する必要がなくなります。

再構成項の合計後の勾配は潜在コード z に対応します。

線形デコーダーの場合、ヒンジ項は滑らかな凸関数ではありませんが、勾配が線であるという事実は、ヒンジ項が局所的に凸二次関数のように動作することを意味します。

トレーニングプロセス中、研究者はエンコーダー E とデコーダー D を同時にトレーニングして、FISTA 推論計算のスパース コーディングを予測しました。

同時トレーニングを行う最初の理由は、デコーダーがトレーニングされた後に、バッチ統計を使用してエンコーディングを計算することを避けるためです。実際、異なる入力に対してエンコーディングを独立して計算することが可能であるはずです。

2 番目の理由は推論時間を短縮することです。エンコーダーとデコーダーがトレーニングされた後、エンコーダーは入力のスパース表現を直接計算できるため、推論に FISTA を使用する必要がなくなり、エンコーダーはアモルファス推論を実行できます。

エンコーダの正規化項により、FISTA はエンコーダによって学習できるエンコーディングを見つけるように強制できます。実験設定では、エンコーダーの予測は定数として扱われ、FIST エンコーディングの初期値として使用されることがよくあります。

エンコーダーが適切な初期化を提供する場合、FISTA 反復回数を減らすことで推論時間を短縮できます。

実験のセットアップ

実験のエンコーダーは LISTA (Learned ISTA) エンコーダーであり、リカレント ニューラル ネットワークと同様に ISTA 推論の出力を模倣するように設計されています。エンコーダーは、2 つの完全接続レイヤー、バイアス項、および ReLU アクティベーション関数で構成されます。

線形デコーダーのパラメーターは、単にエンコードを入力データの再構築された次元にマッピングする線形変換であり、線形変換にはバイアス項はありません。

非線形デコーダーの場合、サイズ m の隠し層とサイズ l (潜在コードのサイズ) の入力層を持つ完全接続ネットワークが使用され、隠し層の活性化関数として ReLU が使用されます。入力コードを潜在表現にマッピングするレイヤーにはバイアス項がありますが、潜在表現を出力にマッピングするレイヤーにはバイアス項がありません。

推論中、エンコーディング z は負でない値に制限されます。潜在コードの次元は、MNIST 実験では 128、ImageNet パッチ実験では 256 です。バッチ サイズが 250 の場合、VDL の各潜在コンポーネントの分散を正規化するのに十分な大きさです。

FISTA 反復の最大回数 K を 200 に設定すると、適切な再構築モデルを実現できます。

オートエンコーダのトレーニングでは、研究者は MNIST エポックを 200 に設定し、画像パッチを 100 に設定しました。 SDL および SDL-NL 実験では、デコーダーの完全接続層 W、W1、および W2 の列の L2 正則化は 1 に固定され、出力平均エネルギーが最も低いオートエンコーダが保存されます。

研究者らはまた、SDL-NLおよびVDL-NLモデルのバイアス項b1とLISTAエンコーダのバイアス項bに重み減衰を追加し、正規化項が無限に拡大するのを防ぎました。

モデルのトレーニングには NVIDIA RTX 8000 GPU カードが 1 枚だけ必要で、すべての実験は 24 時間以内に実行されます。

実験結果によると、2 つの SDL と 2 つの VDL の辞書要素については、スパース性 λ が低い場合 (0.001、0.005)、デコーダーは方向、ストローク、さらにはデジタル グラフィックスの一部を学習できるようです。

λ の値が大きくなるにつれて、生成される画像はより完全な数字に近づき、ストロークから数字への進化が完了します。

再構築品質の点では、SDL モデルと VDL モデルのエンコーダーの曲線は、非アクティブなコード化コンポーネントの平均パーセンテージ (値 0) で測定されるスパース性と、平均 PSNR で測定される再構築品質との間のトレードオフを示しています。

5 つのランダム シードを使用したテスト セットで測定された再構築品質は、期待どおりです。スパース性が高くなると再構築結果は悪くなりますが、この記事で提案されている分散正規化法でトレーニングされたモデルは、より高いスパース性レベルで SDL モデルよりも優れた再構築結果を生成するため、分散正規化が確かに効果的であることが確認されます。

<<:  心を込めてツイートしましょう! Synchron 脳コンピューターインターフェースは ALS 患者が自分の考えで携帯電話を閲覧するのを助けます

>>:  AIが高度な数学の問題を生成し、新たな難易度に到達:MITは問題を生成し、質問に答え、採点できるアルゴリズムモデルを提案

ブログ    
ブログ    
ブログ    

推薦する

GPT-4.5 が密かにブロック解除?グレースケールテストはネットユーザーの間で熱く議論され、OpenAIの研究者はそれはすべて幻覚であると反論

GPT-4.5 は、私たちの知らないうちに密かにリリースされたのでしょうか?最近、多くのネットユーザ...

将来のシステム設計のための機械学習

エリアス・ファロン氏は、電子設計自動化技術の大手プロバイダーである Cadence Design S...

OpenAI CEOアルトマン氏の突然の解任に関する分析

今日は一緒に楽しく OpenAI について話し合いましょう。もともと書きたくなかったのですが、自メデ...

...

ChatGPT の残念な欠点 10 選: チャットボットの限界を探る

ChatGPT は、翻訳、作詞作曲、リサーチ、コーディングなど、さまざまなスキルに優れています。しか...

2021年、AIはどんな未来を迎えるのでしょうか?

人工知能は新しい時代の「電気」であると主張する人もいます。市場調査会社IDCのデータによると、AIハ...

2021 年に登場予定の 10 のビッグデータ テクノロジー

1. ハドゥープシンプルなプログラミング モデルを備えた Hadoop は、マシンのクラスター間で多...

Google:MLの発展を牽引する転移学習とは何でしょうか?丨NeurIPS 2020

機械学習の分野でよく使われる分類学習タスクでは、訓練された分類モデルの精度と高い信頼性を確保するため...

快手とインテルが提携し、KGNN プラットフォームでの大規模リアルタイム動的グラフトレーニングの効率を向上

ショートビデオの推奨やソーシャル推奨などのアプリケーションシナリオでは、推奨システムは大量の急速に変...

GNNに大量のデータを与えると重力の法則が発見される

機械学習 (ML) は、大規模なデータセット内の特徴を学習し、さまざまなオブジェクトを分類し、パラメ...

13歳の天才少年がAIスピーカーを開発。2010年代以降の世代は単純ではない

現代のティーンエイジャーにとってクールなものは何でしょうか?おそらくそれは AJ シューズを履くこと...

...

Mac専用の大型モデルフレームワークが登場! 2行のコードでデプロイでき、ローカルデータとチャットでき、中国語もサポートしています

Mac ユーザーは、ついに、RTX を使用した独自の大型モデル チャットを持つ N カード プレーヤ...