孤独を研究していますか? Reddit のホットな話題: AI のゴッドファーザー、ヤン・ルカンが提案した「エネルギーモデル」とは一体何でしょうか?

「エネルギー自己教師学習っていったい何？」と多くのRedditネットユーザーがコメントした。

ちょうど今、ディープラーニングのゴッドファーザーであるヤン・ルクーがRedditで話題になっています。無名の開発者が「Yann LeCun のエネルギーベースの自己教師あり学習とは一体何なのか？」というタイトルの投稿を公開し、多くのネットユーザーの間で議論を巻き起こした。

議論の焦点の 1 つは、エネルギーベースの自己教師学習モデルで何ができるかということです。利点や意義は何ですか?

LeCun 氏の最新の基調講演を見たばかりの開発者は、Yann LeCun 氏は入力と潜在変数に基づいて出力を予測できる条件付き潜在変数モデル (pix2pix GAN や VAE に類似) のトレーニングを提案しているようだと述べた。同時に、画像、ビデオ、オーディオなどのさまざまなタイプも処理できるという。

しかし、生成モデルを最適化する方法は数多くあります。たとえば、OpenAI は iGPT 事前トレーニングを使用して欠落ピクセルを予測し、「コントラスト予測コーディング」を採用してコントラスト損失による失われた情報を予測します。これらの方法は実際の応用において良好な結果を達成しました。

対照的に、エネルギーベースの自己教師学習は特別なものではないようで、関連する成功した応用例はありません。

Redditでは、ネットユーザーの95%以上がこの見解に同意した。

さらに、別のネットユーザーは、過去3〜4年間で多くの専門家がこれに魅了されてきたことを明らかにしました。彼らは、エネルギーベースのモデルがディープラーニングの「未来」であると信じています。

では、ML の未来を表す「エネルギーモデル」とは一体何なのでしょうか?

AIの未来: エネルギーSSLモデル

2018年のチューリング賞受賞者の一人であるヤン・ルカンは、ジェフリー・ヒントン、ヨシュア・ベンジオとともにディープラーニングの三大巨頭として知られています。同時に、彼自身は「CNNの父」としても知られています。

[[357710]]

LeCun 氏は産業界と学界で影響力を持っています。現在、彼はFacebookの人工知能研究所の所長を務めており、ニューヨーク大学、クーラント数学研究所、神経科学センター、電気・コンピュータ工学部でも重要な役職を担っています。

2019 年 11 月、LeCun 氏は Facebook を代表して「機械学習のための物理的洞察の活用」セミナーに出席し、「エネルギーベースの自己教師あり学習」と題する基調講演を行いました。

この講演では、LeCun 氏が既存の課題を解決するためのエネルギーベースの学習アプローチの可能性について詳しく説明します。

近年、ディープラーニングはコンピューターの認識、自然言語の理解、制御において大きな進歩を遂げています。しかし、これらの成功は主に教師あり学習やモデルフリー強化学習に依存してきました。その中でも、教師あり学習は、ラベル付けされたトレーニングデータから関数を推論する機械学習タスクです。強化学習は、モデルベースとモデルフリーの 2 つの戦略に分けられます。前者は、モデルベースの方法では主に順方向状態転送モデル p(st+1|st,at) を学習するのに対し、モデルフリーの方法ではその学習を行わないという点で後者と異なります。

既存の研究から判断すると、教師あり学習とモデルフリー強化学習の両方に明らかな限界があります。前者では人間が大量のデータラベルを提供する必要があり、後者ではアクションの報酬を最大化するために機械学習が必要になります。

つまり、教師あり学習は特定のタスクにのみ適用でき、単純なタスクを学習する場合でも、環境との多くのやり取りが必要になります。たとえば、ゲームやシミュレーションではうまく機能しますが、現実世界ではほとんど機能しません。

しかし、人間や動物のように、ほんの少しの観察と相互作用だけで、タスクに関係のない多くの知識を学習できるモデルがあれば、これらの現実世界のジレンマはうまく解決できるでしょう。このモデルは、自己教師あり学習 (SSL) 方式に依存する必要があります。

LeCun 氏は、SSL はディープラーニングの「未来」であり、エネルギーベースの SSL は確率を回避しながら不確実性に対処できると考えています。以下はエネルギーベースの SSL モデルです。

スカラー値エネルギー関数 F(x, y) は次のように測定できます。

x と y 間の互換性を測定します。
低エネルギー: yはxの最良の予測である
高エネルギー: yはxの最悪の予測である

同時に無条件モデルバージョンもございます。

トレーニングに関しては、まずエネルギー関数がパラメータ化され、トレーニングデータが取得され、最後に新しい Shape が計算されます。このプロセスには通常 2 つの方法があります。1 つは対照的な方法、もう 1 つは建築的な方法です。

コントラスト法には 3 つの戦略が含まれます。

C1: データポイントのエネルギーを下げ、他の位置を押し上げる: 最大尤度。

C2: データポイントのエネルギーを押し下げ、選択した位置を押し上げる: 最大尤度と MC/MMC/HMC、コントラストダイバージェンス、メトリック学習、ノイズコントラスト推定、比率マッチング、ノイズコントラスト推定、最小確率フロー、敵対的ジェネレーター GAN

C3: データマニフォールド上の点をデータマニフォールド上の点にマッピングする関数をトレーニングする: ノイズ除去オートエンコーダ、マスクオートエンコーダ (BERT など)

構成主義的アプローチには、次の 3 つの戦略が含まれます。

A1: 低エネルギー物質の体積を制限するためのマシンを構築します: PCA、K 平均法、ガウス混合モデル、二乗 ICA。

A2: 正規化項を使用して、低エネルギーで空間の体積を測定します。スパースコーディング、スパースオートエンコーダ、LISTA、変分オートエンコーダ

A3: F(x,y) = C(y,G(x,y))、G(x,y)をyに関して可能な限り「定数」にする：縮小オートエンコーダ、飽和オートエンコーダ。

A4: データポイントの周りの勾配を最小化し、曲率を最大化する: スコアマッチング

これを基に、LeCun 氏はビデオ予測の応用例も示しました。同氏は、教師なし学習は将来的に主流となり、現在の学習システムでは扱いが難しい多くの問題を解決できるだろうと述べた。教師なし予測モデルの構築に関する研究も、今後数年間の課題となるだろう。

(LeCun の完全な PPT コンテンツは記事の最後でご覧いただけます)

ネットユーザーのコメント：「エネルギー」の意味は何ですか？ ?

実際、LeCun のエネルギー SSL 理論はまだ「ppt 段階」にあります。

まだ成功した応用事例は多くなく、PPTでは自動運転予測動画の結果を示したのみでした。あるネットユーザーは、Energy SSL モデルを使用してテストを行ったと述べました。

前述のように、LeCun はエネルギー関数 F(x, y) を最小化するための 2 つのトレーニング方法、コントラスト法と構築法を提供します。しかし、このプロセスにはいくつかの不合理な側面があると彼は考えています。たとえば、オートエンコーダの潜在変数はどこにあるでしょうか?構造上、サンプルを事前に割り当てる潜在的な権利はあるのでしょうか?

トレーニングされたすべての SSL モデルを潜在変数に基づくエネルギーモデルとして解釈できる場合、それは間違っている可能性があります。潜在変数を無視し、すべてのモデルがエネルギーベースのモデルであると考えると、それを受け入れることはほとんどできませんが、その意味は何でしょうか?

それは説明理論としてのみ機能し、応用価値はないようです。

別のネットユーザーは、LeCun 氏の研究は、Hinton 氏の CapsulesNet での研究と同様に「基礎研究」である可能性があると述べた。基礎研究が成功する可能性は低く、その研究に基づいてアプリケーションを作成するのは他の人であるのが普通です。

別のネットユーザーは、ヤンのエネルギーベースの学習法は確かに深層エネルギーベースの強化学習（RL）研究に影響を与えており、ソフトアクタークリティック（SAC）モデルは複数のRLベンチマークでSOTAを達成したと述べた。

それで、あなたはこのネットユーザーの意見に同意しますか？「エネルギーモデル」の価値は何だとお考えですか?

<<: 顔認識は普及しつつあるのに、なぜ禁止されているのでしょうか?

>>: 人工知能の時代に教育はどのように変化するのでしょうか?