この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 自己教師学習に続いて、Yann LeCun 氏は ZDNet との最新のインタビューで、数年前に大々的に推進した概念、「エネルギーベースのモデル」に焦点を当てました。 エネルギーモデルとは何ですか?2019年に出版された「ディープラーニング」(別名「フラワーブック」)という本の中で、ヨシュア・ベンジオ、イアン・グッドフェロー、アーロン・クールビルらは、「確率関数」を「1つまたは一連のランダム変数がそれぞれの可能な状態を示す確率を記述するもの」と定義し、エネルギーモデルは2つの変数間の一貫性を簡素化するとしています。エネルギー モデルは統計物理学の概念を借用し、2 つの変数が互換性のない場合にはそれらの間のエネルギーが増加し、一致する場合にはそれらの間のエネルギーが減少すると仮定します。これにより、確率分布を「正規化」する際に発生する複雑さが排除されます。 機械学習の分野では、エネルギーモデリングは少なくとも 1980 年代にまで遡る「古い」概念です。しかし近年、エネルギーモデリングがより実現可能になる成果が増えてきました。 ZDNetによると、ルカン氏のエネルギーモデルに関する考えは近年深まっており、2019年にプリンストン高等研究所で行った講演を含め、この概念に関する講演を何度か行っているという。 最近、ルカン氏はエネルギーモデルに関する研究の現状を2つの論文で説明した。1つは、ルカン氏とFacebook AI Lab (FAIR)の同僚が昨年の夏に発表した「Barlow Twins」、もう1つは、ルカン氏がFAIRおよびInriaと共同で1月に発表した「VICReg」である。 ルカン氏がインタビューで述べたように、彼の現在の研究は量子電気力学と興味深い類似点があるが、それが彼の焦点ではない。彼は AI システムの予測がどこまで改善できるかということに焦点を当てています。 LeCun 氏自身は、「ジョイント エンベッディング モデル」と呼ばれる最新のエネルギー モデルを開発しました。同氏は、このモデルがディープラーニング システムに「大きな利点」、つまり「抽象表現空間での予測」をもたらすことができると考えています。 LeCun 氏は、このモデルが「予測世界の抽象的表現」への道を開くと信じている。ディープラーニング システムの大きな可能性は、抽象的な予測を行う能力であり、システムが推論モードの場合、そのような抽象的な予測マシンの「スタック」を階層化して、計画シナリオを生成することができます。 このようなモデルは、シーン間や画像、音声、その他の形式の入力データ間の相関関係をモデル化することで計画を立てることができる自律型 AI という LeCun 氏のビジョンを前進させる、統一された「世界モデル」というビジョンを実現するための重要なツールとなる可能性があります。以下は、ZDNet が Zoom 経由で LeCun 氏と行った会話の編集されたトランスクリプトです。 自己教師あり学習と教師なし学習ZDNet:まず、私たちの理解を深めるために、機械学習においてよく「自己教師あり学習」と「教師なし学習」と呼ばれるものについてお話しください。教師なし学習と自己教師学習の関係は何ですか? Yann LeCun:そうですね、私は自己教師あり学習を教師なし学習の特別な種類だと考えています。教師なし学習という用語は少し複雑であり、機械学習の文脈では明確に定義されていません。教師なし学習というと、クラスタリング アルゴリズムや PCA (主成分分析)、さまざまな視覚化手法などが思い浮かびます。自己教師あり学習は、基本的に教師あり学習と同等のものを教師なし学習に使用しようとします。つまり、教師あり学習方法が使用されますが、ニューラル ネットワークは人間が提供するラベルなしでトレーニングされます。 たとえば、ビデオを撮影し、そのビデオのクリップを機械に見せて、次に何が起こるかを予測するように依頼することができます。または、機械に 2 つのビデオを見せて、「このビデオは前のビデオの続編ですか?」と尋ねることもできます。私たちがやりたいのは、機械にフォローアップを予測させることではなく、2 つのシナリオに互換性があるかどうかを機械に知らせることです。あるいは、同じ物体の 2 つの異なるビューを機械に示し、これら 2 つは同じ物体かどうか尋ねます。自己教師あり学習では、基本的に人間による監督はなく、システムに与えるデータはすべて入力データとなります。 ZDNet:近年、2019年にニュージャージー州プリンストンの高等研究所 (IAS) で講演し、最近では2月に百度が主催したエネルギーベースのディープラーニングへのアプローチに関する講演など、いくつかの講演を行っていますね。これらのエネルギーベースのモデルは、教師なし学習の自己教師部分に属しますか? YL:はい。エネルギーベースのモデルでは、すべてを想定できます。たとえば、X と Y が与えられます。X は観測値であり、モデルは X に対する Y の関連性を捉える必要があります。たとえば、X はビデオのクリップで、Y は同じビデオの別のクリップです。システムに X と Y を表示すると、システムは Y が X の続編であるかどうかを教えてくれるはずです。つまり、システムに 2 つの画像を見せた場合、システムは 2 つの画像が互いに関連しているか、それとも 2 つの画像が完全に異なるかを教えてくれるはずです。エネルギーは互換性や非互換性を測る基準ですよね? X と Y が互換性がある場合、エネルギーはゼロになり、エネルギーが大きい場合、X と Y は互換性がありません。 エネルギーベースのモデルをトレーニングするには 2 つのアプローチがあります。最初の方法は、互換性のある X と Y のペアをモデルに表示することです。2 番目の方法は、接続できない 2 つのビデオ クリップや、まったく異なる 2 つのオブジェクトの写真など、互換性のない X と Y のペアをモデルに表示することです。これらの互換性のない XY ペアには高いエネルギーを設定し、互換性のある XY ペアのエネルギー値を下げる必要があります。 これが比較の方法です。私は、少なくともいくつかのケースでは、「シャムネット」と呼ばれる自己教師学習法のために、この対照的なアプローチを発明しました。以前はこのアプローチが気に入っていたのですが、今は考えが変わりました。このアプローチは失敗する運命にあると思います。比較アプローチが役に立たないとは思いませんが、これらの事柄の次元にうまく適応していないため、明らかに不十分です。有名な格言にこうあります。「幸せな家族はどれも似ているが、不幸な家族はそれぞれに不幸である。」 2 つの画像が同一であったり互換性があったりすることはまれですが、2 つの画像には多くの違いがあり、空間は高次元です。したがって、基本的に、これらのコントラスト方法を機能させるには、指数関数的な量のコントラスト エネルギー サンプルが必要になります。コントラストアプローチは今でも人気がありますが、私の意見ではその機能は非常に限られています。したがって、私は非対照法、いわゆる通常の方法を好みます。 そして、これらの方法はすべて、エネルギー関数を構築するときに、低エネルギー値を割り当てる空間の体積は有限であるという考えに基づいています。これは、損失関数またはエネルギー関数の項によって説明できます。これは、空間の体積を最小限に抑えることを指し、何らかの方法でエネルギーを削減できます。これには多くの例がありますが、その 1 つが積分スパース符号化です。この概念は 1990 年代にまで遡ります。私が最近とても興味を持っているのは、自己教師学習に適用される非対照的手法です。 エネルギーモデルは未来か?ZDNet:講演では、「正規化された潜在変数エネルギーベースモデル」、つまり RLVEB について説明しました。 RLVEB は将来の方向性だとお考えですか? RLVEB は 2020 年代や 2030 年代をリードできるでしょうか? YL:こう言いましょうか、畳み込みネットワーク以来、私は機械学習にそれほど興味がありませんでした。 (笑) RLVEB が新しい畳み込みかどうかはわかりませんが、とても興奮しています。 IAS で講演したとき、私が考えていたのは RLVEB のことばかりでした。 RLVEB は生成モデルです。ビデオ予測などのタスクに適用する場合は、ビデオを与えて次のビデオを予測させます。 ここ数年で、私自身の考え方も変わりました。さて、私のお気に入りのモデルは、X から Y を予測する生成モデルではなく、私が結合埋め込みモデルと呼んでいるものです。 X を取得し、それをエンコーダー (または必要に応じてニューラル ネットワーク) に通します。Y を取得し、それを別のエンコーダーに通します。その後、この抽象表現空間で予測が行われます。それは大きな利点です。 なぜ気が変わったのでしょうか?以前はやり方がわからなかったので、考えを変えました。今、役に立ついくつかの方法があります。これらのアプローチは過去 2 年間に登場しました。私が推進しているアプローチは実際には 2 つあります。1 つは VIC-REG と呼ばれ、もう 1 つは Barlow Twins と呼ばれています。 ZDNet:では、今後 5 年から 10 年の間にこの分野でどのような進歩が見られると思いますか? YL:抽象空間で予測を行うことを学習できるシステムを研究する方法が少なくとも今はあると思います。システムは抽象的な予測を学習すると同時に、時間の経過や抽象空間での状態の変化に応じて何が起こるかを予測することも学習できます。 これは自律的なインテリジェント システムにとって非常に重要な部分です。たとえば、システムには、世界で何が起こるかを事前に予測し、自分の行動の結果を予測できる、ある種の世界モデルがあります。したがって、世界の状態とあなたが取っている行動の推定値を与えると、システムはその行動を取った後の世界の状態の予測を提供します。キャプション: エネルギーベースのモデル: 「VICREG」は「Variance-Invariance-Covariance Re-Gularization For Self-Supervised Learning」の略称で、エネルギーベースのニューラル ネットワーク アーキテクチャに関する LeCun の最新の研究成果です。一連の画像は 2 つの異なるパイプラインで変換され、各ワープ画像はエンコーダーに送信され、基本的に画像が圧縮されます。次に、プロジェクター (「エクスパンダー」とも呼ばれます) は、これらの圧縮された表現を最終的な「埋め込み」、つまり Z 次元に解凍します。 2 つの埋め込み間の類似性は歪みの影響を受けないため、プログラムは何か認識するのにちょうどよい低エネルギー レベルを見つけることができます。 (写真提供:FAIR) この予測は、観察できないいくつかの潜在変数にも依存します。たとえば、車を運転しているとき、目の前に車がいます。車はブレーキをかけたり、加速したり、左または右に曲がったりするかもしれません。車両の状態を事前に知ることはできません。これが潜在変数です。したがって、全体的なアーキテクチャは次のようになります。初期のビデオ セット X と将来のビデオ Y を取得し、X と Y をニューラル ネットワークに埋め込み、X と Y の 2 つの抽象表現を取得します。次に、この空間内の特定の潜在変数に対してエネルギーベースの予測モデルを作成します。 重要なのは、このモデルが世界の抽象的な表現を予測する場合、世界の多くの詳細は無関係である可能性があるため、世界の詳細すべてを予測することはできないということです。道路を運転していると、道路脇の木の葉の非常に複雑な部分が見えることがあります。モデルでこれを予測できる方法はまったくありません。あるいは、これを予測するために労力やリソースを投資したくないでしょう。したがって、このエンコーダーは、要求される前にこの情報を本質的に排除します。 ZDNet:今後 5 年から 10 年の間に起こると思われる具体的なマイルストーンはありますか?それとも目標? YL:私が予測しているのは、「JEPA」(Joint Embedding Predictive Architecture)アーキテクチャを使用して、特定のタスクのためにシステムをトレーニングすることなく、世界の予測モデルを理解し、自己教師型の方法で知覚表現を学習できることです。システムは X と Y の抽象的な表現を学習しているので、それらを積み重ねることができます。したがって、短期的な予測を可能にする周囲の世界の抽象的な表現を学習したら、さらに抽象的な表現を学習して長期的な予測を行う能力を獲得できる別のレイヤーを追加できます。 したがって、システムが観察したりビデオを見たりすることで、世界がどのように機能するかを学習できるようにすることが重要です。なぜなら、赤ちゃんは本質的に、世界を観察し、直感的な物理学を学び、世界について私たちが知っているすべてのことを学ぶことによって学ぶからです。動物もこれをやります。私たちは、機械が世界を観察することで世界がどのように機能するかを学習することを望んでいます。しかし、これまでのところ、私たちはそれを実現することができませんでした。したがって、私の意見では、JEPA を使用して階層的に調査することが、体系的な観察学習を実現する方法です。 JEPA がディープラーニング マシンにもたらすもう 1 つの利点は、推論機能です。現在、議論があります。ディープラーニングは、入力と出力が明確であるため、認識にのみ優れています。しかし、推論と計画の機能を備えたシステムが必要な場合はどうすればよいでしょうか?世の中には、ある程度の推論能力と計画能力を備えた複雑なモデルが存在しますが、その数は多くありません。 では、機械に計画を立てさせるにはどうすればいいのでしょうか?私たちが世界の予測モデルを持っていれば、つまりシステムがその行動の結果を予測できるモデルを持っていれば、システムが行動の方向性を想像し、起こる結果を予測できるようになります。この情報は、タスクが完了したかどうかを示すいくつかの内部関数に送られます。次に、おそらく勾配降下法を使用した最適化を通じて、目的を最小化する一連のアクションを見つけます。ここでは学習について話しているのではなく、推論と計画について話しています。実際、私が今説明しているのは、古典的な計画とモデル予測制御に基づいた最適制御方法です。 最適制御の違いは、固定モデルではなく、学習した世界モデルを使用することです。私たちのモデルには、世界の不確実性に対処できるすべての変数が含まれており、将来を予測して行動計画を立てることができる自律型インテリジェント システムの基礎を形成できます。 ここからサンフランシスコまで飛行機で行きたいので、空港に行って飛行機に乗る必要があります。空港に行くには、建物を出て、通りを少し歩いてからタクシーに乗らなければなりません。建物から出るには、椅子から立ち上がり、ドアまで歩いて、ドアを開け、エレベーターまたは階段まで歩く必要があります。エレベーターや階段に向かって歩くためには、それらの動きをミリ秒単位の筋肉制御に分解する方法を理解する必要がありました。これを階層的計画と呼びます。システムでこれが実行できるようにしたいのですが、まだ実際には実行できません。これらの共通アーキテクチャは、これらのものを提供することができます。これが私の希望です。 エネルギーモデルと他の方法とのつながりZDNet:エネルギー モデルの説明方法は、ディラック-ファインマン経路積分や波動関数などの量子電気力学のものに少し似ています。これは単なる比喩でしょうか、それともこの 2 つは実際に一貫しているのでしょうか? YL:これは比喩ではなく、実際この 2 つは少し異なり、まったく同じではありません。たとえば、さまざまな値を取ることができる潜在変数がある場合、通常必要なのは、この潜在変数のすべての可能な値を反復処理することです。これは少し非現実的かもしれません。したがって、何らかの分布から潜在変数をサンプリングし、可能な結果のセットを計算することができます。しかし、実際に計算するのは、潜在変数の可能な値の平均の期待値を提供するコスト関数です。これは経路積分によく似ています。経路積分は、少なくとも従来の意味では、複数の経路のエネルギーの合計にすぎません。量子的なアプローチでは、確率や分数を加算するのではなく、複素数を加算し、複素数は互いに打ち消し合います。我々はこのようなことを考えてきましたが(少なくとも私は同じことを考えてきました)、我々の研究ではこのようなことは何もありません。 これは文脈では使用されていませんが、潜在変数の周辺化とパス/軌道の合計は非常に似ています。 ZDNet:かなり驚くべき主張を 2 つしましたね。 1 つは、深層学習に対する確率的アプローチが時代遅れになっていることです。第二に、あなたが議論しているエネルギーベースのモデルは、ホップフィールド ネットワークなどの 1980 年代のアプローチといくつかの関連があるとおっしゃいました。これら2点について詳しく説明していただけますか? YL:確率モデルから離れる必要がある理由は、2 つの変数 X と Y の相関関係をモデル化することはできますが、Y が高次元の場合、Y 上の分布をどのように表現すればよいかということです。本当に何をしたらいいのか分かりません。非常に単純な分布、つまりガウス分布やガウス分布の混合などしか記述できません。複素確率を使用して測定したい場合、その方法がわかりません。または、エネルギー関数を通じて測定するしか方法がわかりません。つまり、低エネルギーは高い確率に対応し、高エネルギーは低い確率に対応するエネルギー関数しか書けず、物理学者はそのようにエネルギーを理解しているわけですね?問題は、標準化の方法を十分に理解していないことです。 統計学、機械学習、計算物理学などの分野では、この厄介な問題を解決する方法を扱った論文が数多くあります。私が主張しているのは、確率モデルを忘れて、エネルギー関数そのものを考慮することです。エネルギーを標準化できる形にする必要すらありません。最終結果として、互換性のあるエネルギー関数が低くなり、互換性のないエネルギー関数が高くなるように、データ モデルをトレーニングするときに損失関数を最小化する必要があります。とても簡単です。 ZDNet:ホップフィールド ネットワークとの関係はどのようなものですか? YL:ホップフィールド ネットワークとボルツマン マシンは確かにここで関連しています。ホップフィールド ネットワークは非対照的な方法でトレーニングされたエネルギー モデルですが、非常に非効率であるため、ホップフィールド ネットワークを使用する人はほとんどいません。ボルツマン マシンは基本的にホップフィールド ネットワークの対照的なバージョンであり、データ サンプルを取得してそのエネルギーを下げ、他のサンプルを生成してそのエネルギーを上げます。このアプローチは、いくぶん満足できるものですが、この対照的なアプローチは拡張性がないため、あまり効果的ではありません。このため、この方法も使用されません。 ZDNet:では、正規化潜在変数エネルギーベースモデル (RLVEB) は、本当にホップフィールドネットワークの 2.0 バージョンと見なすことができますか? YL:そんなことはないと思います。 「意識は人間の脳の限界の結果である」ZDNet:あなたは、もう一つのかなり驚くべき主張をしています。それは、「世界のモデルは 1 つだけ」であり、意識は人間の脳における「世界のモデルの意図的な構成」であるというものです。それはおかしな仮定かもしれないとあなたは言いました。これはあなたの推測ですか?これは単なる突飛な仮説でしょうか、それともそれを裏付ける証拠はあるのでしょうか?この場合の証拠は何ですか? YL:これは推測であり、突飛な考えです。意識に関するすべては、ある程度は推測です。なぜなら、私たちは最初は意識が何であるかを知らないからです。意識は幻想だと思います。私が言おうとしているのは、意識は人間や一部の動物が持つ能力だと考えられており、意識がこれらの生物の知能を反映していると考えるのは少々ばかげているということです。意識は私たちの脳の限界の結果であると私は考えています。なぜなら、私たちの脳には世界モデルのような単一のエンジンがあり、このエンジンを制御する何かが必要であり、それが意識だからです。つまり、人間には意識があるという幻想を抱いているのです。もし私たちの脳が無限に大きくなり、限界がなくなったら、私たちは意識を必要としなくなるでしょう。 私たちの脳には多かれ少なかれ単一のシミュレーション エンジンが存在するという証拠が少なくともいくつかあります。たとえば、私たちは基本的に一度に 1 つの意識的なタスクしか実行できず、そのタスクに集中し、計画した行動の結果を想像します。一度に 1 つのことしかできない、あるいは複数のことを同時に行うこともできますが、これらのマルチタスクは、無意識のうちに行うように私たちが訓練している行動です。例えば、運転中に周りの人と話をすることもできます。運転を長い間練習していれば、運転は無意識の行動になります。したがって、運転を習う最初の数時間は、運転しながら話すことはできません。世界モデル予測エンジンを使用して、起こり得るすべての恐ろしい状況を把握する必要があるため、運転プロセスを完了するために集中する必要があります。 ZDNet:もしこれが単なる憶測であれば、あなたの現在の仕事にはまったく関係がないのですね? YL:いいえ、それは理にかなっています。私が提案するこの自律型 AI モデルには、将来を計画して想像し、完全に観察できないギャップを埋めることを目的とした、構成可能な世界モデル シミュレーション エンジンが搭載されています。システムがタスク間で知識、つまり観察や基本ロジックなどを通じて学習した知識を共有できるようにする単一の構成可能なモデルを持つことには、計算上の利点があります。個別にトレーニングする必要がある可能性のある、異なるタスクに完全に別々のモデルを使用するよりも、構成した大規模なモデルを使用する方がはるかに効率的です。しかし、私たちはそれを見たことがありますよね? 私が Facebook にいた頃 (Meta がまだ Facebook と呼ばれていた頃)、私たちはビジョンを使用して画像を分析し、分類およびフィルタリングしていました。基本的に、さまざまなタスクを解決するために、専用のニューラル ネットワークと専用の畳み込みネットワークを使用していました。しかし今では、あらゆるタスクを処理できる大規模なネットワークが存在します。以前は複数の ConvNet がありましたが、現在は 1 つだけです。 この単純化がわかります。今では、すべてを実行できるアーキテクチャさえあります。同じアーキテクチャで、視覚、テキスト、音声言語を処理できます。このアーキテクチャは 3 つのタスクごとに個別にトレーニングする必要があり、このアーキテクチャ data2vec は自己教師あり方式です。 ZDNet:それは本当に興味深いですね!共有していただきありがとうございます。 |
過去 2 年間で、Linking Open Data などのプロジェクトの本格的な開発により、セマン...
2 人用ノーリミット ポーカーとマルチプレイヤー ノーリミット ポーカーでトップの人間プレイヤーに...
人工知能は、無意識のうちに私たちの生活にほぼ完全に浸透しているようで、人工知能の知能レベルはますます...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
1. 畳み込みニューラルネットワーク畳み込みニューラル ネットワーク (CNN) は、人工ニューロン...
人工知能 (AI) には、問題を理解し解決する神秘的な力があると考える人もいます。人工知能は人々の日...
翻訳者 |李睿レビュー | Chonglou AI 拡張ソフトウェア エンジニアリングは、人工知能と...
人工知能企業は主に北京、上海、深セン、杭州に分布している中国新世代人工知能開発研究所のデータによると...
現在の AI ブームと展望に基づいて、2023 年の AI に関して専門家が予測する 6 つの点を紹...
今後10年間で、翻訳者、ジャーナリスト、アシスタント、警備員、運転手、販売員、カスタマーサービス、ト...
[[353439]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
2021 年に AI 分野で最も画期的な賞を授与するとしたら、誰を選びますか? 「サイエンス」と「ネ...
パターン認識や機械学習のファンであれば、機械学習では避けられない重要な問題であるサポートベクターマシ...
ハイテク業界は常に進化しており、毎週新たな革命的な変化が起こっています。当然のことながら、関連するニ...