すべてを圧縮するだけです! OpenAIの主任科学者イリヤ・スツケバーが教師なし学習に注目

最近、OpenAI の主任科学者 Ilya Sutskever 氏が、計算理論の研究に重点を置く Simons Institute で講演を行いました。簡単に言えば、教師なし学習を圧縮の観点から見ることができます。彼はまた、他の多くの興味深い洞察も共有しました。 Synced は、読者が教師なし学習をより深く理解できるように、スピーチの全体的な内容をまとめました。

Sutskever 氏はまず、自身の研究の方向性の変化について語った。同氏は「つい最近、私は自分の研究の焦点をすべて AI アライメント研究に移しました」と述べた。これは、OpenAI が以前設立した「スーパーアライメント」チームのことで、同氏と Jan Leike 氏が共同で率いている。 Sutskever 氏は、AI アライメントに関していくつかの研究成果を達成したが、これは今回の講演の焦点ではないと述べた。これに興味のある読者は、「 AI を使用して AI を調整する?」を参照してください。スーパーアライメントチームのリーダーが、OpenAI のスーパーインテリジェンスをアライメントするための 4 年間の計画について説明します。

このスピーチのタイトルは「一般化に関する考察」であり、Ilya Sutskever 氏は特に教師なし学習を説明する理論に焦点を当てています。

まず、イリヤ・スツケヴェル氏は「学習」について一連の幅広い疑問を提起しました。学習とはいったい何なのでしょうか?学習はなぜ役に立つのでしょうか?学習はなぜ役に立つのでしょうか?なぜコンピューターは学習できる必要があるのでしょうか?ニューラルネットワークはなぜ学習できるのでしょうか?機械学習モデルがデータのパターンを学習できるのはなぜですか?学習を数学的に記述することはできるでしょうか?

教師あり学習

Sutskever は教師あり学習から始まります。彼は、教師あり学習に関する重要な正式な研究があり、それは何年も前に何人かの研究者が取り組んだ結果であり、この研究は一般に統計学習理論と呼ばれている、と述べた。

教師あり学習の利点は、学習が成功するための正確な数学的条件を提供することです。つまり、特定のデータ分布からのデータがあり、低いトレーニング損失を正常に達成でき、トレーニングデータが十分に大きい (データ分布の自由度より大きい) 場合、テストエラーは低くなるはずです。

数学的に言えば、関数のクラス内でトレーニング損失が低い関数を見つけることができれば、学習は必ず成功します。したがって、教師あり学習は非常に簡単です。

研究者は関連研究でいくつかの定理を発見しており、以下はその一例です。スツケヴァー氏は定理の説明には約5分かかると述べたが、彼のプレゼンテーションの時間が限られていることは明らかだった。

全体として、この定理は非常に「エレガント」であり、教師あり学習プロセスを証明するには 3 行の数学的導出しか必要ありません。

したがって、相対的に言えば、教師あり学習はよく理解されています。なぜそれが成功するのかはわかっています。大規模な教師あり学習データセットを収集できる限り、モデルはどんどん良くなっていくと確信できるからです。もちろん、テスト分布がトレーニング分布と一致していることを確認するというもう 1 つの点も非常に重要です。この方法でのみ、教師あり学習理論が効果を発揮します。

つまり、教師あり学習の概念は非常にシンプルです。また、教師あり学習がなぜ機能するかについてもすでに答えが出ています。音声認識と画像分類がなぜ可能なのかは、どちらも効果的で数学的に保証された教師あり学習に基づいているからだとわかっています。

ここで、Ilya Sutskever 氏は VC の側面について簡単に触れました。彼は、統計学習理論の研究者の多くは VC 次元が重要な要素であると考えているが、VC 次元を発明した目的は、モデルが無限の精度でパラメータを処理できるようにすることであると述べました。

たとえば、線形分類器の各パラメータの精度が無限であり、実際の浮動小数点数の精度は有限で精度が縮小する場合、VC 次元を通じていくつかの関数を実装して、この線形分類器を前の式で説明した教師あり学習形式に縮小できます。

教師なし学習とは何ですか?

次に、教師なし学習について見てみましょう。まず、教師なし学習とは何でしょうか?イリヤ・スツケヴェル氏は、教師なし学習について満足のいく説明はまだ見たことがなく、数学的にどう推論すればよいのかもわからず、せいぜい直感的な推論しかできないと述べた。

教師なし学習は機械学習の分野における長年の夢です。 Sutskever 氏は、この目標は、モデルがデータの内容を知らされずにデータを観察し、その中に隠された実際の有用な構造を発見する実験研究で達成されたと考えています。

どうしてこんなことが起きたのでしょうか?これが実現することを保証できますか? Sutskever 氏は、結局のところ、教師あり学習の場合と同じ理論的保証が教師なし学習にはないため、それは不可能だと言います。

1980 年代から、同様の用語を使用して、教師なし学習の研究が行われてきました。実験では、データ量が少ない場合には教師なし学習が行われないことが観察されましたが、BERT、拡散モデル、旧式の言語モデルなど、現在人気のある開発アイデアがいくつか登場しています。当時の教師なし学習では、いくつかの優れたサンプルを生成することができましたが、もちろん、今日のテクノロジーほど優れているわけではありませんでした。

しかし、教師なし学習は、その仕組みが分からないため、常に混乱を招いてきました。

たとえば、特定の目的 (画像の再構成や次の単語の予測など) を最適化するときに、別の目的 (画像分類やドキュメント分類など) も考慮する必要がある場合があり、モデルはこの最適化されていない目的に対しても良好なパフォーマンスを発揮する可能性があります。しかし、なぜこのようなことが起こるのでしょうか?分かりませんが、これが実験結果です。スツケヴァー氏はそれは魔法のようだと語った。

私たちは理論を放棄して実証主義を続けるのでしょうか?

教師なし学習とは、入力分布の構造を学習し、そこから目標達成に役立つ何かを得ることであることはわかっています。しかし、入力分布が均一分布の場合はどうなるでしょうか?この時点で、さまざまな教師なし学習アルゴリズムは失敗します。この現象をどう見るべきでしょうか？スツケヴァー氏は、いくつかの仮定を立てる必要があると語る。

教師なし学習アプローチ：分布マッチング

次に、Sutskever 氏は教師なし学習について考える潜在的な方法を実証しました。彼は、この教師なし学習アプローチはこれまで主流になったことはないが、非常に興味深いものだと語った。教師あり学習と似た特徴があり、必ず効果的です。なぜこのようなことが起こるのでしょうか?これには、分布マッチングと呼ばれる教師なし学習プロセスが含まれます。

以下簡単に説明させていただきます。 2 つのデータソース X と Y があり、それらの間に対応する関係がないとします。モデルの目標は、F (X) の分布が Y の分布とほぼ一致する関数 F を見つけることです。これが F の制約です。

機械翻訳や音声認識などの多くのアプリケーションでは、この制約は意味をなす可能性があります。たとえば、英語の文章の分布があり、関数 F を使用した後にフランス語の文章の分布に近い分布を取得できる場合、F の真の制約を取得したと言えます。

X と Y の両方の次元が十分に高い場合、F には多数の制約が存在する可能性があります。実際、これらの制約から完全な F を回復できる可能性もあります。これは教師あり学習と教師なし学習の例であり、教師あり学習が機能するのと同じように、これも機能するはずです。

さらに、置換暗号もこのフレームワークに適合します。

スツケバー氏は2015年に独自にこの現象を発見したと語った。これにより、彼は考えました。おそらく、教師なし学習を何らかの意味のある数学的形式で記述できるだろう。

もちろん、上で説明した機械翻訳のシナリオは単純化された人工的なシナリオであり、実際の適用状況に適合するものではありません。対応する教師なし学習のシナリオについても同様です。

次に、Sutskever 氏は、教師なし学習を数学的に説明し、教師なし学習の結果が良好であることを保証できる、提案手法について説明します。

ご存知のとおり、圧縮は一種の予測であり、すべての圧縮器は予測器に変換でき、その逆も同様です。すべてのコンプレッサーとすべての予測子の間には 1 対 1 の対応があります。

Sutskever 氏は、教師なし学習についての考え方をより明確に説明するには、圧縮アプローチを使用する方が有利であると指摘しています。

これに基づいて、彼は思考実験を行った。

ハードドライブ上に 2 つのファイル、X と Y という 2 つのデータセットがあるとします。この場合、優れた圧縮アルゴリズム C が存在します。さらに、X と Y を共同で圧縮するとします。つまり、最初にそれらを連結してから、コンプレッサーに入力します。

ここで重要な質問は、十分に優れたコンプレッサーは何をするのでしょうか? ということです。

Sutskever は非常に直感的な答えを出しています。つまり、コンプレッサーは X に存在するパターンを使用して Y を圧縮し、その逆も同様です。

彼は、予測タスクのシナリオでは実際に同様の現象が存在するが、圧縮された文脈で説明するとより直感的にわかるようだと述べた。

圧縮機が十分に優れている場合、連結されたファイルの圧縮結果は、個別に圧縮した場合の結果よりも悪くならないはずです。

したがって、接続することで得られるさらなる圧縮効果は、コンプレッサーが認識するある種の共有構造です。コンプレッサーの性能が高ければ高いほど、より一般的な構造を抽出できます。

2 つの圧縮結果の違いは、共通の構造、つまりアルゴリズムの相互情報量です。

同様に、Y を教師ありタスクのデータ、X を教師なしタスクのデータとして考えることができ、この情報について何らかの数学的推論が可能になり、X のパターンを使用してタスク Y を支援できます。

また、それが分布マッチングにどのように一般化されるかにも注意してください。分布が一致する状況があり、たとえば X が言語 1 で Y が言語 2 で、ある分布から別の分布に変換する単純な関数 F がある場合、優れたコンプレッサーはこれに気付いてそれを利用し、内部で関数を復元できる可能性があります。

このようにして、閉じたループが形成されます。では、教師なし学習を数学的にどのように記述するのでしょうか?

教師なし学習の数学的形式化

このセクションの説明では、圧縮シナリオと予測シナリオの説明を同じ意味で使用することに注意してください。

まず、Y を圧縮する機械学習アルゴリズム A があるとします。アルゴリズム A は X にアクセスできます。 X をファイル番号 1、Y をファイル番号 2 とします。機械学習アルゴリズム/コンプレッサーが Y を圧縮し、適切な場合に X を使用できるようにしたいと考えています。目標は、Y を可能な限り圧縮することです。

そこで、私たちは自分自身に問いかけなければなりません。このアルゴリズムを使用することで、最も後悔していることは何でしょうか?

「良い仕事をして後悔が少ないということは、このラベルなしデータからできる限りの助けを得たということです」と Sutskever 氏は説明します。「このラベルなしデータは、私にできる限りの助けを与えてくれました。後悔はありません」。つまり、より優れた圧縮アルゴリズムを使用するための、より優れた予測は残っていないということです。「ラベル付けされていないデータを最大限に活用できました。」

Sutskever 氏は、これを教師なし学習について考える上で重要な一歩だと考えています。教師なしデータセットが実際に役立つかどうかはわかりませんが、教師あり学習アルゴリズムに対する後悔が低ければ、それが役立つかどうかにかかわらず、すでに最良の結果が達成されており、より良い結果を得ることは不可能です。

ここで、やや難解な理論領域に入ります。

究極の圧縮器としてコルモゴロフ複雑度を使用すると、非常に低い後悔アルゴリズムが得られますが、計算可能ではないため、実際にはアルゴリズムではありません。

まず、コルモゴロフ複雑性について簡単に説明しましょう。これは、あるデータを与えられたら、それを圧縮するために、できるだけ短いプログラムを提供するようなものです。コルモゴロフ複雑度は、この最短プログラムの長さに等しくなります。

C を計算可能な圧縮器とし、すべての X に対して、コルモゴロフ圧縮器の複雑さが、圧縮器 C の任意の出力と、圧縮器を実装するために必要なコード文字の数の合計よりも小さくなるものとします。

シミュレーション引数を使用してこれを実証できます。非常に優れたコンプレッサー C があるとします。これはコンピュータプログラムである可能性があります。このコンピュータプログラムを K に渡して実行させる場合、K に必要なコストはプログラムの長さになります。コルモゴロフコンプレッサーは他のコンピュータプログラムや他のコンプレッサーをシミュレートできるため、計算不可能です。これは、あらゆるコンピュータプログラムをエミュレートする無料プログラムのようなものですが、存在し得る最高のコンプレッサーでもあります。

ここで、追加情報を活用できるようにコルモゴロフコンプレッサーを一般化します。コルモゴロフ圧縮器は計算不可能かつ決定不可能であることはわかっていますが、それはすべてのプログラムを検索するようなものです。これは、SGD (確率的勾配降下法) を介してパラメータを調整し、ニューラルネットワークを使用してプログラムを検索するようなものです。このプロセスは、一定量のリソース (メモリ、ステップ数) を備えたコンピューター上で実行され、非常に小さなコルモゴロフコンプレッサーのようなものです。両者の間には類似点があります。

ニューラルネットワークは小さなプログラムをシミュレートでき、ループ/回路を備えた小さなコンピューターです。 SGD を使用してこれらのコンピューターをトレーニングし、データからその「回路」を見つけることができます。

シミュレーションの議論はここでも当てはまります。より優れたニューラルネットワークアーキテクチャを設計する場合、接続の追加や変更などの操作は他のニューラルネットワークアーキテクチャでシミュレートできますが、実際に実行するのは難しいため、困難であることがわかります。なぜなら、これらは大きな改善につながる稀な状況だからです。 RNN から Transformer への移行と同じです。 RNN にはボトルネック、つまり隠れ状態があります。しかし、RNN が非常に大きな隠し状態を持つことができる方法を見つけることができれば、RNN のパフォーマンスは再び Transformer に追いつく可能性があります。

したがって、次のように条件付きコルモゴロフ複雑性を教師なし学習の解決策として使用できます。

ここで、C は計算可能な圧縮器であり、K(Y|X) は、X が利用可能な場合に Y を出力できる最短プログラムの長さです。

これは、計算可能ではないことを除けば、教師なし学習に対する非常に後悔の少ないソリューションですが、便利なフレームワークを提供します。

すべてを圧縮するだけです!

Sutskever 氏はさらに、「すべてを圧縮する」ことも可能だと述べました。

条件付きコルモゴロフ複雑度 K(Y|X) は、機械学習のコンテキストでは不自然です。これは、少なくとも現時点では、大規模なデータセットで条件付けすることは本質的に不可能である X に基づいて Y を圧縮するためです。大規模なデータセットに適合させることはできますが、それを条件付けるのは困難です。

つまり、監視対象の Y について予測を行う場合、X と Y の連結を圧縮する通常のコルモゴロフコンプレッサーを使用すると、条件付きコンプレッサーと同様にパフォーマンスが向上します。もちろん、実際の詳細にはもっと微妙な点がありますが、基本的にこれは、教師なし学習に通常のコルモゴロフコンプレッサーを使用できることを意味します。つまり、すべてのデータを連結して圧縮を実行するだけで、関心のある教師ありタスクで良好な結果が得られます。

この証明はもう少し複雑なので、ここでは詳しく説明しません。

重要な結論は、一般的なコルモゴロフ圧縮 (データセットに条件付けられていない) では、ラベルなしのデータが可能な限り最善の方法で「使用される」ということです。これが教師なし学習の解決策です。

関節圧迫は最も可能性が高い

Sutskever 氏が講演で最後に指摘したのは、過剰適合がない限り、この共同圧縮は最大尤度であるという点でした。

データセットがある場合、パラメータが与えられた尤度の合計がそのデータセットを圧縮するコストになります。圧縮パラメータのコストも支払う必要があります。 2 つのデータセットを圧縮したい場合も問題ありません。データセットにデータポイントを追加するだけです。つまり、上記の合計演算に項を追加するだけです。

したがって、データを連結することによる共同圧縮は、機械学習の文脈では非常に自然なアプローチです。それに比べて、条件付きコルモゴロフ複雑度ははるかに厄介です。

これを使って、ニューラルネットワークの仕組みを説明することもできます。大規模なプログラム検索器として、大規模なニューラルネットワーク用の SGD を使用できます。ニューラルネットワークが大きくなればなるほど、通常のコルモゴロフコンプレッサーをより正確に近似できるようになります。「おそらくそれが、私たちが大規模なニューラルネットワークを好む理由です。通常のコルモゴロフコンプレッサーの考え方を、後悔なしに近似できるからです。これは実現不可能です」と Sutskever 氏は言います。「ニューラルネットワークをどんどん大きくトレーニングすればするほど、後悔はどんどん少なくなります。」

この理論は GPT モデルにも当てはまりますか?

これに対するSutskever氏の答えは「はい」ですが、GPTモデルの動作を説明するために、圧縮や教師あり学習についての説明を引用する必要はありません。テキストの条件付き分布について推論することで、GPTの「理論」を得ることができると言えます。

では、この理論を検証するための他の直接的な検証方法は見つかるでしょうか?視覚のような他の分野の観点から説明できますか?これをピクセルデータで実行すれば、優れた教師なし学習が得られるでしょうか?

スツケバー氏は、すでに2020年にiGPTという同様の研究を実施していたと述べた。もちろん、これは主に概念実証研究であり、実用化にはまだ程遠いものです。詳細については、論文「Generative Pretraining from Pixels」を参照してください。

この論文では、優れた次のステップの予測子を作成できれば、優れた教師なし学習結果が得られることを示しています。この論文では、画像の分野でこの主張を実証します。

簡単に言うと、まず画像はピクセルのシーケンスに変換され、各ピクセルには個別の密度値が設定されます。私たちがしなければならないことは、同じ Transformer を使用して次のピクセルを予測することだけです。これは、圧縮された尤度を最大化する点で、次のトークンを予測する BERT とは異なります。

結果を見てみましょう:

図に示すように、これは CIFAR-10 上の異なるサイズの iGPT モデルの線形探索精度、つまり教師なし学習のピクセル予測タスクにおける次のステップ予測精度です。次のピクセルを予測することは、次の単語を予測することと同じくらい効果的であることがわかります。教師なし学習は、モデルのサイズが大きいほど効果的に機能します。

彼らは実験的研究を行い、ImageNet では、多くの面で拡張された iGPT のパフォーマンスが、今日の最高の教師あり学習に近づく可能性があるが、まだいくらかのギャップがあることを発見しました。

しかし、Sutskever 氏は、これは計算上の問題だと考えています。なぜなら、SimCLR などの教師あり学習法では高解像度の大きな画像が使用され、巨大な Transformer (68 億のパラメータ) には 64×64 の小さな画像しか提供されないからです。これは、大規模なデータセットに基づいて教師なし方式で次のピクセルを予測し、ImageNet に線形プローブを適合させると、かなり良い結果が得られるようなものになります。

CIFAR-10 では、13.6 億のパラメータを持つ iGPT-L が 99% の精度を達成しました (下図を参照)。

線形特性

講演の最後に、Sutskever 氏は線形表現について話したいと述べました。

「圧縮理論が好きなのは、これまでは教師なし学習を厳密に考える方法がなかったからです」と彼は言う。そして今では、ある程度それができるようになった。しかし、圧縮理論では、表現が線形に分離可能である理由や、線形プローブが存在する理由を直接説明することはできません。線形表現はどこにでも存在し、その形成理由は深いものであるに違いありません。 Sutskever 氏は、将来的にはそれを表現できるようになると信じている。

彼は、自己回帰モデルが線形表現において BERT よりも優れている点が興味深いと感じました。しかし、その理由はまだ不明だ。

しかし、Sutskever 氏は独自の推測を述べています。つまり、以前のすべてのピクセルに基づいて次のピクセルを予測する場合、モデルはデータの長距離構造を観察する必要があるということです。 BERT はベクトルを処理するときにいくつかのピクセルトークンを破棄し、過去と未来を少し考慮することで、モデルは実際にかなり正確な予測を得ることができます。これにより、難しいタスクがすべて削除され、タスクの難易度が大幅に軽減されます。次のピクセルを予測するという最も難しい予測タスクは、BERT 予測の場合の最も難しい予測タスクよりもはるかに困難です。

<<: リアルタイム、高精細、高忠実度：より強力なビデオ再構成アルゴリズム、大幅に向上したパフォーマンス

>>: MIT、物体を拾うための「最強のアシスタント」を発表、少量のトレーニングサンプルで自然言語制御を実現