場合によっては、AI モデルはトレーニング データを超えて一般化します。人工知能の研究では、この現象は「ひらめき」と呼ばれており、Google は現在、最近の発見についての洞察を提供しています。 トレーニング中、AI モデルはトレーニング データを単に記憶しただけであるにもかかわらず、突然問題を「理解」したように見えることがあります。人工知能の研究では、この現象は「エピファニー」と呼ばれています。これは、アメリカの作家ロバート・A・ハインラインが作った新しい言葉で、主にコンピュータ文化において深い理解を表すために使われています。 AI モデルがひらめきを得ると、トレーニング データを単純に複製する段階から、一般化できるソリューションを発見する段階に突然移行します。そのため、単なるランダムな模倣ではなく、問題を実際にモデル化して予測を行う AI システムになる可能性があります。 Google チーム:「エピファニー」は「条件付き現象」「ひらめき」は、ニューラルネットワークがどのように学習するかをより深く理解したい人工知能研究者の間で大きな関心を集めています。これは、「ひらめき」が、モデルが記憶と一般化に関して異なる学習ダイナミクスを持つ可能性があることを示唆しており、これらのダイナミクスを理解することで、ニューラル ネットワークの学習に関する重要な洞察が得られる可能性があるためです。 当初は単一のタスクでトレーニングされた小規模モデルで観察されましたが、当社の最新の研究では、より大規模なモデルでも洞察が得られ、場合によっては確実に予測できることが示されています。しかし、大規模なモデルでこのような顕現的なダイナミクスを検出することは依然として課題です。 この記事では、Google の研究者がこの現象と現在の研究を視覚的に表現しています。研究チームは、1,000 種類を超えるさまざまなトレーニング パラメータを使用してアルゴリズム タスクで小規模モデルをトレーニングし、「条件付き現象 (モデル サイズ、重みの減衰、データ サイズ、その他のハイパーパラメータが適切でない場合に消える現象)」を実証しました。 ひらめきを理解することで、大規模なAIモデルを改善できる可能性がある研究チームによると、どのモデル制約が確実に「ひらめき」を引き起こすのか、モデルが最初にトレーニングデータを記憶することを好むのはなぜか、この現象を小規模モデルで研究するために研究で使用された方法は大規模モデルにも適用できるかどうかなど、多くの未解決の疑問が残っているという。 ひらめきに関する理解が深まれば、トレーニング データよりも確実かつ迅速に優れたパフォーマンスを発揮できる将来の大規模 AI モデルの設計に役立つ可能性があります。 2021年、一連の小さなモデルをおもちゃのタスクで訓練していた研究者たちは、あるグループのモデルが、より長い訓練の後、以前の訓練データを単に「記憶する」だけの状態から、目に見えない入力に対して正しい一般化機能を示す状態に突然変化したことを発見した。 この現象は「エピファニー」と呼ばれ、大きな関心と研究の波を引き起こしました。 より複雑なモデルも、長期間トレーニングすると突然一般化できる能力を示すのでしょうか? 大規模な言語モデルは外界をしっかりと理解しているように見えるかもしれませんが、モデルはトレーニングに使用した膨大な量のテキスト データの断片を単に繰り返し記憶しているだけで、その内容を実際には理解していない可能性があります。 一般化しているのか、それとも暗記しているのか、どうやって見分けるのでしょうか? この記事では、研究者らがマイクロモデルのトレーニング ダイナミクスを研究し、見つかったソリューションをリバース エンジニアリングします。その過程で、研究者らが理解しているこの興味深い新しいメカニズムの部分を説明します。 ただし、これらの技術が今日の最大規模のモデルにどのように適用されるかは不明です。しかし、小さなモデルから始めると直感を養いやすくなります。研究者がこの目標に向かって努力するにつれて、大規模言語モデルに関するこれらの重要な疑問は最終的に答えられるでしょう。 モジュラー加算の啓示モジュラー加算は「ひらめき」を検出する最良の方法です。 (モジュラー加算とは、2つのデータを加算することです。加算結果が一定値を超えると、自動的に一定値に戻ります。12時間制を例にとると、12時を超えると自動的に時間の合計がゼロに戻りますが、これは典型的なモジュラー加算です。) 突然の一般化は、トレーニング データが記憶された後によく発生します。モデルの初期出力はトレーニング データと一致しますが、トレーニングが続くにつれて、テスト データとの適合度が向上し続け、一般化が発生します。このプロセスは悟りと呼ばれます。 上記の画像は、a+b mod 67 (つまり、a+b の合計が 67 を超えるとゼロに戻るモジュラー加算) を予測するようにトレーニングされたモデルからのものです。 研究者たちはまず、すべてのペアデータをテスト データセットとトレーニング データセットにランダムに分割しました。 トレーニング プロセス中、トレーニング データはモデルが正しい答えを出力するように調整するために使用され、テスト データはモデルが一般的なソリューションを学習したかどうかを確認するためにのみ使用されます。 モデルのアーキテクチャも非常にシンプルです。 24 個のニューロンを持つ単層 MLP。モデルの重みはすべて下のヒートマップに表示されます。上の折れ線グラフにマウスを合わせると、トレーニング中に重みがどのように変化するかを確認できます。 モデルは、入力 a と b に対応する 2 つの列を選択し、それらを加算して 24 個の個別の数値のベクトルを作成することで予測を行います。次に、ベクトル内のすべての負の数を 0 に設定し、最後に更新されたベクトルに最も近い列を出力します。 モデルの重みは最初は非常にノイズが多いですが、テスト データの精度が向上し、モデルが一般化され始めると、周期的なパターンを示し始めます。 トレーニングの終了時には、入力数が 0 から 66 に増加するにつれて、各ニューロン、つまりヒートマップの各行は、高い値と低い値の間を何度も循環します。 研究者が訓練終了時にニューロンがサイクルする頻度に応じてニューロンをグループ化し、各ニューロンを別々の線としてプロットすれば、発生した変化を確認しやすくなるだろう。 これらの周期的なパターンは、モデルが何らかの数学的構造を学習していることを示しています。モデルがテスト サンプルの計算を開始したときにこれが発生すると、モデルが一般化を開始していることを意味します。 しかし、なぜモデルは記憶した解決策を破棄するのでしょうか?一般化された解決策は何ですか? 0と1のシーケンスを一般化するようにモデルをトレーニングする確かに、これら 2 つの問題を同時に解決するのは困難です。研究者は、一般化ソリューションがどのようなものであるべきかを研究者が知っている、より単純なタスクを設計し、モデルが最終的にそれをどのように学習するかを理解しようとすることができます。 研究者たちは別の計画を考案した。まず、0と1からなる30個の数字をランダムに生成して数列を作り、数列の最初の3つの数字の中に1が奇数個あるかどうかを予測するモデルを訓練した。1が奇数個ある場合、出力は1、そうでない場合は出力は0となる。 たとえば、01011001011000101010111001001011 は 1 になります。 000110010110001010111001001011 は 0 に等しい。 基本的に、これは少し干渉ノイズを伴う、少し複雑な XOR 演算です。 モデルに一般化機能がある場合は、出力のシーケンスの最初の 3 桁のみに焦点を当てる必要があります。モデルがトレーニング データを記憶している場合は、後続の干渉桁を使用します。 研究者のモデルは単層 MLP のままであり、1,200 個のシーケンスの固定セットを使用してトレーニングされています。 最初は、トレーニング データの精度のみが向上し、モデルがトレーニング データを記憶していることが示唆されました。 モジュラー演算と同様に、テスト データの精度は最初は基本的にランダムです。 しかし、モデルが一般化されたソリューションを学習すると、テスト データの精度は劇的に向上しました。 以下の重みグラフは、トレーニング データを記憶するときに、モデルが密でノイズが多く、多くの大きな重み (濃い赤と青の四角で表示) がシリーズの後半に分散していることを示しています。これは、モデルがすべての数値を使用して予測を行っていることを示しています。 モデルが一般化されてテストデータで完全な精度を達成すると、研究者は、妨害数字に関連付けられた重みがすべて灰色に変わり、非常に低い値になり、モデルの重みがすべて最初の 3 桁に集中していることを確認しました。 これは研究者が予想した一般化構造と一致しています。 この単純化された例を見ると、なぜこのようなことが起こるのかが理解しやすくなります。 実際、研究者はトレーニング プロセス中に、モデルが同時に 2 つの目標を達成することを要求しています。1 つは、できるだけ高い確率で正しい数値を出力すること (損失の最小化と呼ばれる)、もう 1 つは、出力を完了するために、できるだけ小さい合計重みを使用すること (重みの減衰と呼ばれる) です。 モデルが一般化される前に、正しいラベルの出力に関連する損失を減らしながら、可能な限り最小の重みを得るために重みを減らすため、トレーニング損失がわずかに増加します (出力精度はわずかに低下します)。 テスト データの損失が急激に減少したため、モデルが突然一般化を開始したように見えますが、実際には、以前から一般化が進行していました。 ただし、トレーニング中にモデルの重みを観察して記録すると、重みのほとんどはこれら 2 つの目的の間で均等に分散されます。 気を散らす数字に関連付けられた最後の重みセットが重み減衰目標によって「削除」されると、一般化が直ちに発生します。 顕現はいつ起こるのでしょうか?「エウレカ」は偶然の現象であり、モデルのサイズ、重みの減衰、データ サイズ、その他のハイパーパラメータが適切でない場合は発生しないことに注意することが重要です。 重みの減衰が小さすぎると、モデルはトレーニング データの過剰適合を排除できません。 重みの減衰をさらに追加すると、モデルは記憶後に一般化されるようになります。重みの減衰がさらに増加すると、テスト データとトレーニング データの両方で不正確さが増し、モデルは直接一般化フェーズに進みます。 重みの減衰が大きすぎると、モデルは何も学習できなくなります。 次に、研究者たちはさまざまなハイパーパラメータを使用して、「1と0」タスクで1000を超えるモデルをトレーニングしました。 トレーニングにはノイズが多いため、ハイパーパラメータのセットごとに 9 つのモデルがトレーニングされました。 ご覧のとおり、この「1 と 0」のタスクはモデルのメモリと一般化をシミュレートしますが、モジュラー加算でなぜこれが起こるのでしょうか? まず、解釈可能な一般化ソリューションを構築することで、1 層 MLP がモジュラー加算を解決する方法について詳しく学びましょう。 5つのニューロンのモジュール追加たとえば、モジュラー加算問題 a+b mod 67 は周期的です。 数学的に言えば、方程式の合計は a と b が円を囲んでいるものとして考えることができます。 一般化モデルの重みも周期的であるため、解も周期的になる可能性があります。 研究者たちは、cosine と sin を使用して a と b を円上に配置する埋め込み行列を構築する、より単純なモデルをトレーニングしました。 モデルは 5 つのニューロンのみを使用して完璧なソリューションを見つけました。 次に、a+b mod 67 の問題に戻り、研究者は組み込みサイクルなしでモデルをゼロからトレーニングしましたが、このモデルには多くの周波数があります。 次に研究者らは離散フーリエ変換を使用して周波数を分離し、入力データ内の周期的なパターンを分離しました。 結果は、シーケンス内の 1 を数える前のタスクと同じです。モデルが一般化すると、重みは非常に低いレベルまで急速に減少します。 さらに、異なる周波数のタスクでは、モデルは「ひらめき」も示した。 その他の質問一般化の原因は何ですか? 研究者は現在、モジュラー加算が単層 MLP で解決されるメカニズムと、それがトレーニング中に出現する理由をしっかりと理解していますが、記憶と一般化については依然として多くの興味深い未解決の疑問が残っています。 大まかに言えば、重みの減少により、多くのモデルがトレーニング データを記憶しなくなります。 過剰適合を回避するのに役立つその他の手法には、ドロップアウト、より小さなモデル、さらには数値的に不安定な最適化アルゴリズムなどがあります。 これらのアプローチは複雑かつ非線形に相互作用するため、一般化が最終的になぜどのように起こるかを事前に予測することは困難です。 なぜ暗記は一般化よりも簡単なのでしょうか? 1 つの理論: トレーニング データセットを記憶するソリューションは、一般化ソリューションよりもはるかに多い可能性があります。 したがって、統計的には、記憶が最初に発生する可能性が高くなります。 一般化は適切に構造化された表現と関連していることを示す研究があります。ただし、これは必要条件ではありません。対称入力のない一部の MLP バリアントでは、モジュラー加算を解くときに「再帰的」表現をあまり学習しません。 研究者らはまた、適切に構造化された表現は一般化のための十分な条件ではないことも観察した。 たとえば、この小さなモデル (重み減衰なしでトレーニング) は一般化を開始し、次に記憶のために再帰埋め込みを使用するように切り替えます。 モデルが一般化を開始し、次に記憶に切り替わり、その後再び一般化に切り替わるハイパーパラメータを見つけることも可能です。 では、より大きなモデルについてはどうでしょうか?まず、これまでの研究では、小規模なTransformerおよびMLPアルゴリズムタスクにおける洞察現象が確認されています。 特定のハイパーパラメータ範囲内で画像、テキスト、表形式データを扱うより複雑なタスクでも、ひらめきが起こった。 研究者たちは次のように考えている。 1) より帰納的バイアスとより少ない可動部分を持つより単純なモデルを訓練する、 2) 大きなモデルの中で理解しにくい部分がどのように機能するかを説明するために使用する 3) 必要に応じて繰り返します。 どちらも、より大きなモデルを効果的に理解するのに役立ちます。 さらに、解釈可能性に対する私たちの機械論的アプローチは、ニューラル ネットワークによって学習されたアルゴリズムの研究をより容易にし、潜在的にさらに自動化するパターンを特定するのに役立つ可能性があります。 |
<<: GPT-4 MATHの精度は84.3%まで上昇しました!香港中文大学や清華大学を含むトップ7大学が新たなCSV方式を提案
4月20日、Syncedは「量子コンピューティング」に関するオンライン円卓会議イベントに、中国科学院...
この記事では、人工知能の分野、特にコンピューター ビジョンの分野について簡単に紹介し、そこに含まれる...
工業情報化部科学技術庁は、感染予防・抑制に努め、感染拡大を阻止するために、「人工知能の力を十分に発揮...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[416810]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
最も基本的な機械学習アルゴリズムは、単一の変数を持つ線形回帰アルゴリズムです。現在、非常に多くの高度...
近年、インターネットは急速に発展しすぎていると言わざるを得ません。最後に銀行に行ってお金を引き出した...
大規模モデルは AI コミュニティのトレンドとなり、主要なパフォーマンス チャートを席巻するだけでな...
10月17日午前、百度世界2023大会に、百度創業者のロビン・リー氏が白いシャツを着て落ち着い...
「2、3年前、アメリカの医師たちが手術室の外に座り、コーヒーを片手にしているのを見ました。彼らはリ...
次世代の集中型電子電気アーキテクチャでは、中央+ゾーン中央コンピューティング ユニットと地域コントロ...