Google DeepMind が証明: GPT-4 の最終結果は人類の知恵の集大成です! Transformerモデルはトレーニングデータを超えて一般化できない

Transformer モデルが事前トレーニングデータの範囲を超えて新しい認知と能力を一般化できるかどうかは、学界では長年議論の的となっている問題です。

最近、Google DeepMind の 3 人の研究者は、事前トレーニングデータの範囲を超えてモデルを一般化して新しい問題を解決することを要求することはほぼ不可能であると信じていました。

LLM の終わりは人類の知恵の総和でしょうか?

論文アドレス: https://arxiv.org/abs/2311.00871

論文を転送した後、Jim Fan 氏は、これはモデルのパフォーマンスに対するトレーニングデータの重要性を明確に示しているため、LLM にとってデータ品質が非常に重要であるとコメントしました。

研究者らは論文の中で、事前トレーニングプロセスの特定の側面、つまり事前トレーニングで使用されるデータに焦点を当て、それが最終的な Transformer モデルの少数ショット学習機能にどのように影響するかを調査しています。

研究者は、入力とラベルのセットを使用して、新しい入力のラベルを予測します。このような予測を行うモデルをトレーニングするには、形式の多くのシーケンスにモデルを適合させる必要があります。

研究者らは、コンテキスト内での学習を可能にするために、さまざまな機能カテゴリを組み合わせて Transformer モデルを事前トレーニングし、モデル選択動作 (モデル選択現象) を実証しました。

彼らはまた、事前トレーニングデータ内の関数のクラスから「分布外」の関数に対する事前トレーニング済み Transformer モデルの学習動作も研究しました。

このようにして、研究者は事前トレーニングデータの構成と、Transformer モデルがわずかな労力で関連タスクを学習する能力との間の相互作用と影響を研究し、次のことを発見しました。

1. 研究されたメカニズムの中には、モデルがコンテキスト学習中に事前トレーニングされた関数のクラスの中からモデル選択をほとんど追加の統計コストなしで実行できるという明確な証拠があります。

事前トレーニングデータ内のさまざまなスパースレベルの線形関数が十分にカバーされている場合、Transformer はほぼ最適な予測を行うことができます。

2. しかし、モデルの文脈学習動作が事前トレーニングデータの範囲を超えて拡張できるという証拠はほとんどありません。

結合された関数が主に 1 つの関数クラスからのものである場合、予測は妥当です。両方のクラスが同時に大きく貢献すると、予測は失敗します。

事前トレーニングデータでは非常にまれな高周波および低周波の正弦関数の場合、モデルの一般化は失敗します。

研究プロセスの詳細

まず、誤解を避けるために、この実験で使用したモデルを述べておきます。これは GPT-2 に似ており、12 層で構成され、256 次元の埋め込み空間を持っています。

前述したように、この記事ではさまざまな機能を組み合わせて研究を行う方法を採用しています。

「事前トレーニング済みの混合をサポートするコンテキスト例が提供された場合、モデルはどのようにして異なるクラスの関数を選択するのでしょうか？」という疑問を抱かずにはいられません。

これまでの研究では、線形関数で事前トレーニングされたトランスフォーマーは、新しい線形関数を文脈的に学習するときにほぼ最適に機能することが示されています。

研究者らは、研究のために 2 つの線形モデルを使用しました。1 つは密な線形関数 (線形モデルのすべての係数がゼロ以外) でトレーニングしたもので、もう 1 つは疎な線形関数 (20 個の係数のうち 2 個だけがゼロ以外であると想定) でトレーニングしたものです。

各モデルは、それぞれ新しい密な線形関数とスパースな線形関数に対して対応する線形回帰と LASSO 回帰を実行します。さらに、両方のモデルは、スパース線形関数と密な線形関数の混合で事前トレーニングされたモデルと比較されます。

上の図は、2 つの関数を D(F) = 0.5*D(F1) + 0.5*D(F2) の比率で混合すると、コンテキスト学習における新しい関数のパフォーマンスが、1 つの関数クラスのみで事前トレーニングされたモデルのパフォーマンスと同様になることを示しています。

新しい混合関数で事前トレーニングされたモデルは、以前の研究で示されたモデル（理論的に最適）と類似しているため、このモデルもほぼ最適であると推測できます。

上図の ICL 学習曲線は、このコンテキストモデルの選択能力が、提供されるコンテキスト例の数と比較的一貫していることを示しています。

また、特定の関数クラスの場合、事前トレーニングデータ混合に重みを使用する ICL の学習曲線は、その関数クラスのみでモデルを事前トレーニングする場合と比較して、最良のベースラインサンプル複雑さとほぼ一致することがわかります。

上の図は、Transformer モデルにおける ICL の一般化が不均一に分布していることも示しています。密な線形クラスと疎な線形クラスはどちらも線形関数ですが、上の図 (a) の赤い曲線のパフォーマンスは低く、それに応じて図 (b) の青い曲線のパフォーマンスも低いことがわかります。

これは、モデルがモデル選択を実行して、事前トレーニング済みの組み合わせの 1 つの基底関数クラスのみからの知識を使用して予測を行うか、他のクラスからの知識を使用して予測を行うかを選択できることを示唆しています。

実際、コンテキストで提供される例が非常にスパースな関数または非常に密な関数からのものである場合、予測は、それぞれスパースなデータのみまたは密なデータのみで事前トレーニングされたモデルによって行われた予測とほぼ同じになります。

モデルの限界

前の実験では、事前トレーニングデータを混合するケースを示しました。次に、すべての事前トレーニングデータから明示的に逸脱するいくつかの関数を調べてみましょう。

ここで著者らは、これまでに見たことのない関数と、関数の極端なバージョン（事前トレーニングで通常見られるものよりもはるかに高いまたは低い周波数の正弦波）でのパフォーマンスという 2 つの軸に沿って、ICL に一般化するモデルの能力を研究しています。

どちらの場合も、研究者は分布外一般化の証拠をほとんど発見しなかった。

上の図は、中程度のスパース性レベル (nnz = 3〜7) での Transformer の予測が、事前トレーニング中に提供されたどの関数クラスの予測とも類似しておらず、その中間にあることを示しています。

したがって、モデルには、事前にトレーニングされた関数のクラスを組み合わせるための何らかの帰納的バイアスがあると想定できます。

しかし、事前トレーニング中に確認した関数の組み合わせからモデルが予測を生成できるかどうか疑問に思う人もいるかもしれません。

したがって、私たちはこの仮説を、明らかに互いに素な関数のクラスのコンテキストでテストし、線形関数、正弦関数、および両方の凸関数の組み合わせに対して ICL を実行する能力を調査します。

上の図は、線形関数と正弦波の混合 (つまり、D(F) = 0.5*D(F1)+0.5*D(F2)) で事前トレーニングされたモデルは、これら 2 つの関数のいずれかを個別に適切に予測できるものの、2 つの関数の凸結合である関数を適合できないことを示しています。

ただし、コンテキスト内の例が事前トレーニングで学習した関数クラスに近い場合、モデルは予測に最適な関数クラスを選択できると想定できます。

図 5 では、研究者は凸結合における線形関数と正弦波の相対的な重みをスキャンしました。ここで研究者らは、合成された関数が主にどちらか一方の関数クラスからのものである場合、つまり事前トレーニング中に学習された関数クラスによって十分に近似されている場合、文脈予測は妥当であることを観察しました。

ただし、両方の関数が凸結合に大きく寄与する場合、モデルはコンテキスト例によって十分に正当化されない不安定な予測を行います。これは、モデルのモデル選択能力が事前トレーニングデータへの近さによって制限されることを示唆しており、一般化されたコンテキスト学習機能には特徴空間の広範なカバレッジが重要であることを示唆しています。

前述の凸結合は、モデルが事前トレーニング中に同様の関数を見たことがないような特別に構築されています。

ネットユーザーの間で熱い議論

記事の結論に直面して、ジム・ファンはやや皮肉なコメントを述べた。

「この論文は、犬と猫のデータセットだけで ViT をトレーニングしてみるのと同じことです。1000 億枚の犬/猫の画像と 1T のパラメータを使用します。それでは、飛行機を認識できるかどうか試してみましょう。なんと、認識できません!」

しかし、好奇心旺盛なネットユーザーがChatGPTにこれについて質問したところ、トレーニングデータを超えた新しいコンテンツを出力できると回答しました。

ネットユーザーは、トランスフォーマーのこの制限に対して、いまだに寛容だ。結局、人間にもできないことだ。

AIGC の人気により、モデルの能力に関する研究が盛んに行われています。私たちが完全に理解できていないにもかかわらず、社会や生活に広く利用されている「人工知能」にとって、その限界がどこにあるのかを知ることも重要です。

<<:

>>: 11人が2ヶ月間集中的にトレーニングし、マスク氏がOpenAIを徹底的に攻撃！ xAIの最初の大規模モデルGrokが爆発的に成長、330億のパラメータと月額16ドル

ブログ

Google DeepMind が証明: GPT-4 の最終結果は人類の知恵の集大成です! Transformerモデルはトレーニングデータを超えて一般化できない

研究プロセスの詳細

モデルの限界

ネットユーザーの間で熱い議論

スマート物流は進化し、AIは「独自のスキル」を発揮し続ける

世界各国の人工知能の配置をご存知ですか？

iAnalysis 中国データインテリジェンスアプリケーショントレンドレポート

携帯電話のネットワークアクセスに顔認識が必要ですか?顔認識は私たちの生活にどれくらい近いのでしょうか?

世界初のAI生成薬がヒト臨床試験に進出

現在、人工知能技術はどのような分野に応用されていますか？

Google内部関係者、Bardチャットボットの有用性に疑問

ChatGPT がデータを取得しました!プログラミング言語ランキングを作る方法はありません！

推薦する

5四半期連続で前年同期比で減少: AIはデルの危機を逆転できるか?

AIがあなたをビデオから消去しました!効果はシルキーで跡が残りません

Sogouの技術者が在宅勤務中にサーバーを誤操作し、誤って「マグニチュード12の地震警報」を発令した。

AIを使って株取引で不正行為をしよう！この世代のプログラマーは本当に楽しみ方を知っている

コンシューマーグレードのグラフィックカードが利用可能になりました。李開復のゼロワンエブリシングは、史上最強の数学コードである90億パラメータのYiモデルをリリースし、オープンソース化しました。

南京大学人工知能学院が人材募集開始：年俸は40万元から

沈向陽、周明、楊歌はビッグモデルについて議論した。パラメータを積み重ね続けると、ビッグモデルは新たな「知能の出現」につながるのか？

この遠隔操作脳実験は成功したが、ネットユーザーを怖がらせた

PyTorch でテンソルを操作するための 5 つの基本関数

ロボット犬をDIYするにはどれくらいの費用がかかりますか？価格は900ドルと安く、スタンフォード大学が開発し、コードはオープンソースです

数学モデルが人間の視覚の秘密を解き明かす

スマートホームが不動産市場の動向に与える影響

AIデータサービス業界は「認知戦争」に突入。なぜYunce Dataは業界No.1の座を維持しているのか？