Google DeepMind が証明: GPT-4 の最終結果は人類の知恵の集大成です! Transformerモデルはトレーニングデータを超えて一般化できない

Google DeepMind が証明: GPT-4 の最終結果は人類の知恵の集大成です! Transformerモデルはトレーニングデータを超えて一般化できない

Transformer モデルが事前トレーニング データの範囲を超えて新しい認知と能力を一般化できるかどうかは、学界では長年議論の的となっている問題です。

最近、Google DeepMind の 3 人の研究者は、事前トレーニング データの範囲を超えてモデルを一般化して新しい問題を解決することを要求することはほぼ不可能であると信じていました。

LLM の終わりは人類の知恵の総和でしょうか?

論文アドレス: https://arxiv.org/abs/2311.00871

論文を転送した後、Jim Fan 氏は、これはモデルのパフォーマンスに対するトレーニング データの重要性を明確に示しているため、LLM にとってデータ品質が非常に重要であるとコメントしました。

研究者らは論文の中で、事前トレーニング プロセスの特定の側面、つまり事前トレーニングで使用されるデータに焦点を当て、それが最終的な Transformer モデルの少数ショット学習機能にどのように影響するかを調査しています。

研究者は、入力とラベルのセットを使用して、新しい入力のラベルを予測しますこのような予測を行うモデルをトレーニングするには、形式の多くのシーケンスにモデルを適合させる必要があります。

研究者らは、コンテキスト内での学習を可能にするために、さまざまな機能カテゴリを組み合わせて Transformer モデルを事前トレーニングし、モデル選択動作 (モデル選択現象) を実証しました。

彼らはまた、事前トレーニング データ内の関数のクラスから「分布外」の関数に対する事前トレーニング済み Transformer モデルの学習動作も研究しました。

このようにして、研究者は事前トレーニング データの構成と、Transformer モデルがわずかな労力で関連タスクを学習する能力との間の相互作用と影響を研究し、次のことを発見しました。

1. 研究されたメカニズムの中には、モデルがコンテキスト学習中に事前トレーニングされた関数のクラスの中からモデル選択をほとんど追加の統計コストなしで実行できるという明確な証拠があります。

事前トレーニング データ内のさまざまなスパース レベルの線形関数が十分にカバーされている場合、Transformer はほぼ最適な予測を行うことができます。

2. しかし、モデルの文脈学習動作が事前トレーニングデータの範囲を超えて拡張できるという証拠はほとんどありません。

結合された関数が主に 1 つの関数クラスからのものである場合、予測は妥当です。両方のクラスが同時に大きく貢献すると、予測は失敗します。

事前トレーニング データでは非常にまれな高周波および低周波の正弦関数の場合、モデルの一般化は失敗します。

研究プロセスの詳細

まず、誤解を避けるために、この実験で使用したモデルを述べておきます。これは GPT-2 に似ており、12 層で構成され、256 次元の埋め込み空間を持っています。

前述したように、この記事ではさまざまな機能を組み合わせて研究を行う方法を採用しています。

「事前トレーニング済みの混合をサポートするコンテキスト例が提供された場合、モデルはどのようにして異なるクラスの関数を選択するのでしょうか?」という疑問を抱かずにはいられません。

これまでの研究では、線形関数で事前トレーニングされたトランスフォーマーは、新しい線形関数を文脈的に学習するときにほぼ最適に機能することが示されています。

研究者らは、研究のために 2 つの線形モデルを使用しました。1 つは密な線形関数 (線形モデルのすべての係数がゼロ以外) でトレーニングしたもので、もう 1 つは疎な線形関数 (20 個の係数のうち 2 個だけがゼロ以外であると想定) でトレーニングしたものです。

各モデルは、それぞれ新しい密な線形関数とスパースな線形関数に対して対応する線形回帰と LASSO 回帰を実行します。さらに、両方のモデルは、スパース線形関数と密な線形関数の混合で事前トレーニングされたモデルと比較されます。

上の図は、2 つの関数を D(F) = 0.5*D(F1) + 0.5*D(F2) の比率で混合すると、コンテキスト学習における新しい関数のパフォーマンスが、1 つの関数クラスのみで事前トレーニングされたモデルのパフォーマンスと同様になることを示しています。

新しい混合関数で事前トレーニングされたモデルは、以前の研究で示されたモデル(理論的に最適)と類似しているため、このモデルもほぼ最適であると推測できます。

上図の ICL 学習曲線は、このコンテキスト モデルの選択能力が、提供されるコンテキスト例の数と比較的一貫していることを示しています。

また、特定の関数クラスの場合、事前トレーニング データ混合に重みを使用する ICL の学習曲線は、その関数クラスのみでモデルを事前トレーニングする場合と比較して、最良のベースライン サンプル複雑さとほぼ一致することがわかります。

上の図は、Transformer モデルにおける ICL の一般化が不均一に分布していることも示しています。密な線形クラスと疎な線形クラスはどちらも線形関数ですが、上の図 (a) の赤い曲線のパフォーマンスは低く、それに応じて図 (b) の青い曲線のパフォーマンスも低いことがわかります。

これは、モデルがモデル選択を実行して、事前トレーニング済みの組み合わせの 1 つの基底関数クラスのみからの知識を使用して予測を行うか、他のクラスからの知識を使用して予測を行うかを選択できることを示唆しています。

実際、コンテキストで提供される例が非常にスパースな関数または非常に密な関数からのものである場合、予測は、それぞれスパースなデータのみまたは密なデータのみで事前トレーニングされたモデルによって行われた予測とほぼ同じになります。

モデルの限界

前の実験では、事前トレーニング データを混合するケースを示しました。次に、すべての事前トレーニング データから明示的に逸脱するいくつかの関数を調べてみましょう。

ここで著者らは、これまでに見たことのない関数と、関数の極端なバージョン(事前トレーニングで通常見られるものよりもはるかに高いまたは低い周波数の正弦波)でのパフォーマンスという 2 つの軸に沿って、ICL に一般化するモデルの能力を研究しています。

どちらの場合も、研究者は分布外一般化の証拠をほとんど発見しなかった。

上の図は、中程度のスパース性レベル (nnz = 3〜7) での Transformer の予測が、事前トレーニング中に提供されたどの関数クラスの予測とも類似しておらず、その中間にあることを示しています。

したがって、モデルには、事前にトレーニングされた関数のクラスを組み合わせるための何らかの帰納的バイアスがあると想定できます。

しかし、事前トレーニング中に確認した関数の組み合わせからモデルが予測を生成できるかどうか疑問に思う人もいるかもしれません。

したがって、私たちはこの仮説を、明らかに互いに素な関数のクラスのコンテキストでテストし、線形関数、正弦関数、および両方の凸関数の組み合わせに対して ICL を実行する能力を調査します。

上の図は、線形関数と正弦波の混合 (つまり、D(F) = 0.5*D(F1)+0.5*D(F2)) で事前トレーニングされたモデルは、これら 2 つの関数のいずれかを個別に適切に予測できるものの、2 つの関数の凸結合である関数を適合できないことを示しています。

ただし、コンテキスト内の例が事前トレーニングで学習した関数クラスに近い場合、モデルは予測に最適な関数クラスを選択できると想定できます。

図 5 では、研究者は凸結合における線形関数と正弦波の相対的な重みをスキャンしました。ここで研究者らは、合成された関数が主にどちらか一方の関数クラスからのものである場合、つまり事前トレーニング中に学習された関数クラスによって十分に近似されている場合、文脈予測は妥当であることを観察しました。

ただし、両方の関数が凸結合に大きく寄与する場合、モデルはコンテキスト例によって十分に正当化されない不安定な予測を行います。これは、モデルのモデル選択能力が事前トレーニング データへの近さによって制限されることを示唆しており、一般化されたコンテキスト学習機能には特徴空間の広範なカバレッジが重要であることを示唆しています。

前述の凸結合は、モデルが事前トレーニング中に同様の関数を見たことがないような特別に構築されています。

ネットユーザーの間で熱い議論

記事の結論に直面して、ジム・ファンはやや皮肉なコメントを述べた。

「この論文は、犬と猫のデータセットだけで ViT をトレーニングしてみるのと同じことです。1000 億枚の犬/猫の画像と 1T のパラメータを使用します。それでは、飛行機を認識できるかどうか試してみましょう。なんと、認識できません!」

しかし、好奇心旺盛なネットユーザーがChatGPTにこれについて質問したところ、トレーニングデータを超えた新しいコンテンツを出力できると回答しました。

ネットユーザーは、トランスフォーマーのこの制限に対して、いまだに寛容だ。結局、人間にもできないことだ。

AIGC の人気により、モデルの能力に関する研究が盛んに行われています。私たちが完全に理解できていないにもかかわらず、社会や生活に広く利用されている「人工知能」にとって、その限界がどこにあるのかを知ることも重要です。

<<: 

>>:  11人が2ヶ月間集中的にトレーニングし、マスク氏がOpenAIを徹底的に攻撃! xAIの最初の大規模モデルGrokが爆発的に成長、330億のパラメータと月額16ドル

ブログ    
ブログ    

推薦する

XGBoost機械学習モデルの意思決定プロセス

XGBoost アルゴリズムは、Kaggle やその他のデータ サイエンス コンテストで優れた結果...

...

...

iOS 18はAIネイティブシステムの第1世代となるか? AppleはAIをシステムに導入することを急いでおり、史上最大のアップデートを先導している。

著名なテクノロジー記者マーク・ガーマン氏によると、Appleはバグ修正に集中するため、iOS 18の...

ニューラル放射フィールドはポイントベースで、NeRFよりも30倍高速なトレーニング速度と優れたレンダリング品質を備えています。

2020 年はボリューメトリック ニューラル レンダリングが爆発的に普及する年です。たとえば、Ne...

注目を浴びた分析と AI の 5 つの大惨事

データと機械学習アルゴリズムによって生成される洞察は非常に貴重ですが、間違いはあなたの評判、収益、さ...

Google 数学 AI が Nature に発表: IMO 金メダルの幾何学レベル、定理証明は呉文軍の 1978 年の法則を上回る

Google DeepMindが再びNatureを出版、AIのAlphaシリーズが力強く復活、数学レ...

ガートナー: 2019 年新興テクノロジー ハイプ サイクル

2019 年新興テクノロジー ハイプ サイクルでは、今後 5 ~ 10 年でビジネス、社会、人々の生...

...

...

誇張ではなく、絶対にそうはならない

[[280896]] 01. はじめにデータのクエリ速度を向上させるために、キャッシュがよく使用され...

パンデミック後、AI教育はどのように存在していくのでしょうか?

現在の教育における人工知能の応用は、依然として「弱い人工知能」になりがちですが、教育の効率性を向上さ...

ビジネスインテリジェンスの歴史と発展についてお話ししましょう

1865 年に、リチャード・ミラー・デベンスは著書『A Complete Collection of...

Meta、Xiaoice、NVIDIA が協力して何かを行っています!アジア初のメタバースエコロジー連盟が誕生

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...