Google のビッグモデル研究は大きな論争に巻き込まれている。トレーニング データを超えて一般化することはまったくできないのだろうか?ネットユーザー:AGIシンギュラリティは延期された

Google のビッグモデル研究は大きな論争に巻き込まれている。トレーニング データを超えて一般化することはまったくできないのだろうか?ネットユーザー:AGIシンギュラリティは延期された

Transformer に関しては、Google DeepMind による新たな発見がかなりの論争を巻き起こしています。

一般化能力は、トレーニング データを超えるコンテンツには拡張できません。

この結論はまださらに検証されていないが、すでに多くの大物たちを驚かせている。例えば、ケラスの父であるフランソワ・ショレ氏は、このニュースが真実であれば、大手模型業界にとって大きな出来事になるだろうと語った。

Google Transformer は、今日の大規模モデルの背後にあるインフラストラクチャです。おなじみの GPT の「T」はこれを指します。

多数のモデルが強力なコンテキスト学習機能を備えており、例から素早く学習して新しいタスクを達成します。

しかし現在、Google の研究者もその致命的な欠陥を指摘しているようです。それは、トレーニング データ、つまり既存の人間の知識を超えた範囲では無力であるということです。

一時期、多くの実践者は、AGI は再び手の届かないものになったと信じていました。

しかし、一部のネットユーザーは、この論文ではGPT-2スケールでのみ実験が行われており、トレーニングデータは言語ではなかったなど、より重要だが見落とされていた詳細を発見した。

時間が経つにつれ、論文を注意深く研究したネットユーザーからは、研究の結論自体には何の問題もないが、それに基づいて過剰な解釈をしていると指摘されるようになった。

この論文がネットユーザーの間で白熱した議論を巻き起こした後、著者の一人が2つの点について釈明した。

まず、この実験では、「大規模」でも言語モデルでもない単純な Transformer を使用します。

第二に、モデルは新しいタスクを学習できますが、新しいタイプのタスクに一般化することはできません。

その後、一部のネットユーザーがColabで実験を繰り返しましたが、まったく異なる結果が得られました。

それでは、まずこの論文と、異なる結果を提案したサミュエルが実際に何を言ったのかを見てみましょう。

新しい機能を予測することはほぼ不可能である

実験では、著者らは、GPT-2 にサイズが近く、Jax ベースの機械学習フレームワーク上でデコーダーのみを含む Transformer をトレーニングしました。

これには、12 のレイヤー、8 つのアテンション ヘッド、256 の埋め込み空間次元、および約 950 万のパラメーターが含まれます。

一般化能力をテストするために、著者は関数をテスト オブジェクトとして使用し、線形関数と正弦関数をトレーニング データとしてモデルに入力しました。

現時点ではこれら 2 つの関数はモデルに既知であり、予測結果は当然非常に良好ですが、研究者が線形関数と正弦関数を凸結合すると、問題が発生しました。

凸結合はそれほど神秘的なものではありません。著者は f(x)=a·kx+(1-a)sin(x) という形式の関数を構築しましたが、これは私たちにとっては単に比例する 2 つの関数の単純な加算にすぎません。

しかし、私たちがそう考える理由は、私たちの脳にはこの点に関して一般化する能力があるからですが、大規模なモデルは異なります。

単なる追加だと思わないでください。線形関数と正弦関数しか見たことのないモデルにとって、これは完全に新しい関数です。

この新しい関数については、Transformer による予測は完全に不正確です (図 4c)。そのため、著者らは、モデルには関数に対する一般化能力がないと考えています。

著者らは結論をさらに検証するために線形関数または正弦関数の重みを調整しましたが、それでも Transformer の予測パフォーマンスに大きな変化はありませんでした。

唯一の例外は、いずれかの項目の重みが 1 に近い場合、モデルの予測結果が実際の結果とより一致することです。

しかし、重みが 1 の場合、未知の新しい関数がトレーニング中に確認された関数に直接変換されることを意味し、そのようなデータは明らかに一般化能力にとって意味がありません。

さらに実験を進めると、Transformer は関数の種類に対して非常に敏感であるだけでなく、同じ種類の関数であっても未知の状態になる可能性があることもわかりました。

研究者たちは、単純な正弦関数であっても、周波数を変えるだけでモデルの予測が劇的に変化することを発見した。

頻度がトレーニング データ内の関数に近い場合にのみ、モデルは比較的正確な予測を行うことができます。頻度が高すぎたり低すぎたりすると、予測結果に重大な偏りが生じます...

これを踏まえると、条件が少し異なる限り、大規模モデルは何をすべきか分からないだろうと著者は考えています。これは一般化能力が低いことを示しているのではないでしょうか。

著者はまた、記事の中で研究の限界についていくつか説明し、関数データに関する観察をトークン化された自然言語の問題にどのように適用するかについても説明しています。

チームは言語モデルでも同様の実験を試みましたが、いくつかの障害に遭遇しました。タスク ファミリ (ここでは関数の種類に相当) と凸結合を適切に定義する方法は、まだ解決されていません。

Samuel のモデルは 4 層のみで小さくなっています。Colab で 5 分間トレーニングすると、線形関数と正弦関数の組み合わせに一般化できます。

一般化できない場合はどうすればいいでしょうか?

記事全体から判断すると、Quora CEO の記事の結論は非常に限定的で、多くの仮定の下でのみ当てはまります。

スローン賞受賞者でUCLA教授のクアンクアン・グ氏は、論文の結論自体は議論の余地はないが、過度に解釈すべきではないと述べた。

これまでの研究と合わせると、Transformer は、事前トレーニング データと「大幅に異なる」コンテンツに一般化することはできません。実際、大規模モデルの一般化能力は、通常、タスクの多様性とタスクの複雑さによって測定されます。

Transformer の一般化能力を慎重に調査すると、もうしばらく待つ必要があるかもしれません。

しかし、一般化する能力が本当に欠けているとしても、私たちに何ができるでしょうか?

Nvidia の AI 科学者 Jim Fan 氏は、Transformerは万能薬ではないため、この現象は実際には驚くべきことではないと述べています。大規模なモデルがうまく機能するのは、トレーニング データがたまたま私たちが重視しているものであるためです。

ジム氏はさらに、これは猫や犬の写真を 1000 億枚使って視覚モデルをトレーニングし、そのモデルに飛行機を認識させると、なんと、飛行機は認識されないことに気づくようなものだと付け加えました。

大きなモデルだけではありません。未知のタスクに直面したとき、人間は必ずしも解決策を持っているとは限りません。これは、人間には一般化の能力が欠けていることを意味するのでしょうか?

したがって、目標指向では、大規模モデルであれ人間であれ、最終的な目標は問題の解決に戻ることであり、一般化は手段にすぎません。

この絵文字の言葉を借りれば、一般化能力が欠けているので、トレーニング外のデータがなくなるまでトレーニングするだけです。

それで、この研究についてどう思いますか?

論文アドレス: https://arxiv.org/abs/2311.00871

<<:  カンファレンスで GitHub のトップ 10 AI アップデートが発表されました。

>>:  烏鎮サミットから10年:呉永明が初めてアリババの新たな変化について言及

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

大規模なモデルでプロンプト内のより多くの例を学習させたい場合は、この方法を使用すると、より多くの文字を入力できます。

GPT や LLaMA などの大規模な言語モデルを使用する場合、入力プロンプトに文字数制限があるこ...

ハンドルとペダルがない?アップルは2025年までに自動運転車を発売する予定

スペインの新聞「ヴァングアルディア」によると、アップルは2025年にハンドルもペダルもない自動車を発...

...

屋台経済は活況を呈している!ロボットも問題を抱えている

「働いてお金を稼ぐのは大変すぎるから、屋台を出して自分で経営者になったほうがいいよ!」露店経済の突然...

クラウドベースのAIモバイルアプリケーションは今後も成長し、改善され続けるだろう

近年、モバイルラーニングと人工知能は、人々が機械と連携する方法に大きな影響を与えており、個々の顧客に...

ダイクストラのアルゴリズムの詳細な説明

この記事では、まず単一ソース最短経路問題から始め、次にベルマン・フォード アルゴリズムについて説明し...

カメラ、レーダー、地図は不要、二足歩行ロボットは「自分の感覚」で歩く

二足歩行ロボットは高価で複雑、そして壊れやすい。バランスという観点で言えば、二足歩行は四足歩行よりは...

人材情報プラットフォームの変革における人工知能の役割

人工知能 (AI) が人材情報プラットフォームを変革することで採用業界に革命をもたらしていることは否...

AIGC時代のビデオ普及モデル、復旦チームらが分野初のレビューを発表

AI 生成コンテンツは、現在の人工知能分野で最もホットなトピックの 1 つとなっており、この分野の最...

AIが製造業に力を与え、PowerLeader Serverは製品、サービス、生産に焦点を当てる

ビッグデータ、モノのインターネット、人工知能に代表される新世代の情報技術は大きな進歩を遂げ、産業化を...

魔法の顔認識: たとえマスクやサングラスをかけていても、身近な人を認識できるのはなぜでしょうか?

見知らぬ人々の集団の中に見覚えのある人を見つけたり、とても見覚えのある顔を見かけたりします。その人は...

非常に効率的な人工知能チームを構築するにはどうすればよいでしょうか?

翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟導入この記事では、機械学習のインフラ、従業員、プロセスを統...

...

PyTorch はどのようにしてデータ並列トレーニングを高速化するのでしょうか?分散型チートが明らかに

[[333298]]現在、チップのパフォーマンスの向上は限られているため、分散トレーニングは超大規模...