OpenAI の科学者による最新のスピーチ: GPT-4 は変曲点を超えようとしており、1000 倍のパフォーマンスが確実に出現します。

「GPT-4 は変曲点を超え、パフォーマンスの大幅な向上を達成しようとしています。」

これは、OpenAI の科学者 Hyung Won Chung 氏が、大規模モデルのパラメータ拡張能力の急増に関する最近の講演で導き出した結論です。

彼の見解では、私たち全員が視点を変える必要がある。 LLM には実際に大きな可能性があり、その機能はパラメータの数が一定の規模に達したときにのみ発揮されます。

写真

Hyung Won Chung 氏は、LLM 分野の発展を総括するため、この講演のタイトルを「2023 年の大規模言語モデル」としました。

この分野で本当に重要なことは何でしょうか? 「モデルの拡張」は間違いなく顕著ですが、その広範囲にわたる重要性はより微妙で微妙なものです。

写真

約1時間にわたるスピーチの中で、チョン・ヒョンウォン氏は、これまでの4年間の活動の中での「拡大」についての考えを3つの側面から共有した。

ハイライトは何ですか?

パラメータスケールが大きいほど、LLMが出現する。

チョン・ヒョンウォン氏が強調したポイントは、「学び続け、認知を更新し、『規模』を第一に考える視点を持つことが非常に重要だ」ということだ。

特定の機能は、モデルが特定の規模に達したときにのみ出現するからです。

多くの研究により、小さなモデルでは一部のタスクを解決できず、ランダムな推測に頼らざるを得ないこともあるが、モデルが一定のサイズに達すると、問題を一度に解決できるようになり、場合によっては非常に優れたパフォーマンスを発揮することさえあることがわかっています。

そのため、人々はこの現象を「創発」と呼びます。

写真

現在の世代の LLM が特定の機能を実証できない場合でも、「機能しない」と簡単に言うべきではありません。むしろ、「まだ機能していない」と考えるべきです。

モデルが拡大されると、結論の多くが変わります。

これにより、多くの研究者が問題を新たな観点から見るようになり、「一部の方法は今は機能しない」という考え方から「一部の方法は現時点では機能しない」という考え方へと根本的に転換した。

つまり、最新の方法は現在のモデルには適用できないかもしれませんが、3〜5年後には有効になる可能性があります。

新しい視点を持つ新しい AI 研究者は、影響力のある研究につながることがよくあります。それは、経験豊富な人が試して失敗したかもしれないという直感や考えに縛られないからです。

チョン・ヒョンウォン氏は、実験中に失敗の過程を記録すると述べた。新しいモデルができるたびに、彼は実験を再度実行して、どれが成功し、どれが失敗したかなどを調べました。

このようにして、私たちはテクノロジーの急速な変化に適応するために、自分自身の認識と理解を常に更新し、修正することができます。

現在、GPT-3 と GPT-4 の間には依然として大きな機能のギャップがあり、現在のモデルでそのギャップを埋めようとする試みは効果が薄い可能性があります。

写真

さて、スケールの開発的視点が得られたところで、パラメータをどのようにスケールすればよいのでしょうか?

原理から考えるトランスフォーマー

これまでのところ、すべての大規模モデルの背後にあるアーキテクチャは Transformer 上に構築されています。下の画像は既にご存知の方も多いかと思います。

写真

ここで、ヒョン・ウォン・チョン氏は、Transformer の核となるアイデアを第一原理から説明し、Transformer の内部アーキテクチャの詳細は焦点ではないことを強調しています。

彼は、多くの LLM 研究者が拡張機能がどのように機能するかの詳細を知らないことに気づいた。したがって、このセクションは主に、大規模モデルのトレーニングの影響を理解したい技術者を対象としています。

機能的な観点から見ると、Transformer は、行列乗算と対応する配列変換を備えた簡潔なシーケンス間マッピングとして見ることができます。

写真

したがって、Transformer の規模を拡大するということは、非常に多くのマシンが効率的に行列乗算を実行できるようになることを意味します。

写真

アテンションメカニズムを個別のヘッドに分割することで、複数のマシンとチップを活用し、通信不要の並列化を実現する GSP MD アプローチを使用します。

次に、Jax のフロントエンドツール PJ の助けを借りて、配列軸がハードウェアにマッピングされ、大規模な言語モデルの並列化が可能になります。

事前トレーニング済みモデルのサイズは桁違いに大きく、スケーリング則は小規模モデルで開発されました。

写真

GPT-4を10,000回実行し、ニューラルネットワークにターゲット関数を学習させる

モデルサイズをさらに拡張する場合、GPT-4の10,000倍と仮定すると、何を考慮すべきでしょうか？

Hyung Won Chung 氏にとって、スケーリングとは、単に同じことをするためにより多くのマシンを使用するということではなく、さらなる拡大を制限する「誘導バイアス」を見つけることです。

つまり、拡張によってすべての問題が解決できるわけではなく、この大規模なエンジニアリング作業、つまりトレーニング後の作業において、さらに研究を行う必要があるということです。

事前トレーニング済みのモデルに直接話しかけることはできませんが、質問に答えるのではなく、プロンプトの後に生成を続けます。プロンプトが悪意のあるものであっても、生成され続けます。

モデルトレーニング後の段階の手順には、命令の調整、報酬モデルのトレーニング、戦略モデルのトレーニング (RLHF と呼ばれることが多い) が含まれます。

写真

RLHF には、報酬モデルが「報酬」の影響を受けやすいなどの欠点があり、解決すべき未解決の研究課題もありますが、RLHF の研究は今後も継続する必要があります。

なぜなら、最大尤度法には帰納的バイアスが大きすぎるため、スケーリングにおける帰納的バイアスを解放するための目的関数（報酬モデル）を学習することは、改善の余地が大いにある別のパラダイムだからです。

写真

さらに、RLHF は成功するまで継続的に研究する必要がある原理的なアルゴリズムです。

つまり、Hyung Won Chung 氏は、最大尤度推定目的関数が GPT-4 の 10,000 倍のスケールを実現するためのボトルネックであると考えています。

表現力豊かなニューラルネットワークを使用してターゲット機能を学習することが、次のよりスケーラブルなパラダイムとなるでしょう。計算コストが飛躍的に低下するにつれて、スケーラブルなアプローチが勝利するでしょう。

写真

「結局のところ、第一原理から核となるアイデアを理解することが、規模を拡大する唯一の方法です。」

参考文献:

https://twitter.com/xiaohuggg/status/1711714757802369456?s=20

https://twitter.com/dotey/status/1711504620025942243

https://docs.google.com/presentation/d/1636wKStYdT_yRPbJNrf8MLKpQghuWGDmyHinHhAKeXY/edit#slide=id.g27b7c310230_0_496

<<: ChatGPT/GPT-4/ラマトロッコ問題コンテスト！小型モデルの方が道徳心が高い？

>>: 清華大学が世界初のオンチップ学習メモリスタメモリコンピューティング統合チップを開発、その成果がサイエンス誌に掲載された。

OpenAI の科学者による最新のスピーチ: GPT-4 は変曲点を超えようとしており、1000 倍のパフォーマンスが確実に出現します。

パラメータスケールが大きいほど、LLMが出現する。

原理から考えるトランスフォーマー

GPT-4を10,000回実行し、ニューラルネットワークにターゲット関数を学習させる

医療業界における人工知能の応用が直面する5つの課題

投票の未来: AI、ブロックチェーン、生体認証

ジェネレーティブAIがファッション業界にもたらす変化

OpenAI も参入したいと考えている GPU とは一体何でしょうか?

検査業界は大きな変革期を迎えており、人工知能が次世代の検査をリードしている。

人工知能に関する 10 の質問: ますます普及する AI の将来はどこにあるのでしょうか?

自動運転車を壁に衝突させ、他人の顔を使って代金を支払う：最新のAIの抜け穴が私たちの目を覚まさせる

海外メディア：人工知能はすでに自身のミスを警告できる

図解機械学習: 誰でも理解できるアルゴリズムの原理

推薦する

AIがオペレーターにできること、できないこと

メタは世界最速となる可能性のあるAIスーパーコンピュータを開発

今後3～5年で、機械学習の人材が不足する領域はどこでしょうか？

Cerebras が 1 台のマシンで 200 億のパラメータモデルをトレーニングするという新記録を樹立

「生成型人工知能サービスの基本セキュリティ要件」は、一般からのコメントを受け付けています。個人情報を含むコーパスの使用には、該当する主体からの許可が必要です。

このAIはレディー・ガガ風にベートーベンの音楽を演奏することができ、ネットユーザーは楽しんで遊んでいる。

2020 年に注目すべき 4 つのエンタープライズ AR トレンド

C# バイナリツリートラバーサルアルゴリズムの実装の簡単な分析

インテリジェント運転の「人材不足」は大学の科目ゲームに閉じ込められている

ディープラーニングを使用してPythonコードを自動的に補完するこのオープンソースプロジェクトは非常に素晴らしい

拡散モデル画像理解力がSOTAをリフレッシュ！ ByteDance Fudanチームが新たな「メタプロンプト」戦略を提案

汎用人工知能は存在するのか？

世界のAI競争は中国と米国がリード。人工知能は過大評価されているのか？