「GPT-4 は変曲点を超え、パフォーマンスの大幅な向上を達成しようとしています。」 これは、OpenAI の科学者 Hyung Won Chung 氏が、大規模モデルのパラメータ拡張能力の急増に関する最近の講演で導き出した結論です。 彼の見解では、私たち全員が視点を変える必要がある。 LLM には実際に大きな可能性があり、その機能はパラメータの数が一定の規模に達したときにのみ発揮されます。 写真 Hyung Won Chung 氏は、LLM 分野の発展を総括するため、この講演のタイトルを「2023 年の大規模言語モデル」としました。 この分野で本当に重要なことは何でしょうか? 「モデルの拡張」は間違いなく顕著ですが、その広範囲にわたる重要性はより微妙で微妙なものです。 写真 約1時間にわたるスピーチの中で、チョン・ヒョンウォン氏は、これまでの4年間の活動の中での「拡大」についての考えを3つの側面から共有した。 ハイライトは何ですか? パラメータスケールが大きいほど、LLMが出現する。チョン・ヒョンウォン氏が強調したポイントは、「学び続け、認知を更新し、『規模』を第一に考える視点を持つことが非常に重要だ」ということだ。 特定の機能は、モデルが特定の規模に達したときにのみ出現するからです。 多くの研究により、小さなモデルでは一部のタスクを解決できず、ランダムな推測に頼らざるを得ないこともあるが、モデルが一定のサイズに達すると、問題を一度に解決できるようになり、場合によっては非常に優れたパフォーマンスを発揮することさえあることがわかっています。 そのため、人々はこの現象を「創発」と呼びます。 写真 現在の世代の LLM が特定の機能を実証できない場合でも、「機能しない」と簡単に言うべきではありません。むしろ、「まだ機能していない」と考えるべきです。 モデルが拡大されると、結論の多くが変わります。 これにより、多くの研究者が問題を新たな観点から見るようになり、「一部の方法は今は機能しない」という考え方から「一部の方法は現時点では機能しない」という考え方へと根本的に転換した。 つまり、最新の方法は現在のモデルには適用できないかもしれませんが、3〜5年後には有効になる可能性があります。 新しい視点を持つ新しい AI 研究者は、影響力のある研究につながることがよくあります。それは、経験豊富な人が試して失敗したかもしれないという直感や考えに縛られないからです。 チョン・ヒョンウォン氏は、実験中に失敗の過程を記録すると述べた。新しいモデルができるたびに、彼は実験を再度実行して、どれが成功し、どれが失敗したかなどを調べました。 このようにして、私たちはテクノロジーの急速な変化に適応するために、自分自身の認識と理解を常に更新し、修正することができます。 現在、GPT-3 と GPT-4 の間には依然として大きな機能のギャップがあり、現在のモデルでそのギャップを埋めようとする試みは効果が薄い可能性があります。 写真 さて、スケールの開発的視点が得られたところで、パラメータをどのようにスケールすればよいのでしょうか? 原理から考えるトランスフォーマーこれまでのところ、すべての大規模モデルの背後にあるアーキテクチャは Transformer 上に構築されています。下の画像は既にご存知の方も多いかと思います。 写真 ここで、ヒョン・ウォン・チョン氏は、Transformer の核となるアイデアを第一原理から説明し、Transformer の内部アーキテクチャの詳細は焦点ではないことを強調しています。 彼は、多くの LLM 研究者が拡張機能がどのように機能するかの詳細を知らないことに気づいた。したがって、このセクションは主に、大規模モデルのトレーニングの影響を理解したい技術者を対象としています。 機能的な観点から見ると、Transformer は、行列乗算と対応する配列変換を備えた簡潔なシーケンス間マッピングとして見ることができます。 写真 したがって、Transformer の規模を拡大するということは、非常に多くのマシンが効率的に行列乗算を実行できるようになることを意味します。 写真 アテンション メカニズムを個別のヘッドに分割することで、複数のマシンとチップを活用し、通信不要の並列化を実現する GSP MD アプローチを使用します。 次に、Jax のフロントエンド ツール PJ の助けを借りて、配列軸がハードウェアにマッピングされ、大規模な言語モデルの並列化が可能になります。 事前トレーニング済みモデルのサイズは桁違いに大きく、スケーリング則は小規模モデルで開発されました。 写真 GPT-4を10,000回実行し、ニューラルネットワークにターゲット関数を学習させるモデルサイズをさらに拡張する場合、GPT-4の10,000倍と仮定すると、何を考慮すべきでしょうか? Hyung Won Chung 氏にとって、スケーリングとは、単に同じことをするためにより多くのマシンを使用するということではなく、さらなる拡大を制限する「誘導バイアス」を見つけることです。 つまり、拡張によってすべての問題が解決できるわけではなく、この大規模なエンジニアリング作業、つまりトレーニング後の作業において、さらに研究を行う必要があるということです。 事前トレーニング済みのモデルに直接話しかけることはできませんが、質問に答えるのではなく、プロンプトの後に生成を続けます。プロンプトが悪意のあるものであっても、生成され続けます。 モデルトレーニング後の段階の手順には、命令の調整、報酬モデルのトレーニング、戦略モデルのトレーニング (RLHF と呼ばれることが多い) が含まれます。 写真 RLHF には、報酬モデルが「報酬」の影響を受けやすいなどの欠点があり、解決すべき未解決の研究課題もありますが、RLHF の研究は今後も継続する必要があります。 なぜなら、最大尤度法には帰納的バイアスが大きすぎるため、スケーリングにおける帰納的バイアスを解放するための目的関数(報酬モデル)を学習することは、改善の余地が大いにある別のパラダイムだからです。 写真 さらに、RLHF は成功するまで継続的に研究する必要がある原理的なアルゴリズムです。 つまり、Hyung Won Chung 氏は、最大尤度推定目的関数が GPT-4 の 10,000 倍のスケールを実現するためのボトルネックであると考えています。 表現力豊かなニューラル ネットワークを使用してターゲット機能を学習することが、次のよりスケーラブルなパラダイムとなるでしょう。計算コストが飛躍的に低下するにつれて、スケーラブルなアプローチが勝利するでしょう。 写真 「結局のところ、第一原理から核となるアイデアを理解することが、規模を拡大する唯一の方法です。」 参考文献: https://twitter.com/xiaohuggg/status/1711714757802369456?s=20 https://twitter.com/dotey/status/1711504620025942243 https://docs.google.com/presentation/d/1636wKStYdT_yRPbJNrf8MLKpQghuWGDmyHinHhAKeXY/edit#slide=id.g27b7c310230_0_496 |
<<: ChatGPT/GPT-4/ラマトロッコ問題コンテスト!小型モデルの方が道徳心が高い?
>>: 清華大学が世界初のオンチップ学習メモリスタメモリコンピューティング統合チップを開発、その成果がサイエンス誌に掲載された。
11月28日、北京ビジネスデイリーの記者は、今年初めから、平安銀行、中国光大銀行、綿陽市商業銀行、...
OpenAI は、わずか半年しかオンラインではなかった独自のテキスト検出器 Classifier を...
世界有数の情報技術調査・コンサルティング会社であるガートナーが発表した「2018年新興技術ハイプサイ...
何年もの間大騒ぎされていた自動運転の人気も、ようやく落ち着いてきた。世界の資本市場が寒い冬の時期に入...
[[427797]]画像ソース: https://pixabay.com/images/id-567...
[[264976]] [画像出典: Microsoft Research ブログ 所有者: Micr...
[[319839]]畳み込みニューラル ネットワーク (CNN) は、人工ニューロンが特定のカバレッ...
シャム・ナンダン・ウパディヤイノアが編集制作:51CTO テクノロジースタック(WeChat ID:...
[[204169]] Faster R-CNN、R-FCN、SSD は、最も人気があり、広く使用さ...
[[373347]]最近、法律相談ロボット「ダニウ」が潼南区公共サービス法律センターで正式に運用され...