皆さん、GPT-4 のパラメータは 1 兆を超える可能性があります。 最近、アメリカの有名なハッカーであるジョージ・ホッツ氏はインタビューで、GPT-4 は 8 つの 220B モデルで構成されていることを明らかにしました。 つまり、8 x 220B = 1.76兆です。 PyTorch の作成者である Soumith Chintala 氏もこれを信じています。 GPT-4: 異なるデータ/タスク分布と 16 反復推論でトレーニングされた 8 x 220B エキスパート モデル。 そうなると、GPT-4 のトレーニングの方が効果的かもしれません。 1兆7600億の「八つの頭を持つ蛇」?GPT-4 がリリースされる前、GPT-3 には 1,750 億個のパラメータがあり、多くのネットユーザーは GPT-4 には少なくとも 1 兆個のパラメータがあるだろうと推測していました。 ジョージが Latent Space のインタビューを受けたとき、彼の GPT4 アーキテクチャの説明は本当に衝撃的でした。 以下は彼のオリジナルの言葉の一部です。 GPT-4 の各ヘッドには 2200 億個のパラメーターがあり、8 方向のハイブリッド モデルです。つまり、ハイブリッド モデルは、選択肢がなくなったときに使用するものなのです。 OpenAI は同じモデルを 8 回トレーニングしましたが、いくつかの秘策がありました。彼らは実際に 16 回の外挿を実行しました。 彼は特に、OpenAI が 8 倍の資金で誰でもトレーニングできる 8 つのハイブリッド エキスパート モデルを作成したと強調しました。 つまり、より小さなモデルを長期間にわたってトレーニングし、微調整することで、これらのトリックを見つけることができます。 OpenAI は、BatchNorm や NoBatchNorm など、計算量を変えずにトレーニングを向上させる同様のアルゴリズムを公開しています。 ネットユーザーからの熱いコメントジョージが言ったように、これらは 8 つの小さなモデルであり、8 つのハイブリッド モデルをトレーニングするのに十分な資金があれば、これは簡単な解決策です。 つまり、GPT-4 は GPT-3 の 10 倍優れているということですが、1 月の小さな円と大きな円のミームは実際には…本当なのでしょうか? ! 秘密を知ったネットユーザーは、GPT-4と競合するためにLLaMAアンサンブルを自ら訓練することを計画した。 一部のネットユーザーは、これは LLM-Blender に少し似ているとも言っています。 GPT-4 が MoE になるという、少し信憑性のある噂を長い間聞いていましたが、確認されたことはありません。 MoE と約 1 兆個のパラメータは私にとっては驚きではありません。非常に合理的に思えます。 一部のネットユーザーも詳細な分析を行った。 正直なところ、これが AI アーキテクチャの次のフェーズになると期待しています。タスク固有のモデルは、一般的なモデルよりもタスクに対してはるかに優れたパフォーマンスを発揮することがわかりました。 したがって、多くのタスク固有のモデルを組み合わせることが次の論理的なステップになります。これにより、システムのアップグレードがはるかに簡単になり、一度に 1 つのモデルのみで作業できるようになります。 そうは言っても、OpenAI がこれを実行した方法は、将来可能になるかどうかはわかりません。当然のことながら、統合システムでは、少数の大型モデルではなく、多数の小型モデルが存在する可能性が高くなります。 これが本当であれば、各 220B モデルのコンテキスト長も 32K になるということになりますか? ネットユーザーは多大な努力を払い、それを「Hydra」と名付けました。 |
<<: 「成熟した」大型モデルが登場したときだけでしょうか? MIT: GPT-4はコードを自己修正できるが、GPT-3.5はできない
>>: OpenAIがズームイン!史上最強の「モデルストア」が立ち上げられ、すべてのChatGPTアプリケーションを接続する
トヨタ・リサーチ・インスティテュートは、この新しい革新的な生成AIツールにより、デザイナーは効率的か...
夕食後に AI について話さないと、社会の一員ではないような気がします。しかし、ネットワーク インテ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
先日終了したCESで、ドイツのコンチネンタルAGは、新しい物流ロボット、荷物配達ロボット犬「ANYM...
今年、ChatGPTはインターネット全体で人気を博しました。近年、AI人工知能は大きな進歩を遂げ、あ...
1. 適用シナリオ高精度のサンプリング結果の場合、最大値には 3 バイト、最小値には 1 バイトが必...
1. ビデオ監視産業の発展動向わが国では、安全都市やインテリジェント交通などのさまざまな建設プロジェ...
2020年中国人工知能サミットフォーラム及び中国人工知能競技会結果発表会が23日、厦門で開催された。...
[[242005]]ターゲットこの記事の目的は、基本的な LSTM モデルを構築するために使用できる...
サイバー攻撃の性質と標的が多様化するにつれて、サイバーセキュリティの専門家が脆弱性に対処する方法を決...
ビッグモデルが普及して以来、ビッグモデルを圧縮したいという人々の欲求は減ることはありません。大規模モ...
[[383269]] [51CTO.com クイック翻訳] 過去数年間、金融業界では、業界の絶え間な...
[[373238]]ミシガン大学の研究者らは、COVID-19患者約400人のデータを分析し、時間の...