この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 Google は最近、最新世代の人工知能アーキテクチャ Pathways に基づいて開発された 5,400 億のパラメータ モデルである PaLM をリリースしました。因果関係のマーキング、コンテキストの理解、推論、コード生成など、多くの機能を備えています。その中でも、常識推論能力は以前の言語モデルと比較して大幅に向上しています。 しかし同時に、PaLM の計算コストがいつものように 6144 個の TPU が使用されていることにも誰もが気づきました。トレーニング用にグラフィック カードをレンタルする場合、最大コストは 1,700 万ドル (1 億人民元以上、「小さな目標」) に達する可能性があります。 明らかに、これは非常に高価であり、「経済的実現可能性」の原則に準拠していません。業界の人々が、長い間、大型モデルに悩まされてきたとよく不満を漏らすのも不思議ではありません。 このモデルが成長し続け、お金が使われ続けるとしたら、いつ終わるのでしょうか?一部の学者はAI Technology Reviewに対し、PaLMのような大規模モデルは確かに成果において大きな進歩を遂げているが、トレーニングとコンピューティングのコストは非常に高く、多くのタスクをまとめる必要はないと語った。 GPT シリーズは、大規模モデルの将来の開発に新たな洞察をもたらす可能性があります。 最近、Cambrian AIのアナリストであるAlberto Romero氏は、OpenAIのCEOであるSam Altman氏が数か月前に述べたことに基づいて、GPT-4が今年の7月か8月にリリースされると推測する記事を発表しました。彼はまた、昨年のAltman氏による質疑応答セッションに基づいて、GPT-4の特徴を予測しました。 確かなのは、アルトマン氏が、GPT-4 のパラメータは 100T には達しないだろうと述べたことです。 また、アルベルト・ロメロ氏は、GPT-4 はおそらく GPT-3 よりもわずかに大きくなるだろうが、GPT-3 の場合のように「大きい」ことが GPT-4 の「セールスポイント」になることはないだろうと推測しました。代わりに、OpenAI は、より小さなモデルのパフォーマンスを向上させる方法に重点を置いています。 1 予測1: GPT-4はそれほど大きくならないまず、Alberto 氏は GPT-4 が最大の言語モデルにはならないと判断しました。アルトマン氏はまた、GPT-3 よりそれほど大きくはならないとも述べた。以前の世代のニューラル ネットワークと比較すると、GPT-4 は確かに大きくなりますが、サイズがその特徴となるわけではありません。 GPT-4 は、GPT-3 と Gopher (175B-280B) の中間に位置すると考えられます。 アルベルト氏はその後、その予測の理由を次のように述べた。 昨年NvidiaとMicrosoftが開発したMegatron-Turing NLGは、530Bのパラメータを持ち、サイズが540BのGoogleのPaLMが最近登場するまで、最大の高密度ニューラルネットワーク(GPT-3の3倍のサイズ)となっていました。しかし、MT-NLG 以降のいくつかの小型モデルがより高いパフォーマンス レベルを達成したことは注目に値します。 言い換えれば、大きい≠良いということです。小型モデルの存在には2つの意味があります。 1 つは、モデルのサイズを大きくすることがパフォーマンスを向上させる唯一の方法ではなく、最善の方法でもないことに企業が気づいたことです。 2020年、OpenAIのJared Kaplan氏とその同僚は、増加した計算予算が主にパラメータ数の増加に割り当てられた場合、パフォーマンスの向上が最も顕著であり、べき乗関係に従うという結論に達しました。 Google、Nvidia、Microsoft、OpenAI、DeepMind、その他言語モデルを開発している企業は、ガイドラインを額面通りに受け入れています。 論文アドレス: https://arxiv.org/pdf/2001.08361.pdf MT-NLG は規模が大きいですが、パフォーマンスの面では最適ではありません。実際のところ、どのカテゴリーのベンチマークでも最高というわけではありません。 Gopher (280B) や Chinchilla (70B) などの小型モデルは、サイズがほんのわずかであっても、このタスクでは MT-NLG よりもはるかに優れたパフォーマンスを発揮します。 2 つ目の意味は、企業が「大きいほど良い」という教義を拒否し始めているということです。パラメータを追加するのは簡単ですが、パラメータを増やすことはパフォーマンスを向上できる多くの方法の 1 つに過ぎず、付随的な損害 (二酸化炭素排出量、計算コスト、行き止まりなど) を考えると、最悪の方法の 1 つとなります。企業が小規模なモデルから同様の結果、あるいはより優れた結果を得ることができる場合、大規模なモデルを構築する前によく考えるようになります。 アルトマン氏は、同社はもはや非常に大きなモデルを作ることに注力しておらず、より小さなモデルを最大限に活用することに取り組んでいると述べた。 OpenAI の研究者たちはスケーリング仮説を早くから提唱していたが、今では他の未開拓の道筋によってモデルを改善できることに気づいたのかもしれない。 Alberto 氏は、GPT-4 を大きくするのではなく、OpenAI がデータ、アルゴリズム、パラメーター化、アライメントなど、モデルを大幅に改善できる他の側面に重点を移すだろうと信じているようです。 2 予測2: GPT-4は「最適」なものを見つけようとする言語モデルは、最適化に関しては重大な問題を抱えています。トレーニングには多額の費用がかかるため、企業は精度とコストの間で妥協を強いられます。この選択により、明らかに最適化されていないモデルが生成されることがよくあります。 GPT-3 は一度しかトレーニングされていないため、まだいくつかのエラーがあり、場合によっては再トレーニングが必要になる可能性があります。 OpenAI は、最適化はコストがかかりすぎて手が届かないため、最適化を実行しないことに決めました。これにより、研究者はモデルに最適なハイパーパラメータ セット (学習率、バッチ サイズ、シーケンスの長さなど) を見つけることができませんでした。 トレーニング コストが高いことによるもう 1 つの結果は、モデルの動作の分析が制限されることです。カプラン氏のチームは、モデルのサイズがパフォーマンスの向上に最も関連する変数であると結論付けたとき、トレーニング トークンの数、つまりモデルに入力されるデータの量を考慮に入れていませんでした。そうするには、かなりの量のコンピューティング リソースが必要になります。 テクノロジー企業は、カプランの結論が自社が知る最良のアイデアであるため、それに従います。皮肉なことに、経済的な制約のせいで、Google、Microsoft、Facebook などの企業は、ますます大型化するモデルに何百万ドルも「無駄遣い」し、その過程で大量の汚染を生み出しているのです。 現在、DeepMind と OpenAI が率いる企業は他のアプローチを模索しています。彼らは、単に大きなモデルではなく、最適なモデルを見つけようとします。 最適なパラメータ化先月、マイクロソフトと OpenAI は、最適なハイパーパラメータを使用してモデルをトレーニングすれば GPT-3 をさらに改善できることを実証しました。彼らは、GPT-3 の 6.7B バージョンのパフォーマンスが大幅に向上し、GPT-3 の元の 13B バージョンに匹敵することを発見しました。ハイパーパラメータの調整 (大規模なモデルでは実現不可能) により、パラメータの数を 2 倍にした場合と同等のパフォーマンス向上が得られました。 彼らは、小規模なモデルに最適なハイパーパラメータが同等の大規模モデルにも当てはまる新しいパラメータ化 (μP) を発見しました。 μP を使用すると、トレーニング コストのほんの一部で、あらゆるサイズのモデルを最適化できます。これらのハイパーパラメータは、ほとんどコストをかけずに、より大きなモデルに転送できます。 最適計算モデル数週間前、DeepMind は Kaplan の調査結果を再検討し、一般的な考えに反して、トレーニング トークンの数がモデルのサイズと同じくらいパフォーマンスに影響を与えることを認識しました。彼らは、より多くの計算予算が利用可能になるにつれて、それをスケーラブルなパラメータとデータの間で均等に割り当てる必要があると結論付けました。彼らは、GPT-3 以降のすべての大規模言語モデルの 4 倍のデータ (通常 300B から 1.4T トークン) を使用して、70B モデル (旧 SOTA、Gopher の 4 分の 1) である Chinchilla をトレーニングすることで仮説を証明しました。 結果は明らかです。 Chinchilla は、多くの言語ベンチマークにおいて Gopher、GPT-3、MT-NLG、その他すべての言語モデルを「一貫して大幅に」上回っていますが、現在のモデルはオーバースケーリングとトレーニング不足に悩まされています。 DeepMind の調査結果によると、GPT-4 は GPT-3 よりわずかに大きくなることを考慮すると、GPT-4 が計算最適化を達成するために必要なトレーニング トークンの数は約 5 兆となり、現在のデータセットよりも桁違いに多くなります。最小のトレーニング損失に達するためにモデルをトレーニングするために必要な失敗の数は、GPT-3 を使用する場合(代わりに Gopher の計算予算を使用)よりも 10 ~ 20 倍多くなります。 これはおそらく、アルトマン氏が質疑応答で「GPT-4 は GPT-3 よりも多くの計算を使用する」と述べたときに言及していたことだろう。 OpenAI は間違いなく GPT-4 の最適化を調査するだろうが、予算が不明であるため、どの程度まで調査するかは予測できない。 OpenAI がモデルサイズ以外の変数の最適化に重点を置くことは間違いないでしょう。最適なハイパーパラメータのセット、最適な計算モデルのサイズ、パラメータの数を見つけることで、すべてのベンチマークで驚くべき改善が実現します。これらの方法を 1 つのモデルに組み合わせると、モデルはすべての予測において想像を絶する高さに到達します。 アルトマン氏はまた、モデルを大きくしなければ、人々はそのモデルの素晴らしさを信じないだろうとも述べた。おそらく、モデルのサイズを大きくする作業が完了したということを意味していたのでしょう。 3 予測3: GPT-4はテキストのみのモデルになるディープラーニングの未来はマルチモーダルモデルです。私たちはマルチモーダルな世界に住んでいるため、人間の脳には複数の感覚があります。一度に 1 つのモードでのみ世界を認識すると、AI が世界を処理または理解する能力が大幅に制限されます。 しかし、優れたマルチモーダル モデルを見つけるのは、優れた言語のみのモデルや視覚のみのモデルを見つけるよりもはるかに困難です。視覚情報とテキスト情報を 1 つの表現に組み合わせることは、困難な作業です。脳がこれをどのように行うかについての私たちの理解は非常に限られているため(ディープラーニング コミュニティが脳の構造と機能に関する認知科学の洞察を考慮に入れているわけではない)、それをニューラル ネットワークに実装する方法はわかりません。 アルトマン氏は質疑応答で、GPT-4はマルチモーダル(DALLEやLaMDAなど)ではなく、テキストのみのモデルになると述べた。したがって、アルベルト氏の推測では、次世代のマルチモーダル AI に移行する前に、モデルやデータセットのサイズなどの要素を微調整して、言語モデルの限界に到達しようとしているとのことです。 4 予測4: GPT-4は高密度モデルになるスパース モデルは条件付き計算を活用し、モデルのさまざまな部分を使用してさまざまな種類の入力を処理します。スパース モデルは最近大きな成功を収めており、高い計算コストをかけずに 1T を超えるパラメーター トークンに簡単に拡張できるため、モデル サイズと計算予算の間に一見直交関係が生まれます。ただし、MoE アプローチの利点は、非常に大規模なモデルではそれほど顕著ではありません。 OpenAI が高密度言語モデルに重点を置いてきた歴史を考えると、GPT-4 もおそらく高密度モデルになるだろうと Alberto 氏は考えています。また、アルトマン氏は、GPT-4 は GPT-3 よりそれほど大きくならないだろうと述べているため、少なくとも現時点では、スパース性は OpenAI の選択肢ではないと結論付けることができます。 AI のインスピレーションの源である人間の脳は、スパース処理に大きく依存しています。マルチモーダル性と同様に、スパース性はニューラル ネットワークの将来の世代を支配する可能性があります。 5 予測5: GPT-4はGPT-3よりも整合がとれるOpenAI は、AI アライメント問題、つまり言語モデルを私たちの意図に従わせ、私たちの価値観に沿わせる方法 (それが何を意味するにせよ) の解決に多大な労力を費やしてきました。これは数学的な問題(例えば、AIに私たちが何を望んでいるのかを正確に理解させるにはどうすればよいか)であるだけでなく、哲学的な問題でもあります(例えば、人間の価値観はグループによって大きく異なり、しばしば互いに衝突するため、AIを人間と一致させる普遍的な方法は存在しない)。 彼らは、人間のフィードバックを通じて指示に従うことを学習する新しい GPT-3 である InstructGPT を使用して最初の試みを行いました (それらの指示が善意によるものか悪意によるものかはモデルに組み込まれませんでした)。 InstructGPT の主な画期的な点は、言語ベンチマークの結果に関係なく、人間のレビュー担当者によってより優れたモデルであると判断されたことです (これらのレビュー担当者は OpenAI の従業員と英語話者の同質のグループであったため、導き出された結論については慎重になる必要があります)。これは、AI の能力を評価するための唯一の指標としてベンチマークを使用することを克服する必要性を強調しています。人間がこれらのモデルをどのように認識するかは、同様に、あるいはそれ以上に重要かもしれません。 Altman 氏と OpenAI が有益な AGI として維持しなければならない約束を考えると、GPT-4 は InstructGPT からの発見を実装し、それに基づいて構築されると信じています。 現在、このモデルのラベル作成は OpenAI の従業員と英語を話す人に限定されているため、モデルの調整方法は改善されると思います。真の連携には、あらゆる性別、人種、国籍、宗教などのグループが含まれるべきです。これは大きな挑戦であり、この目標に向けたあらゆる一歩は歓迎されるでしょう。 6 結論モデル サイズ: GPT-4 は GPT-3 よりも大きくなりますが、現在の最大モデル (MT-NLG 530B および PaLM 540B) と比べるとそれほど大きくはありません。モデルのサイズは重要な特徴ではありません。 最適性: GPT-4 は GPT-3 よりも多くの計算を使用します。 GPT-4 により、パラメータ化 (最適なハイパーパラメータ) とスケーリング法則 (トレーニング トークンの数はモデル サイズと同じくらい重要) に関する新たな最適化の洞察が可能になります。 マルチモーダル: GPT-4 はマルチモーダル モデルではなく、テキストのみのモデルになります。 OpenAI は、DALLE のようなマルチモーダル モデルに完全に移行する前に、言語モデルを最大限に活用したいと考えています。 スパース性: GPT-2 と GPT-3 の傾向に従い、GPT-4 は密なモデルになります (すべてのパラメーターが任意の入力を処理するために使用されます)。将来的には希少性がさらに重要になるでしょう。 アライメント: GPT-4 は GPT-3 よりもアライメントが高く、人間のフィードバックに基づいてトレーニングされた InstructGPT から学習します。しかし、AI の調整にはまだ長い道のりが残っており、誇張するのではなく、行われた作業を慎重に評価する必要があります。 どう思いますか? |
>>: すべてがAI+になる新しい形の人工知能があなたを待っています
国内メディアの報道によると、12月17日に開催された2019年中国スマート企業発展フォーラムで、工業...
著者についてCtrip の自然言語処理と大規模言語モデル アルゴリズムの専門家である Terry は...
SAP は、AI 時代において顧客がデータの潜在能力を最大限に活用し、より深い洞察、より速い成長、よ...
[[206273]]人々は 1960 年代から HAL のような SF レベルの AI を...
[[421659]]みなさんこんにちは。私は梁唐です。今日は、非常に古典的で非常にシンプルなアルゴリ...
ビッグモデルはソフトウェア業界全体を変えるでしょう。その代表的な製品の一つがデジタルヒューマンです。...
GPT-4 はすでに人間がチップを作るのに役立っています!ニューヨーク大学タンドン工学部の研究者た...
「人間のように考える」、「人間のように行動する」、「合理的に考える」、「合理的に行動する」。これは...
[[344622]] 第61回国際数学オリンピック(IMO)2020の結果が先日発表されました。中国...
人工知能は新しい概念でもなければ、単なる仕掛けでもありません。何十年も前から提案されてきました。真の...
1 クローズドループコンセプトとR&Dクローズドループ私たちは毎日、クローズドループを扱って...
運輸省によると、運輸省はこのほど「自動運転とインテリジェント船舶の試験運用を組織することに関する通知...