1780億のパラメータを持つこの言語モデルは、王者GPT-3に挑戦するためだけに作られたのでしょうか？

誰かがGPT-3の独占に挑戦しなければなりません!

GPT-3 は発売以来、最大の AI 言語モデルの 1 つになりました。

メールを書いたり、記事を書いたり、Web サイトを作成したりできるだけでなく、Python ディープラーニング用のコードを生成することもできます。

最近、「ジュラシック」と呼ばれるモデルが GPT-3 を打ち負かすことができると主張しました。

いったい誰がそんな風に叫ぶ勇気があるのでしょうか?

[[417198]]

ジュラシックパークの恐竜ではありません!まだパブリックベータ版の言語モデル、Jurassic-1 Jumbo です。

今なら無料でお試しいただけます:

https://studio.ai21.com/playground

Python コードを Javascript に変換できることに加えて、この言語モデルには他にどのような利点がありますか?

大胆だが力強い

機械学習では、パラメータは過去のトレーニングデータから学習されるモデルの部分です。

一般的に、言語の分野では、パラメータの数が増えるほど、モデルは複雑になります。

Jurassic-1 Jumbo モデルには 1,780 億個のパラメータが含まれています。

一気に30億パラメータでGPT-3を上回ります！

語彙数で言うと、GPT-3 には 50,000 個あります。

しかし、Jurassic-1 は 25 万の表現、単語、フレーズを認識できます。

カバレッジ範囲は、GPT-3 を含むほとんどの既存のモデルよりも広くなっています。

Jurassic-1 モデルは、パブリックサービス上の数百の分散 GPU を使用してクラウドでトレーニングされます。

トークンは、テキストを自然言語の小さな単位（単語、文字、単語の一部など）に分割する方法です。

Jurassic-1 トレーニングデータセットには 3,000 億のトークンが含まれており、すべて Wikipedia、ニュース出版物、StackExchange などの英語の Web サイトから収集されています。

このモデルは、公開リソースからの 3000 億トークンに対して、従来の自己監視法と自己回帰法を使用してトレーニングされます。

最適化手順に関しては、研究者らは J1-Large と J1-Jumbo に対してそれぞれ 1.2×10-4 と 0.6×10-4 の学習率、および 200 万トークンと 320 万トークンのバッチサイズを使用しました。

バイトあたりの平均対数確率は、さまざまな分野におけるモデルの適用可能性を示しています。

研究者らは、Jurassic-1モデルはほぼすべてのコーパスにおいてGPT-3より優れていたと述べた。

小規模サンプル学習テストでは、両方のモデルが勝ったり負けたりしましたが、2 つのモデルの平均スコアは同じでした。

ベンチマークテストでは、学術的および法的質問に答える Jurassic-1 のパフォーマンスは、GPT-3 と同等かそれ以上です。

GPT-3 では 11 個のトークンが必要ですが、Jurassic-1 では 4 個しか必要ないため、サンプル効率が大幅に向上します。

もちろん、言語モデルにとって最も難しい問題は論理と数学です。

Jurassic-1 Jumbo はすでに、2 つの大きな数を加算するなどの非常に単純な算術問題を解くことができます。

ジュラシックは言葉の意味を説明できる

さまざまな言語モデルを前にすると、Jurassic-1 Jumbo はせいぜい新星としか見なされず、斬新なモデルではありません。

ただし、以前のものと同様に、質問が明確に説明されていない場合、表示される回答は希望するものとは異なる可能性があります。

プロダクトマネージャーのターミネーターとも言えるでしょう。

偏見が生じると、自分の国民さえも攻撃される

Jurassic-1 モデルは AI21 Labs によって開発され、AI21 Labs の Studio プラットフォームを通じて提供されます。

開発者はパブリックベータ版で仮想エージェントやチャットボットなどのアプリケーションのプロトタイプを作成できます。

さらに、パブリックベータ版では、Jurassic-1 モデルと Studio を使用して、商品説明から短い商品名を生成するなどの言い換えや要約も行えます。

ニュースを内容に応じて分類する

同時に、開発者は、トレーニングインスタンスが 50 ～ 100 個しかない場合でも、独自の Jurassic-1 モデルをトレーニングできます。

トレーニングが完了したら、AI21 Studio を通じてこのカスタムモデルを使用できます。

しかし、Jurassic-1 も他の言語モデルと同じ「問題点」、つまり性別、人種、宗教に対する偏見に直面しています。

モデルトレーニングデータセットには多かれ少なかれ偏りがあるため、トレーニングされたモデルも「悪い点を学習」することになります。

一部の研究者は、GPT-3や類似の言語モデルによって生成されたテキストが極右過激派の思想や行動を激化させる可能性があると指摘している。

ジュラ紀モデルの出力は、事前設定されたシナリオの問題に直面している

これに対応して、AI2 Labs はパブリックベータ版で生成できるテキストの量を制限し、微調整された各モデルを手動でレビューする予定です。

しかし、微調整されたモデルであっても、トレーニング中に身につけた悪い習慣から逃れることは難しい場合があります。

Open AI の Codex と同様に、人種差別的または不快な実行可能コードが生成されます。

Jurassic-1 はイスラエルの研究者によって開発されたものですが、トレーニングデータセットの影響により、GPT-3 よりもユダヤ人に対する差別的であると思われます。

偏見や差別に関しては、それぞれのモデルは鍋が釜に黒いと言うようなものです。

しかし、AI21 Labsのエンジニアは、Jurassic-1モデルはGPT-3よりもわずかに偏りが少ないと述べています。

<<: OpenAI、自然言語をコードに翻訳するAIシステムCodexのテストを開始

>>: Pytorch フレームワークを使用するよりも 200 倍高速です。 0.76秒後、ラップトップ上のCNNはMNISTを解いた。

夜もカラフルに、ディープラーニングでフルカラー暗視システムを実現

ブログ

ウォールストリートジャーナル：大手テクノロジー企業は依然として生成AIサービスで利益を上げようとしている

ブログ

Keras または TensorFlow?プログラマーはディープラーニングフレームワークをどのように選択すべきでしょうか?

ブログ

クンペンが離陸、ソフトコムが道路を建設、ソフトコム・ウィズダムがファーウェイと手を組み、済南を科学技術革新の高原に築く

ブログ

Nature: 光コンピューティングと AI 推論を統合して高速かつ高帯域幅の AI コンピューティングを実現

ブログ

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

ブログ

PaddleOCRのスーパーパワーを解き放つ

ブログ

犯罪者をターゲットにした新しい生成AIツールについて知っておくべきこと

ブログ

チューリング賞受賞者：人工知能を実装したものは、もはや人工知能とは呼ばれない

ブログ

今後 20 年間で、人工知能ロボットが介護士に取って代わり、高齢者の世話をすることになり、介護士よりも信頼できる存在になるでしょう。

ブログ

1780億のパラメータを持つこの言語モデルは、王者GPT-3に挑戦するためだけに作られたのでしょうか？

大胆だが力強い

偏見が生じると、自分の国民さえも攻撃される

夜もカラフルに、ディープラーニングでフルカラー暗視システムを実現

ウォールストリートジャーナル：大手テクノロジー企業は依然として生成AIサービスで利益を上げようとしている

Keras または TensorFlow?プログラマーはディープラーニングフレームワークをどのように選択すべきでしょうか?

クンペンが離陸、ソフトコムが道路を建設、ソフトコム・ウィズダムがファーウェイと手を組み、済南を科学技術革新の高原に築く

Nature: 光コンピューティングと AI 推論を統合して高速かつ高帯域幅の AI コンピューティングを実現

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

PaddleOCRのスーパーパワーを解き放つ

犯罪者をターゲットにした新しい生成AIツールについて知っておくべきこと

チューリング賞受賞者：人工知能を実装したものは、もはや人工知能とは呼ばれない

今後 20 年間で、人工知能ロボットが介護士に取って代わり、高齢者の世話をすることになり、介護士よりも信頼できる存在になるでしょう。

推薦する

中国 NeurIPS の著者の 54% が米国へ：ケンブリッジ AI パノラマレポートが発表

OpenAI のメジャーアップデート: 誰でも GPT をカスタマイズできます!マスク氏は2ヶ月でChatGPTを構築し、公に異議を唱えた

AIはソフトウェアテスターの仕事を「奪う」のでしょうか?

リー・ヤンがスマートシティ建設について語る：ハードウェアからプラットフォームまで、Terminusエコシステムが先導する

未来を予測しますか？ GoogleはAIモデルを使って「リアルタイム」の天気予報を実現

Apple、新しいGPUアクセラレーションツールCreate MLをリリース

自動運転が何千もの家庭に普及するまでにどれくらいの時間がかかるのでしょうか?

人工知能の分野に参入する際に Python が好まれる言語なのはなぜですか?

女神の若々しい姿が全開！テンセントのAIモデルGFPGANがGitHubのホットリストで1位に

SumTo100ゲームの自己学習と結果予測を実現するためのAIアシスタントのトレーニング

ChatGPT文明がオンラインになりました！ワンクリックで明代の南京と中世イタリアを旅しよう

量子コンピューティングは人工知能をどう変えるのか

IBMとNASAが協力して地理空間AIモデルをオープンソース化し、気候科学の発展を目指す

機械学習モデルのトレーニングの全プロセス！