誰かがGPT-3の独占に挑戦しなければなりません! GPT-3 は発売以来、最大の AI 言語モデルの 1 つになりました。 メールを書いたり、記事を書いたり、Web サイトを作成したりできるだけでなく、Python ディープラーニング用のコードを生成することもできます。 最近、「ジュラシック」と呼ばれるモデルが GPT-3 を打ち負かすことができると主張しました。 いったい誰がそんな風に叫ぶ勇気があるのでしょうか?
ジュラシックパークの恐竜ではありません!まだパブリックベータ版の言語モデル、Jurassic-1 Jumbo です。 今なら無料でお試しいただけます: https://studio.ai21.com/playground Python コードを Javascript に変換できることに加えて、この言語モデルには他にどのような利点がありますか? 大胆だが力強い機械学習では、パラメータは過去のトレーニング データから学習されるモデルの部分です。 一般的に、言語の分野では、パラメータの数が増えるほど、モデルは複雑になります。 Jurassic-1 Jumbo モデルには 1,780 億個のパラメータが含まれています。 一気に30億パラメータでGPT-3を上回ります! 語彙数で言うと、GPT-3 には 50,000 個あります。 しかし、Jurassic-1 は 25 万の表現、単語、フレーズを認識できます。 カバレッジ範囲は、GPT-3 を含むほとんどの既存のモデルよりも広くなっています。 Jurassic-1 モデルは、パブリック サービス上の数百の分散 GPU を使用してクラウドでトレーニングされます。 トークンは、テキストを自然言語の小さな単位(単語、文字、単語の一部など)に分割する方法です。 Jurassic-1 トレーニング データ セットには 3,000 億のトークンが含まれており、すべて Wikipedia、ニュース出版物、StackExchange などの英語の Web サイトから収集されています。 このモデルは、公開リソースからの 3000 億トークンに対して、従来の自己監視法と自己回帰法を使用してトレーニングされます。 最適化手順に関しては、研究者らは J1-Large と J1-Jumbo に対してそれぞれ 1.2×10-4 と 0.6×10-4 の学習率、および 200 万トークンと 320 万トークンのバッチ サイズを使用しました。 バイトあたりの平均対数確率は、さまざまな分野におけるモデルの適用可能性を示しています。 研究者らは、Jurassic-1モデルはほぼすべてのコーパスにおいてGPT-3より優れていたと述べた。 小規模サンプル学習テストでは、両方のモデルが勝ったり負けたりしましたが、2 つのモデルの平均スコアは同じでした。 ベンチマーク テストでは、学術的および法的質問に答える Jurassic-1 のパフォーマンスは、GPT-3 と同等かそれ以上です。 GPT-3 では 11 個のトークンが必要ですが、Jurassic-1 では 4 個しか必要ないため、サンプル効率が大幅に向上します。 もちろん、言語モデルにとって最も難しい問題は論理と数学です。 Jurassic-1 Jumbo はすでに、2 つの大きな数を加算するなどの非常に単純な算術問題を解くことができます。 ジュラシックは言葉の意味を説明できる さまざまな言語モデルを前にすると、Jurassic-1 Jumbo はせいぜい新星としか見なされず、斬新なモデルではありません。 ただし、以前のものと同様に、質問が明確に説明されていない場合、表示される回答は希望するものとは異なる可能性があります。 プロダクトマネージャーのターミネーターとも言えるでしょう。 偏見が生じると、自分の国民さえも攻撃されるJurassic-1 モデルは AI21 Labs によって開発され、AI21 Labs の Studio プラットフォームを通じて提供されます。 開発者はパブリック ベータ版で仮想エージェントやチャットボットなどのアプリケーションのプロトタイプを作成できます。 さらに、パブリックベータ版では、Jurassic-1 モデルと Studio を使用して、商品説明から短い商品名を生成するなどの言い換えや要約も行えます。 ニュースを内容に応じて分類する 同時に、開発者は、トレーニング インスタンスが 50 ~ 100 個しかない場合でも、独自の Jurassic-1 モデルをトレーニングできます。 トレーニングが完了したら、AI21 Studio を通じてこのカスタム モデルを使用できます。 しかし、Jurassic-1 も他の言語モデルと同じ「問題点」、つまり性別、人種、宗教に対する偏見に直面しています。 モデルトレーニングデータセットには多かれ少なかれ偏りがあるため、トレーニングされたモデルも「悪い点を学習」することになります。 一部の研究者は、GPT-3や類似の言語モデルによって生成されたテキストが極右過激派の思想や行動を激化させる可能性があると指摘している。 ジュラ紀モデルの出力は、事前設定されたシナリオの問題に直面している これに対応して、AI2 Labs はパブリックベータ版で生成できるテキストの量を制限し、微調整された各モデルを手動でレビューする予定です。 しかし、微調整されたモデルであっても、トレーニング中に身につけた悪い習慣から逃れることは難しい場合があります。 Open AI の Codex と同様に、人種差別的または不快な実行可能コードが生成されます。 Jurassic-1 はイスラエルの研究者によって開発されたものですが、トレーニングデータセットの影響により、GPT-3 よりもユダヤ人に対する差別的であると思われます。 偏見や差別に関しては、それぞれのモデルは鍋が釜に黒いと言うようなものです。 しかし、AI21 Labsのエンジニアは、Jurassic-1モデルはGPT-3よりもわずかに偏りが少ないと述べています。 |
<<: OpenAI、自然言語をコードに翻訳するAIシステムCodexのテストを開始
>>: Pytorch フレームワークを使用するよりも 200 倍高速です。 0.76秒後、ラップトップ上のCNNはMNISTを解いた。
今年3月15日にCCTVで暴露された事件は、オフラインのショッピング施設に入ったことのある人全員に衝...
イスラエルとパレスチナの紛争が続く中、関連ニュースが次々と報道され、中には虚偽の内容も混じり始め、真...
経済が不況に陥っているため、テクノロジー業界の大手企業は給与を削減したり、従業員を解雇したりしている...
北京、首鋼冬季オリンピック公園。最近、「MAI Shop」という小売店がここにオープンし、すぐにネッ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
1999年、ハリウッドSF映画史上最も重要なSF映画『マトリックス』が公開されました。この映画は、...
それほど遠くない過去には、データ サイエンス チームがディープラーニングを効果的に活用するには、いく...
従来の機械学習の分野でも、今日注目されているディープラーニングの分野でも、明確なラベルや結果を持つト...
世界がデータの津波と格闘する中、データセンターは急速に進化しています。スマート接続デバイスの数の急速...
[[322291]]オリジナル記事はThe Atlantic、著者ニコラス・カーよりこの記事のハイラ...
過去数年間、小売業界はテクノロジーによって革命を起こしてきました。店舗の日々の運営方法から、消費者の...