GPT-3 に匹敵するものでしょうか? EleutherAIがGPT-Jをオープンソース化

GPT-3 に匹敵するものでしょうか? EleutherAIがGPT-Jをオープンソース化

2020年、マイクロソフトはOpenAIと合意に達し、MicrosoftはGPT-3のソースコードに独占的にアクセスできるようになりました。それ以来、OpenAIは以前のようにGPT-3 AIモデルを公開していませんが、OpenAIのGPT-1とGPT-2は依然としてオープンソースプロジェクトです。

自然言語処理 AI モデルにおける OpenAI と Microsoft の独占を打ち破るために、Connor Leahy、Leo Gao、Sid Black は、AI の調整、スケーリング、オープンソース AI 研究に重点を置いた組織である EleutherAI を設立しました。最近、EleutherAI 研究チームは、GPT-3 をベースにした自然言語処理 AI モデル GPT-J をオープンソース化しました。

GPT-J は GPT-3 をベースにした自然言語処理 AI モデルであり、60 億のパラメータで構成されています。このモデルは 800 GB のオープンソース テキスト データセットでトレーニングされており、同様のサイズの GPT-3 モデルに匹敵します。

このモデルは、Google Cloud の v3-256 TPU と EleutherAI の The Pile データセットを使用して約 5 週間でトレーニングされました。 GPT-J は、OpenAI が報告した 67 億パラメータバージョンの GPT-3 と同等の精度を標準 NLP ベンチマーク ワークロードで達成します。モデル コード、事前トレーニング済みの重みファイル、Colab ドキュメント、デモ Web ページはすべて、EleutherAI のオープン ソース プロジェクトに含まれています。

EleutherAI は 2021 年 3 月に 27 億パラメータの GPT-Neo モデルをリリースしました。これは同社による GPT のようなシステムの最初の実装でした。 GPT-Neo は TensorFlow で構築され、Mesh TensorFlow 並列ライブラリを介して TPU でトレーニングされます。チームは現在、Microsoft DeepSpeed をベースにした GPU ソリューションである GPT-NeoX も開発しています。コードはオープンソースですが、モデル ファイルには現時点でアクセスできません。

最新モデル GPT-J は、新しいライブラリ Mesh-Transformer-JAX を使用してトレーニングされます。このライブラリは、TensorFlow のような特定のディープラーニング フレームワークを使用する代わりに、Google の JAX 線形代数フレームワークを使用します。 GPT-J は Tensorflow よりも柔軟で高速な推論を提供し、モデル開発時間は以前の取り組みよりもはるかに短くなります。 GPT-Neo モデルと比較して、GPT-J のトレーニング効率は 125% 向上します。いくつかのダウンストリーミング ワークロードにおけるゼロ ポイント パフォーマンスに関しては、GPT-J は公開されている Transformer LM の中で最高です。

EleutherAI の開発者である小松崎氏は、次のように述べています。「TensorFlow や TPU などの類似製品と比較すると、より柔軟で高速な推論が可能になります。さらに重要なのは、他の大規模モデルに比べてプロジェクトにかかる時間がはるかに短いことです。調査によると、JAX + xmap + TPU は、大規模なモデルを迅速に開発するための完璧なツール セットです。」

開発者は、GitHub で GPT-J のソースコードとモデルを、EleutherAI の公式 Web サイトでインタラクティブなデモを見つけることができます。

この記事はOSCHINAから転載したものです

この記事のタイトル: GPT-3 に匹敵するか? EleutherAI が GPT-J をオープンソース化

この記事のアドレス: https://www.oschina.net/news/150972/eleutherai-open-sources-gpt-j

<<:  AIを活用してデジタル資産管理ワークフローを効率化する方法

>>:  AIエンジニアリングについて知っておくべきこと

ブログ    
ブログ    

推薦する

量子コンピューティングはどのようにして AI の「兄弟技術」になるのでしょうか?

[[254920]]画像出典: Visual China過ぎ去ったばかりの 2018 年を振り返っ...

...

スマート医療診断を理解するためのレポート:AIエンパワーメントと分子診断の自動化

分子診断のミッドストリーム市場は、機器メーカーや試薬メーカーによって占められています。現在の分子診断...

人工知能はインターネットなしでも動作できるようになる

エッジコンピューティングの進歩とますます高性能化するチップにより、人工知能(AI)は広域ネットワーク...

最高裁判所は顔認識に関する新たな規制を発表:顔情報の収集には「個別の同意」が必要

[[414466]] 7月28日、最高人民法院は「顔認識技術を用いた個人情報処理に関する民事訴訟にお...

WaymoとGoogleが自動運転のマルチ軌道行動予測を実現するTNTモデルを提案

はじめに: Waymo は最近、フェニックス地域で安全担当者なしの無人タクシーの運行を開始すると発表...

Flask を使用して機械学習モデルを簡単にデプロイするにはどうすればよいですか?

[51CTO.com クイック翻訳] データ サイエンティスト/機械学習エンジニアが Scikit...

研究によると、GPT-4モデルはエラーを自己修正する能力があり、AIコードのさらなる商業化を促進することが期待されています。

7月5日、マサチューセッツ工科大学(MIT)とマイクロソフトの研究者らは、GPT-4モデルには優れ...

レッドハットのCEOがAIの取り組みとソースコードの混乱について語る

今年初めの Red Hat Summit で、Red Hat は OpenShift AI によるプ...

ハト駆除に関しては、自律型ドローンが究極の藁人形になるかもしれない

私たちはハトが大好きですが、ハトは建物やその他の構造物を汚したり、健康被害をもたらす可能性があります...

...

LeCun はもう一つの有名な引用を残しました: ChatGPT?犬ほども良くない!それは言語モデルによって供給されるだけである

チューリング・ビッグスリーの一人であるルカン氏は昨日、もう一つの名言を残した。 「知能の面では、Ch...

末期の病気を患う58歳の女性が、メタバースで死に際の願いを叶えた。VRグランドキャニオンツアーだ。

慢性閉塞性肺疾患を患っている女性は長い間病気で寝たきりの状態です。しかし、彼女の最後の願いは、アメリ...

米国の学区は校内暴力を防ぐためにAIを活用し、脅迫的な言葉を検知して管理者に通知しているが、事前診断率はわずか25%に過ぎない。

アメリカでまた銃撃事件が発生。 5月24日、テキサス州ユバルデのロブ小学校で銃撃事件が発生し、少なく...