EleutherAIが200億パラメータのGPT風モデルを発表: GPT-3とは異なり、無料でオープン

EleutherAIが200億パラメータのGPT風モデルを発表: GPT-3とは異なり、無料でオープン

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

最近、「ハッカーグループ」EleutherAI は、GPT-3 における OpenAI の独占を打ち破る新たな重要な一歩を踏み出しました。

200億パラメータの新しいモデル「GPT-NeoX-20B」をリリースしました。

周知のとおり、Microsoft と OpenAI は 2020 年に GPT-3 ソース コードへの独占アクセスに関する合意に達して以来、OpenAI は GPT-3 モデル コードを一般に公開していません (ただし、GPT-1 と GPT-2 は依然としてオープン ソース プロジェクトです)。

テクノロジー大手の覇権に対する「反抗」から、さまざまな研究者、エンジニア、開発者のボランティアで構成されるコンピューター科学者の協会が設立され、大規模 NLP モデルにおける Microsoft と OpenAI の独占を打ち破ることを決意し、良好な成果を上げています。

この関連付けは、EleutherAI です。

古代ローマの自由の女神エレウテリアにちなんで名付けられ、巨人に対する軽蔑と抵抗を表しています。

GPT-3 の 1750 億個のパラメータと比較すると、GPT-NeoX-20B のパラメータは明らかに小さいです。しかし、EleutherAI はこの成果を非常に誇りに思っています。なぜでしょうか?

1 EleutherAIの起源

まず、EleutherAIの開発の経緯についてご紹介します。

人工知能の脅威理論は古くからある問題です。ホーキング博士はかつてインディペンデント紙で人工知能の脅威について次のように述べた。「人工知能の短期的な影響は誰がそれを制御するかによって決まるが、長期的な影響はそれがそもそも制御できるかどうかによって決まる。」

EleutherAIは2020年7月に設立されました。主な発起人は、コナー・リーヒ、レオ・ガオ、シド・ブラックを含む独学のハッカーのグループです。

当時、Microsoft と OpenAI は GPT-3 に対する制御アクセス契約を締結しました。このニュースを聞いて、反抗的なオタクの一団がDiscord(ソーシャルメディアプラットフォーム)でこう発言した。「OpenAIに教訓を与えよう!」

そこで彼らは、GPT-3 に匹敵する機械学習モデルを構築することを望み、Discord をベースに EleutherAI を設立しました。

創設者のコナー・リーヒ氏はIEEE Spectrumとのインタビューで次のように語った。

「最初は本当に楽しい趣味として始まったのですが、ロックダウン中に他にやることがなかったので、すぐにもっと魅力的になりました。」

「私たちは、数十年前の古典的なハッカー文化の末裔だと考えています。ただ、新しい分野で、好奇心と挑戦への愛からテクノロジーを試しているだけです。」

Discord サーバーには現在約 10,000 人のメンバーがいますが、定期的にアクティブになっているのは 100 人から 200 人程度で、新しいモデルに取り組んでいるのは 10 人から 20 人のチームです。

EleutherAIの研究チームは設立以来、まず60億のパラメータを持つGPT-3をベースとしたGPT-J NLPモデルをオープンソース化しました。2021年3月には27億のパラメータを持つGPTライクなモデルであるGPT-Neoをリリースするなど、急速に成長してきたと言えます。

今年2月9日、CoreWeaveと提携し、GPT-Neoのアップグレード版であるGPT-NeoX-20Bをリリースしました。公式コードアドレスは以下の通りで、現在はThe Eye on the Eyeから公開ダウンロードできます。

  • コードアドレス: https://mystic.the-eye.eu/public/AI/models/GPT-NeoX-20B/

これは現在、公開されている最大の事前トレーニング済み一般自己回帰言語モデルでもあります。

リリース発表の中で、リーヒ氏は「標準的な言語モデリングタスクの精度」と「ヘンドリックステスト評価によって測定された被験者グループ別の事実知識のゼロショット精度」について特に言及した。

GPT-NeoX-20Bの2つの利点: 無料でオープン

簡単に言えば、GPT-NeoX-20B は、200 億のパラメータを持つ、事前トレーニング済みの汎用自己回帰大規模言語モデルです。

それが何なのかわからない人は、約 2 年前に世界に衝撃を与えた OpenAI の大規模言語モデル GPT-3 を思い浮かべてください。コンピューター コードの記述、詩の作成、区別がつかないスタイルと権威ある口調によるフェイク ニュースの生成など、幅広い言語機能を備えています。タイトルや文章を与えるだけで記事を生成することもできます。入力情報が非常に少ない場合でも、自分で「作成」できるためです。また、作成した内容も意味を成します。 (余談ですが、マーベルのジャービスの目立たないバージョンのようなものです)

確かに、OpenAI のモデルは EleutherAI のモデルよりも大きく、1,750 億のパラメータ (モデル内で情報をエンコードするノードまたは数値) があります。モデルのパラメータが多ければ多いほど、吸収する情報が多くなり、より詳細になるため、モデルは「よりスマート」になります。

しかし、EleutherAI は世界最大かつ最も高性能な同種のモデルであり、無料で公開されています。

「より多くのセキュリティ研究者がこの技術を利用することを期待している」とリーヒ氏は語った。

さらに、EleutherAI と OpenAI では、大規模モデルのトレーニングに必要な計算能力が異なります。

OpenAI は、不特定多数の Nvidia V100 Tensor Core GPU で GPT-3 をトレーニングしました。それ以来、OpenAI のパートナーである Microsoft は、285,000 個を超える CPU コア、10,000 個の GPU、および各 GPU サーバーへの 400 Gb/s のネットワーク接続を備えた大規模モデル トレーニング用の単一システムを開発しました。

しかし、EleutherAI は GPT-3 の独占に対抗する取り組みを続けています。彼らは当初、Google が TPU Research Cloud プログラムの一環として提供したハードウェアを使用して、60 億のパラメータを持つ大規模な言語モデル GPT-J を構築しました。 GPT-NeoX-20B では、チームは GPU ベースのワークロードを専門とするクラウド サービス プロバイダーである CoreWeave の協力を得ました。

OpenAIは人工知能のための非営利団体であると主張していますが、現時点ではその本質は依然としてテクノロジー企業によって開発された民間モデルです。

EleutherAI の数学者兼 AI 研究者である Stella Biderman 氏は、IEEE Spectrum に次のように語った。

「こうした独自のモデルは私たちのような独立した研究者の力を制限します。その仕組みを理解しなければ、科学者、倫理学者、そして社会全体が、この技術を私たちの生活にどのように取り入れるべきかについて必要な話し合いを行うことができません。」

EleutherAI の取り組みは、大規模言語モデルの解釈可能性、セキュリティ、倫理に関する研究を促進し、外部からも認められています。

「EleutherAI が Pile データセットとその GPT-Neo モデル ファミリーを完全に公開していなければ、私たちの研究は実現できなかったでしょう」と、機械学習セキュリティ分野の第一人者である Nicholas Carlini 氏は最近の論文で述べています。Pile データセットは、大規模な言語モデルのトレーニングに使用される 825 GB の英語テキスト コーパスです。

3. オープンモデルアクセス権はAI開発の必須条件である

マスク氏は人工知能は人間よりも強力だという見解を何度も表明している。彼は、人間は固有の限界を持つ炭素ベースの生物であると信じています。人間の進化のスピードは明らかに人工知能の進化のスピードに及ばないため、人工知能は遅かれ早かれ人間を追い抜くことになるでしょう。これがAIにとって最大の潜在的脅威です。彼と他のテクノロジー界の大物たちは、この考えに基づいて OpenAI を共同設立しました。

リーヒー氏は、AIの最大のリスクは誰かがそれを悪用することではなく、AIシステムがあまりにも強力になり、誰もそれを制御できなくなることだと考えている。

「AIは人間とは違う奇妙なエイリアンだと考えなければならない」と彼は述べ、AIは目標を最適化するのが得意だが、愚かな目標を与えられると結果は予測できない可能性があると付け加えた。彼は、研究者がますます強力なAIを作ろうとする競争で自信過剰になり、その過程で手抜きをしてしまうのではないかと懸念している。

実際、志を同じくするコンピューター科学者なら誰でも大規模な言語モデルを構築できますが、大規模な言語モデルをトレーニングするための適切なハードウェアを入手することは困難です。なぜなら、非常に高額な資本投資が必要であり、現在そのようなハードウェアを保有している企業は数百社しかないからです。

「これらのシステムを研究して、どのように制御できるかを理解する必要があります。」EleutherAI は、この規模のモデルをアクセス可能にし、関心のある人々が人工知能システムの安全な使用についてさらに研究できるようにする目的で作成されました。

一方、OpenAI の「オープン」は、単にお金に対してオープンであるという意味ではないのではないでしょうか?​

<<:  自動運転システムにおける視覚認識モジュールの安全性テストに関する1万語

>>:  ファイザーはAIとスーパーコンピューターを活用してコロナウイルスのワクチンと薬を設計している

ブログ    
ブログ    

推薦する

「人工知能、データサイエンス、機械学習」について語る -- 概要

[[190364]]この記事は、写真付きの 4 つの例を含む 6 時間かけて執筆されました。目的は、...

コンパニオン チップ: AI にとって賢い選択でしょうか?

半導体業界では長年にわたり、より多くのコンポーネントを単一のシステムオンチップ (SoC) に緊密に...

人工知能と教育や指導が出会うと、どんな火花が散るでしょうか?

人工知能は世界第4次産業革命であり、工業、医療などの分野での応用が拡大しています。オンライン教育の普...

DragGANはオープンソース化から3日間で23,000のスターを獲得し、DragDiffusionが登場しました。

AIGC の魔法の世界では、画像を「ドラッグ」することで、必要な画像を変更したり合成したりできます...

海外メディア:ウルトラマンのOpenAIへの復帰は主にチェスキー氏とナデラ氏の支援にかかっている

12月25日のニュース、シリコンバレーのテクノロジー企業の幹部たちは理解しにくい人々の集まりだ。彼ら...

NLPモデル「包括的分析+評価ランキング」、CMUの最新ツールが優れたアイデアを見つけるのに役立ちます

[[396522]] CMU は、復旦大学とオハイオ州立大学の研究者と共同で、モデルの理解度分析と...

...

人工知能は行動変容マーケティングの世界に混乱をもたらすのでしょうか?

人工知能が人々の日常生活においてますます重要になるにつれ、行動マーケティングも成長しています。人々は...

有名人の「ペイント肌」顔変更技術を悪用したいたずら合成AI動画の調査

[[265249]]新華社、上海、5月13日。AI技術の発展により、動画の顔を変える技術的ハードルが...

ユニバーサルミッション!清華大学、線形複雑性を実現するバックボーンネットワークFlowformerを提案|ICML2022

タスクの一般性は、基本モデル研究の中心的な目標の 1 つであり、ディープラーニング研究が高度なインテ...

...

データ処理を簡単にしますか? Baidu EasyDataが初の高度なインテリジェントデータクリーニング機能をリリース

AI モデルを開発する場合、データの量と品質がモデルの有効性に直接影響します。現場でデータを収集した...

何か効率的な「錬金術」アーティファクトをお勧めいただけますか? Fudan fastNLPチームが内部パラメータ調整ツールfitlogをリリース

このパラメータ調整ツールは、実験結果の表形式表示、カスタムメモ、フロントエンド操作の記録の削除/非表...

AI スペクトルをめぐる戦いは 5G にとって何を意味するのでしょうか?

インテリジェントな都市変革の活発なトレンドの中で、AI を使用して交通渋滞を管理することは、誰もが多...