ChatGPT以外の14の大規模言語モデル

ChatGPT以外の14の大規模言語モデル

翻訳者 | 李睿

レビュー | Chonglou

今日、多くの企業幹部は人工知能を将来の発展方向と見ており、多くの技術リーダーもChatGPT を人工知能の同義語と見なしています。しかし、 OpenAIの主力製品であるChatGPTは、唯一の大規模言語モデルではありませんまた、一部のソフトウェア プロジェクトやドメインでは、 ChatGPT が最適な選択肢ではない可能性もあります。ほぼ毎日、新たな競争相手が現れます。どのテクノロジー企業次世代の人工知能ツールを開発したいと考えているようですが、それが良い結果をもたらすか悪い結果をもたらすかは、人々がそれをどのように使用するかによって決まります。

大規模言語モデルのには、他のモデルよりも優れているものがあるのでしょうか?おそらくそうでしょう。しかし、それらにはすべて欠陥、癖、不具合、弱点があり、長く使用すればするほど、それらはより顕著になります。生成 AI は最初は魔法のように見えるかもしれませんが、時間が経つにつれて、その奇妙で予測不可能な側面が現れ始めます。

大規模言語モデルのスケーリング

大規模な言語モデルの範囲と使用法のため、質問に対する生成 AI の回答の品質を科学的に測定することは困難です。データ サイエンティストは数千、あるいは数百万ものテスト問題を入力して回答を評価できますが、テスト セットが 1 種類の質問のみに焦点を当てている場合、出力は制限されます。 Hugging FaceのようなOpen LLMリーダーボードリソースを参照するのは興味深いですが、必ずしも正確であるとは限りません。

大規模な言語モデルを正確にベンチマークする方法を見つけるのは難しいですが、それらの切り替えは簡単になっています。 OpenLLMFastChatなどのプロジェクトでは、 APIやインターフェースが異なりますが、さまざまな大規模言語モデルを簡単に接続できます開発者はこれらを連結し、場合によってはこれらのモデルを並列に実行することもできます。

大規模な言語モデルを構築する際の大きな問題はコストです。関心は高く、投資は爆発的に増加しています、大規模な言語モデルの構築には数か月、場合によっては数年かかることもあります。開発チームはまずトレーニング データを収集し、次に大量の電力を消費する高価なハードウェアを使用してデータをプッシュします。彼らは最終的に大規模な言語モデルを作成することになりましたが、どうやって収益を上げ、この作業を継続する最善の方法は進化する問題でした。

自社で開発した大規模な言語モデルをオープンソース化する実験を行っている企業もあれば、独自の課金モデルを持つサービスに依存している企業もあります。大規模な言語モデルをオープンソース化することは本当に素晴らしいことですそれはモデルを展開して実行し続ける作業を処理できる場合に限られます。

以下はChatGPT以外の14 個の大規模言語モデルですこれらは、ユーザー操作プロジェクトに必要な大規模な言語モデルである場合も、そうでない場合もあります唯一の確認方法は、プロンプトを送信して結果を慎重に評価することです。

1.ラマ

Facebook(Meta)は、この基礎となる大規模言語モデルを作成し、それをオープンサイエンスへの取り組み」の一環として公開しました。誰でもLlamaをダウンロードして、特定のアプリケーション向けにさらに細かく調整されたモデルを作成するための基盤として使用できます ( AlpacaVicunaはどちらもLlama上に構築されています) 。このモデルには 4 つの異なるサイズがあります。あまり一般的でない場所では、 70億個のパラメータのみを持つ小型バージョンが使用されます。ある開発者は、 Llama は4GBの RAMを搭載したRaspberry Piでも実行できると主張しています

2. アルパカ

スタンフォード大学の研究者数名は、 MetaLlama 7Bを採用し ChatGPTのような指示に従うモデルを模倣した一連のプロンプトを使用してトレーニングしましたこの微調整の結果、 Llama LLMにエンコードされた知識を、質問したり指示を与えたりすることで人々アクセスできるようにする大規模な言語モデルであるAlpaca 7Bが誕生しました。軽量で大規模な言語モデル600ドル未満のハードウェアで実行できると言われています

Alpaca 7Bの作成者は、トレーニング セットとそれを構築するために使用されたコードを配布しており誰でもモデルを複製したり、別のセットから新しいモデルを作成したりすることができます

3. ビクーニャ

Llamaのもう一つの子孫は、 LMSYS.orgVicunaです VicunaチームはShareGPTから70,000種類の異なるダイアログのトレーニング セットを収集し、マルチターンのインタラクションとコマンドに従う機能の作成に特に注意を払いました。 Vicuna-13bまたはVicuna-7bバージョンで利用可能なこの大規模言語モデルは基本的なインタラクティブ チャット向けの最も価格競争力のあるオープン ソリューションの 1 つです。

4.ノードパッド

大規模な言語モデルが言語的に正確な」テキストを生成する方法に誰もが魅力を感じるわけではありませんNodePadの開発者は、テキストの品質が、ユーザーが基礎となる事実を再確認する妨げになることが多いと考えています。美しいユーザー インターフェースを備えた大規模な言語モデルでは、結果が意図せず美しく表示されることが多く、ユーザーがこれらの問題を予測することがより困難になります。 NodePad は、ユーザーがほとんど見ないような洗練された文章サンプルを生成するためではなく、探索と創造性を促進するために設計されています。この大規模な言語モデルの結果は、記憶された完成した文章としてではなく、多くのマインド マッピング ツール」で見られるようなノードと接続として表示されます。ユーザーはモデルの百科事典的な知識を活用して、プレゼンテーションで迷うことなく適切なアイデアを得ることができます。

5. シャチ

大規模言語モデルの第一世代は規模拡大に成功し、時間の経過とともに規模が大きくなっていきました。 Microsoft Research のOrcaは、この傾向を逆転させます。このモデルは130億個のパラメータのみを使用するため、一般的なマシンでも実行できます。 Orcaの開発者は、トレーニング アルゴリズムを拡張して解釈の痕跡」、 段階的な思考プロセス」、および指示」を使用することで、この偉業を達成しました。 Orca は、AI に単に生の素材から学習させるのではなく、教えるためのトレーニング セットを特別に提供します。つまり、人間と同じように AI は深く掘り下げることなくより速く学習します。初期の結果は有望で、Microsoft チームによって提供されたベンチマークでは、このモデルがより大きなモデルと同等のパフォーマンスを発揮することが示されています。

6. ジャスパー

Jasperの開発者は、スマートなジェネラリストを作りたかったのではなくコンテンツの作成に重点を置いチャットボットを作りたかったのです。このシステムは、単なる無制限のチャットセッションではなく、不動産のリスト作成や Amazon などのサイト向けの製品機能の作成など、特定のタスク向けに設計された50を超えるテンプレートを提供します。有料版は、一貫したトーンのマーケティング コピーを作成したい企業向けに特別に設計されています。

7. クロード

Anthropic はClaude を、調査から顧客サービスまでプロンプトを取り込み、回答を出力するなど、企業のテキストベースのタスクの多くを処理する便利なアシスタントとして売り込んでいますAnthropic では、長いプロンプトを許可して、より複雑な指示を促し、ユーザーが結果をより細かく制御できるようにします。 Anthropic は現在、 Claude-v1と呼ばれるフルモデルと、はるかに安価なClaude Instantと呼ばれる簡易モデルの2 つのバージョンを提供しています。前者はより複雑で構造化された推論を必要とするタスクに適しており、後者はより高速で、分類や規制などの単純なタスクに適しています。

8. セレブラス

特殊なハードウェアと汎用モデルが一緒に進化すると、非常に高速で効率的なソリューションが生まれます。 Cerebras は、ローカルで実行したい人向けに、小規模(1 億 1,100万パラメータ)から大規模(130億パラメータ)までさまざまなHugging Face大規模言語モデルを提供しています。しかし、大規模なトレーニング セットに最適化された、 Cerebras独自の統合プロセッサ上で実行されるクラウド コンピューティング サービスを使用したいと考えています

9. ファルコン

フルサイズのファルコン40bと小型のファルコン7bは、 UAEの技術革新研究所(TII)によって製造されました。彼らは、推論能力の向上に重点を置き、 RefinedWebからの多数の一般的な例に基づいてFalconモデルをトレーニングしました。その後、彼らはこれをApache 2.0とともにリリースし、実験に利用できる最もオープンで制限のない大規模言語モデルの 1 つにしました。

10. イメージバインド

多くの人はMetaをソーシャルメディアを支配する巨大企業だと考えていますが、同社はオープンソースソフトウェアの開発企業でもあります。人工知能への関心が高まる中、同社が自社のイノベーションの多くを公開し始めているのも不思議ではない。 ImageBind は、AI が複数の異なるタイプのデータ (この場合はテキスト、オーディオ、ビデオ) を同時に作成する方法を示すために設計されたプロジェクトです。言い換えれば、生成 AI は、許可されれば想像上の世界全体を 1 つにまとめることができるのです。

11. ゴリラ

生成 AI を使用してコードを記述することについては、よく耳にしたことがあるかもしれません。結果は表面的には印象的であることが多いですが、詳しく調べると重大な欠陥が明らかになります。構文は正しいかもしれませんが、 API呼び出しが間違っているか、存在しない関数を指している可能性もあります。 Gorilla は、プログラミング インターフェイスをより適切に処理できるように設計された大規模な言語モデルです。開発者たちはまずLlamaから始め、その後、ドキュメントから直接取得したより深いプログラミングの詳細に焦点を当てて微調整しました。 Gorillaのチームは、独自のAPI中心のテスト成功ベンチマーク セットも提供しています。これは、コーディング支援に人工知能を利用したいプログラマーにとって重要な追加機能です。

12. オラアイ

Ora.aiは、ユーザーが特定のタスクに最適化されたターゲット チャットボットを作成できるシステムです。 LibrarianGPT は、本の一節を使用してあらゆる質問に答えようとします。たとえば、チャットボットはカール・サーガ教授のすべての著作からインスピレーションを得ることができます。ユーザーは独自のチャットボットを作成することも、他の人がすでに作成した何百ものチャットボットの 1 つを使用することもできます。

13.エージェントGPT

アプリケーションに必要なすべてのコードをまとめるもう 1 つのツールはAgentGPTです。これは、休暇の計画や何らかのゲーム コードの作成などの作業を行うために派遣できるエージェントを作成するように設計されています。テクノロジー スタックのほとんどのソース コードはGPL3.0に基づいて利用できます。サービスとして実行可能なバージョンも用意されています。

14. 倹約的なGPT

FrugalGPTは異なるモデルではなく、特定の質問に答えるためにより安価なモデルを見つけるための慎重な戦略ですFrugalGPT の研究者たちは、多くの質問に答えるためにはより大規模で高価なモデルは必要ないことに気づきました。彼らのアルゴリズムは、最も単純なものから始まり、より良い答えが見つかるまで一連の大規模な言語モデルを通過していきます。研究者の実験によれば、多くの問題では実際には複雑なモデルは必要ないため、この慎重なアプローチによりコストを98%削減できることが示されています

原題: ChatGPT ではない 14 の LLM 、Peter Wayner 著

<<:  phind: 開発者に特化したAI検索エンジンの誕生!

>>:  Ant Group の大規模セマンティック知識管理における主要技術と実践

推薦する

人工知能は企業の持続可能な発展をどのようにサポートできるのでしょうか?

人工知能の普及は社会に大きな影響を与え、私たちの仕事、生活、コミュニケーションの方法を変えました。現...

ビジネスにおいて人工知能との共生関係を築くには?

現代では、意図的か否かに関わらず、私たちは皆、人工知能に触れたり、人工知能を使用したりしています。私...

...

ローコード自動化が銀行業務をどう変えるか

基本的な当座預金口座の機能に関しては銀行間でほとんど違いがないため、各銀行は顧客にさらに多くの機能を...

農業における生成AI

農業業界は、生成型人工知能 (AI) がもたらす貴重な洞察と生産性の向上により、大きな変革の可能性を...

2 ステップで 25 フレームの高品質アニメーションを生成 (SVD の 8% として計算) | オンラインでプレイ可能

消費されるコンピューティング リソースは、従来の Stable Video Diffusion (S...

会話型 AI とは何ですか?

「会話型 AI」という用語には確かに重みがありますが、最終的にはそれがビジネスに実際にどのような影...

...

AIとIoTの統合が加速

近年、モノのインターネットは大きな注目を集めていますが、ほとんどのアプリケーションには 2 つの重要...

人工知能の急速な発展は人間に取って代わるのでしょうか?

[[347812]]現在の人工知能技術の発展は、主にコンピュータを媒体として活用し、自動化技術の発...

ByteDance によって否定された中国版 Sora の何がそんなに素晴らしいのでしょうか?

執筆者 | Yun Zhao制作:51CTO テクノロジースタック(WeChat ID:blog)最...

通信事業者のRPAロボット活用事例紹介

国際・国内電話サービス、インターネット事業、通信ネットワーク資源・設備サービスなどを主力事業とする米...

AI は教育にどのように役立つのでしょうか?

教育改革と人工知能の普及に伴い、キャンパスのインテリジェント構築もデジタルキャンパスからスマートキャ...

Deep Policy Gradient Algorithm は真の Policy Gradient Algorithm ですか?

深層強化学習は最近大きな成功を収めていますが、安定性の欠如や再現性の低さといった限界もあります。 M...