ChatGPT以外の14の大規模言語モデル

ChatGPT以外の14の大規模言語モデル

翻訳者 | 李睿

レビュー | Chonglou

今日、多くの企業幹部は人工知能を将来の発展方向と見ており、多くの技術リーダーもChatGPT を人工知能の同義語と見なしています。しかし、 OpenAIの主力製品であるChatGPTは、唯一の大規模言語モデルではありませんまた、一部のソフトウェア プロジェクトやドメインでは、 ChatGPT が最適な選択肢ではない可能性もあります。ほぼ毎日、新たな競争相手が現れます。どのテクノロジー企業次世代の人工知能ツールを開発したいと考えているようですが、それが良い結果をもたらすか悪い結果をもたらすかは、人々がそれをどのように使用するかによって決まります。

大規模言語モデルのには、他のモデルよりも優れているものがあるのでしょうか?おそらくそうでしょう。しかし、それらにはすべて欠陥、癖、不具合、弱点があり、長く使用すればするほど、それらはより顕著になります。生成 AI は最初は魔法のように見えるかもしれませんが、時間が経つにつれて、その奇妙で予測不可能な側面が現れ始めます。

大規模言語モデルのスケーリング

大規模な言語モデルの範囲と使用法のため、質問に対する生成 AI の回答の品質を科学的に測定することは困難です。データ サイエンティストは数千、あるいは数百万ものテスト問題を入力して回答を評価できますが、テスト セットが 1 種類の質問のみに焦点を当てている場合、出力は制限されます。 Hugging FaceのようなOpen LLMリーダーボードリソースを参照するのは興味深いですが、必ずしも正確であるとは限りません。

大規模な言語モデルを正確にベンチマークする方法を見つけるのは難しいですが、それらの切り替えは簡単になっています。 OpenLLMFastChatなどのプロジェクトでは、 APIやインターフェースが異なりますが、さまざまな大規模言語モデルを簡単に接続できます開発者はこれらを連結し、場合によってはこれらのモデルを並列に実行することもできます。

大規模な言語モデルを構築する際の大きな問題はコストです。関心は高く、投資は爆発的に増加しています、大規模な言語モデルの構築には数か月、場合によっては数年かかることもあります。開発チームはまずトレーニング データを収集し、次に大量の電力を消費する高価なハードウェアを使用してデータをプッシュします。彼らは最終的に大規模な言語モデルを作成することになりましたが、どうやって収益を上げ、この作業を継続する最善の方法は進化する問題でした。

自社で開発した大規模な言語モデルをオープンソース化する実験を行っている企業もあれば、独自の課金モデルを持つサービスに依存している企業もあります。大規模な言語モデルをオープンソース化することは本当に素晴らしいことですそれはモデルを展開して実行し続ける作業を処理できる場合に限られます。

以下はChatGPT以外の14 個の大規模言語モデルですこれらは、ユーザー操作プロジェクトに必要な大規模な言語モデルである場合も、そうでない場合もあります唯一の確認方法は、プロンプトを送信して結果を慎重に評価することです。

1.ラマ

Facebook(Meta)は、この基礎となる大規模言語モデルを作成し、それをオープンサイエンスへの取り組み」の一環として公開しました。誰でもLlamaをダウンロードして、特定のアプリケーション向けにさらに細かく調整されたモデルを作成するための基盤として使用できます ( AlpacaVicunaはどちらもLlama上に構築されています) 。このモデルには 4 つの異なるサイズがあります。あまり一般的でない場所では、 70億個のパラメータのみを持つ小型バージョンが使用されます。ある開発者は、 Llama は4GBの RAMを搭載したRaspberry Piでも実行できると主張しています

2. アルパカ

スタンフォード大学の研究者数名は、 MetaLlama 7Bを採用し ChatGPTのような指示に従うモデルを模倣した一連のプロンプトを使用してトレーニングしましたこの微調整の結果、 Llama LLMにエンコードされた知識を、質問したり指示を与えたりすることで人々アクセスできるようにする大規模な言語モデルであるAlpaca 7Bが誕生しました。軽量で大規模な言語モデル600ドル未満のハードウェアで実行できると言われています

Alpaca 7Bの作成者は、トレーニング セットとそれを構築するために使用されたコードを配布しており誰でもモデルを複製したり、別のセットから新しいモデルを作成したりすることができます

3. ビクーニャ

Llamaのもう一つの子孫は、 LMSYS.orgVicunaです VicunaチームはShareGPTから70,000種類の異なるダイアログのトレーニング セットを収集し、マルチターンのインタラクションとコマンドに従う機能の作成に特に注意を払いました。 Vicuna-13bまたはVicuna-7bバージョンで利用可能なこの大規模言語モデルは基本的なインタラクティブ チャット向けの最も価格競争力のあるオープン ソリューションの 1 つです。

4.ノードパッド

大規模な言語モデルが言語的に正確な」テキストを生成する方法に誰もが魅力を感じるわけではありませんNodePadの開発者は、テキストの品質が、ユーザーが基礎となる事実を再確認する妨げになることが多いと考えています。美しいユーザー インターフェースを備えた大規模な言語モデルでは、結果が意図せず美しく表示されることが多く、ユーザーがこれらの問題を予測することがより困難になります。 NodePad は、ユーザーがほとんど見ないような洗練された文章サンプルを生成するためではなく、探索と創造性を促進するために設計されています。この大規模な言語モデルの結果は、記憶された完成した文章としてではなく、多くのマインド マッピング ツール」で見られるようなノードと接続として表示されます。ユーザーはモデルの百科事典的な知識を活用して、プレゼンテーションで迷うことなく適切なアイデアを得ることができます。

5. シャチ

大規模言語モデルの第一世代は規模拡大に成功し、時間の経過とともに規模が大きくなっていきました。 Microsoft Research のOrcaは、この傾向を逆転させます。このモデルは130億個のパラメータのみを使用するため、一般的なマシンでも実行できます。 Orcaの開発者は、トレーニング アルゴリズムを拡張して解釈の痕跡」、 段階的な思考プロセス」、および指示」を使用することで、この偉業を達成しました。 Orca は、AI に単に生の素材から学習させるのではなく、教えるためのトレーニング セットを特別に提供します。つまり、人間と同じように AI は深く掘り下げることなくより速く学習します。初期の結果は有望で、Microsoft チームによって提供されたベンチマークでは、このモデルがより大きなモデルと同等のパフォーマンスを発揮することが示されています。

6. ジャスパー

Jasperの開発者は、スマートなジェネラリストを作りたかったのではなくコンテンツの作成に重点を置いチャットボットを作りたかったのです。このシステムは、単なる無制限のチャットセッションではなく、不動産のリスト作成や Amazon などのサイト向けの製品機能の作成など、特定のタスク向けに設計された50を超えるテンプレートを提供します。有料版は、一貫したトーンのマーケティング コピーを作成したい企業向けに特別に設計されています。

7. クロード

Anthropic はClaude を、調査から顧客サービスまでプロンプトを取り込み、回答を出力するなど、企業のテキストベースのタスクの多くを処理する便利なアシスタントとして売り込んでいますAnthropic では、長いプロンプトを許可して、より複雑な指示を促し、ユーザーが結果をより細かく制御できるようにします。 Anthropic は現在、 Claude-v1と呼ばれるフルモデルと、はるかに安価なClaude Instantと呼ばれる簡易モデルの2 つのバージョンを提供しています。前者はより複雑で構造化された推論を必要とするタスクに適しており、後者はより高速で、分類や規制などの単純なタスクに適しています。

8. セレブラス

特殊なハードウェアと汎用モデルが一緒に進化すると、非常に高速で効率的なソリューションが生まれます。 Cerebras は、ローカルで実行したい人向けに、小規模(1 億 1,100万パラメータ)から大規模(130億パラメータ)までさまざまなHugging Face大規模言語モデルを提供しています。しかし、大規模なトレーニング セットに最適化された、 Cerebras独自の統合プロセッサ上で実行されるクラウド コンピューティング サービスを使用したいと考えています

9. ファルコン

フルサイズのファルコン40bと小型のファルコン7bは、 UAEの技術革新研究所(TII)によって製造されました。彼らは、推論能力の向上に重点を置き、 RefinedWebからの多数の一般的な例に基づいてFalconモデルをトレーニングしました。その後、彼らはこれをApache 2.0とともにリリースし、実験に利用できる最もオープンで制限のない大規模言語モデルの 1 つにしました。

10. イメージバインド

多くの人はMetaをソーシャルメディアを支配する巨大企業だと考えていますが、同社はオープンソースソフトウェアの開発企業でもあります。人工知能への関心が高まる中、同社が自社のイノベーションの多くを公開し始めているのも不思議ではない。 ImageBind は、AI が複数の異なるタイプのデータ (この場合はテキスト、オーディオ、ビデオ) を同時に作成する方法を示すために設計されたプロジェクトです。言い換えれば、生成 AI は、許可されれば想像上の世界全体を 1 つにまとめることができるのです。

11. ゴリラ

生成 AI を使用してコードを記述することについては、よく耳にしたことがあるかもしれません。結果は表面的には印象的であることが多いですが、詳しく調べると重大な欠陥が明らかになります。構文は正しいかもしれませんが、 API呼び出しが間違っているか、存在しない関数を指している可能性もあります。 Gorilla は、プログラミング インターフェイスをより適切に処理できるように設計された大規模な言語モデルです。開発者たちはまずLlamaから始め、その後、ドキュメントから直接取得したより深いプログラミングの詳細に焦点を当てて微調整しました。 Gorillaのチームは、独自のAPI中心のテスト成功ベンチマーク セットも提供しています。これは、コーディング支援に人工知能を利用したいプログラマーにとって重要な追加機能です。

12. オラアイ

Ora.aiは、ユーザーが特定のタスクに最適化されたターゲット チャットボットを作成できるシステムです。 LibrarianGPT は、本の一節を使用してあらゆる質問に答えようとします。たとえば、チャットボットはカール・サーガ教授のすべての著作からインスピレーションを得ることができます。ユーザーは独自のチャットボットを作成することも、他の人がすでに作成した何百ものチャットボットの 1 つを使用することもできます。

13.エージェントGPT

アプリケーションに必要なすべてのコードをまとめるもう 1 つのツールはAgentGPTです。これは、休暇の計画や何らかのゲーム コードの作成などの作業を行うために派遣できるエージェントを作成するように設計されています。テクノロジー スタックのほとんどのソース コードはGPL3.0に基づいて利用できます。サービスとして実行可能なバージョンも用意されています。

14. 倹約的なGPT

FrugalGPTは異なるモデルではなく、特定の質問に答えるためにより安価なモデルを見つけるための慎重な戦略ですFrugalGPT の研究者たちは、多くの質問に答えるためにはより大規模で高価なモデルは必要ないことに気づきました。彼らのアルゴリズムは、最も単純なものから始まり、より良い答えが見つかるまで一連の大規模な言語モデルを通過していきます。研究者の実験によれば、多くの問題では実際には複雑なモデルは必要ないため、この慎重なアプローチによりコストを98%削減できることが示されています

原題: ChatGPT ではない 14 の LLM 、Peter Wayner 著

<<:  phind: 開発者に特化したAI検索エンジンの誕生!

>>:  Ant Group の大規模セマンティック知識管理における主要技術と実践

ブログ    

推薦する

この記事は人工知能を始める上で強力な助けとなるでしょう

[[269504]]人工知能はまるでまだ遠い未来の話であるかのように語られていますが、実際にはすでに...

機械学習は、足を上げることから敷居に落ちることまで行います

突然、AI 時代に入ったようです。裏では、多くの友人が、来たる All in AI を迎えるために、...

マーク・アンドリーセン氏、AIが世界を救うと語る

ベンチャーキャピタルの億万長者マーク・アンドリーセン氏は、世界は現在人工知能に関して「ヒステリー」状...

TikTokの背後にあるAIの仕組み

エンジニアの視点から TikTok 推奨システムのアーキテクチャを探ります。 TikTok は、ユー...

初のヒューマンモーションキャプチャーモデルをリリース! SMPLer-X: 7つのチャートを一掃

表現力豊かな人間の姿勢と形状の推定 (EHPS) の分野では大きな進歩が遂げられていますが、最も先進...

沈興陽博士:30年間の科学研究で私が遭遇した落とし穴

先日開催されたX-Talkでは、米国工学アカデミーの外国人会員であり、XiaoIce会長でもあるハリ...

Weilingsi チームは、グラフ同型性の下での同変性と高い計算効率を備えた「自然グラフ ネットワーク」メッセージ パッシング メソッドを提案しました。

最近、ウェリングスチームによる研​​究では、グラフの局所的な対称性を研究することで新しいアルゴリズム...

BBCはOpenAIによるデータスクレイピングをブロックしているが、ニュースでのAIの使用にはオープンである

英国最大の報道機関であるBBCは10月7日、ニュース、アーカイブ、「パーソナライズされた体験」の研究...

...

疫病流行後、自動運転開発の方向性がより明確になりました!

自動運転は長い間、人々に「とても人気があるが、とても遠い存在」という印象を与えてきました。それは、何...

より多用途で効果的なAntの自社開発オプティマイザーWSAMがKDDオーラルに採用されました

ディープ ニューラル ネットワーク (DNN) の一般化能力は、極値点の平坦性と密接に関係しています...

...

5G + AI はカスタマー サービス業界にどのような大きな影響を与えるでしょうか?

最近、工業情報化部は通信事業者4社に5G商用ライセンスを発行し、5G商用時代の到来を告げた。 AIと...

美団のドローンの暴露:インターネットはインターネットに別れを告げる

美団ドローンは、ドローンそのもの以上のものを見せてくれるだけでなく、インターネットがインターネットに...

馬化騰と李延紅の対談:基礎技術は巨大産業の変革の基盤

11月8日、烏鎮で開催された世界インターネット大会で、馬化騰氏と李ロビン氏が首脳対談を行った。2人の...