2023 年は、大規模言語モデル (LLM) の台頭により、オープンソース分野にとって極めて重要な年になると考えられています。以下は、2023 年上半期に注目を集めそうな最も影響力のあるモデルの中から厳選したセレクションです。これらのモデルは、BAND、GPT-3.5、GPT4、Claude、Wenxinyiyan などの大規模な商用モデルとほぼ競合できます。 この記事は、現在のオープンソースのビッグ言語モデルの中で、より影響力のあるいくつかのプロジェクトに関する情報のみを収集して分析しています。ただし、2023年のビッグモデルの急速な発展により、一部の情報が遅れている可能性があります。読者は、公式ウェブサイトまたはオープンソースコミュニティをさらにフォローして、関連する進捗状況を知ることができます。
これらのモデルについて、アーキテクチャ設計、トレーニングに使用されるデータベース、トレーニング プロセス、ライセンス契約情報、機能などの主要な情報が次の表にリストされています。 1.ラマLLaMA は単なる単一のモデルではなく、70 億から 650 億のパラメータにわたるさまざまなサイズの複数の大規模言語モデルのアンサンブルです。使用可能なサイズには、6.7B、13.0B、32.5B、および 65.2B のパラメータがあり、それぞれ異なるタスクで優れたパフォーマンスを発揮します。一般的に、モデルが大きいほど、複雑なタスクで優れたパフォーマンスを発揮します。 Meta によって開発された LLaMA は、2018 年から言語モデリングの標準アーキテクチャとなっている Transformer アーキテクチャに基づいています。 GPT-3 との類似点もありますが、アーキテクチャ上の違いもいくつかあります。 LLaMA は、ReLU 活性化関数の代わりに SwiGLU 活性化関数、絶対位置埋め込みの代わりに回転位置埋め込み、標準レイヤー正規化の代わりに RMS レイヤー正規化を使用します。 これらのモデルはさまざまな分野でトレーニングされ、オープンソース化されています。開発者は、翻訳、質問への回答、テキスト生成など、さまざまなアプリケーションにこれを使用できます。 LLaMA は汎用性が高く、さまざまなタスクに合わせて微調整できるため、さまざまな AI プロジェクトに最適なベース モデルになります。 LLaMA のトレーニング データは膨大で、モデルは公開されているデータ ソースからの 1.4 兆個のトークンでトレーニングされています。これらのソースには、CommonCrawl によってクロールされた Web ページ、GitHub 上のオープン ソース コード リポジトリ、複数の言語の Wikipedia、Project Gutenberg 上のパブリック ドメインの書籍、Stack Exchange サイト上の質問と回答が含まれます。これらのモデルを開発すると、トレーニング データの量が増えてモデルのパフォーマンスが向上します。 ライセンス契約に関しては、Meta は LLaMA のモデル重みを非商用ライセンスの下で研究コミュニティに公開します。 LLaMA モデルをトレーニングするために、開発者はコサイン学習率スケジュールを備えた AdamW オプティマイザーを使用しました。最終学習率は最大学習率の 10% になります。さらに、モデルは重み減衰 0.1 と勾配クリッピング 1.0 を使用します。学習率とバッチ サイズは各モデルのサイズに合わせて調整され、トレーニング中のパフォーマンスがさらに最適化されます。 2.ラマ2LLaMA 2 は、Meta の LLaMA モデルの 2 番目のバージョンであり、会話シナリオ向けに特別に設計されています。ChatGPT などのモデルに匹敵するように、徹底的に微調整されています。 LLaMA 2 モデルには、70 億、130 億、700 億のパラメータの 3 つのサイズがあります。 LLaMA 2 は、前身の LLama 1 に比べて大幅に進歩し、改善されています。これは、公開されているデータの新しい組み合わせに基づいてトレーニングされており、事前トレーニング コーパスは 40% 増加しています。このモデルはコンテキストの長さを 2 倍にし、グループ化されたクエリ アテンション メカニズムを利用します。 Llama 2-Chat は、チャットベースのやり取りに最適化された微調整バージョンです。 LLaMA 2 と Llama 2-Chat は、出力するコンテンツが人類にとって有益かつ安全であることを保証するために開発されました。これらの自己回帰モデルは入力に基づいてテキストを生成し、アシスタント スタイルのチャットやさまざまな自然言語生成タスクに適しています。 ベンチマーク評価によると、他のほとんどのモデル(ChatGPT を含む)よりも優れています。 LLaMA 2 は、研究者や商業団体にオープンソース形式でライセンスされます。これにより、LLaMA 2 を研究、商用アプリケーション、プロジェクト開発に使用できるようになります。 LLaMA 2 のトレーニング データは膨大で、公開ソースからの 2 兆個のトークンで構成されています。微調整データには、公開されている指示データセットと、人間が注釈を付けた 100 万を超える新しい例が含まれています。事前トレーニング データセットにも微調整データセットにも Meta ユーザー データが含まれていないため、ユーザーのプライバシーとデータ セキュリティが確保されていることは注目に値します。 LLaMA 2 は、パフォーマンスを向上させるために Llama 1 モデルの修正バージョンを採用し、標準の Transformer アーキテクチャを備えた AdamW オプティマイザーを使用します。これは Llama 1 と同じトークナイザーを使用し、32k トークンの語彙を持つバイト ペア エンコーディング (BPE) アルゴリズムを採用しています。 Llama 2-Chat の開発は 2 つの段階を経ました。最初のフェーズである LLaMA 2 では、公開されているオンライン データを使用します。その後、監督下での微調整を経て、Llama 2-Chat の初期バージョンが作成されました。第 2 フェーズでは、人間からのフィードバックによる強化学習 (RLHF) を使用して Llama 2-Chat が改良されました。このプロセスには、拒否サンプリングと近接ポリシー最適化 (PPO) が含まれ、対話ベースのアプリケーションでのパフォーマンスが向上します。 要約すると、LLaMA 2 は言語モデリングにおける大きな進歩を表しており、研究コミュニティと商業コミュニティに広く受け入れられる可能性のある透明性、アクセシビリティ、パフォーマンスの向上をもたらします。 3. アルパカAlpaca は、スタンフォード大学の基礎モデル研究センター (CRFM) の研究者によって開発されました。Meta の LLaMA 7 B モデルから微調整され、OpenAI の text-davinci-003 を参考にして 52,000 回のガイド付きデモでトレーニングされました。 OpenAI の text-davinci-003 と同様の動作を示していますが、Alpaca モデルはより小さくなっています。 Alpaca モデルの優れた特徴は、強力な指示追従能力です。細かく調整された設計と、数多くの指示に従ったデモンストレーションのトレーニングにより、指示に正確に従う必要があるタスクに対して信頼性が高く効果的な選択肢を提供します。 このモデルは主に学術研究で使用されます。しかし、セキュリティ対策が不十分なため、まだ一般利用には至っていません。 Alpaca のトレーニングに使用される指示データは OpenAI の text-davinci-003 に基づいており、その利用規約では OpenAI と競合するモデルの開発が禁止されているため、商用利用はできません。 Alpaca は、Hugging Face のトレーニング フレームワークを使用して微調整されており、完全に分割されたデータの並列処理と混合精度トレーニングを最大限に活用しています。 8 台の 80GB A100 を使用して 7B LLaMA モデルを微調整するには約 3 時間かかり、その効率性と迅速な開発の可能性を実証しています。 要約すると、Alpaca は正確で精密な実行を必要とするタスクに特化した効率的な言語モデルです。その開発と使用は、セキュリティの維持とライセンス制限の遵守を重視した研究と学術的探究を目的としています。 4. ビクーニャLMSYS が開発した大規模言語モデルの Vicuna ファミリーは、人間のようなテキストを生成する機能で知られています。これらのモデルは、ユーザーのプロンプトを理解してそれに基づいて応答を提供することに優れているため、チャットボットやコンテンツ生成などのさまざまなアプリケーションに役立ちます。 Vicuna には、Vicuna-7B と Vicuna-13B の 2 つのサイズのモデルがあります。 GPT-4 を比較基準として使用した予備評価では、Vicuna-13B が OpenAI ChatGPT と Google Bard の 90% を超える品質を達成していることが示されています。さらに、90% 以上のケースで、LLaMA や Stanford Alpaca などの他のモデルよりも優れたパフォーマンスを示します。 Vicuna モデルの重要な側面は、人間が生成したデータに依存していることです。これにより、このようなデータを使用してトレーニングされ、一貫性のある創造的なテキストを生成する最初のオープンソースの大規模言語モデルの 1 つになります。 Vicuna は Alpaca モデルの改良版であり、Transformer アーキテクチャに基づいていますが、人間が生成した対話データセットに基づいて微調整されています。 Vicuna の主な使用例は研究であり、特に自然言語処理、機械学習、人工知能の研究者や愛好家によるものです。 Vicuna は非営利目的でのみユーザーに提供され、ユーザーはモデルの使用に関して LLaMA が定めたルールに従い、OpenAI が生成したデータの使用条件を尊重し、ShareGPT のプライバシー ルールを遵守する必要があります。 両方の Vicuna モデルは LLaMA-13B モデル上に構築されており、ShareGPT.com パブリック API から収集された約 70,000 件のユーザー共有会話に基づいて微調整されています。データの品質を確保するために HTML はマークダウンに変換され、不適切または低品質のサンプルは除外されます。長い会話も、モデルの最大コンテキスト長である 2048 トークンに合わせて、より短いセグメントに分割されます。 トレーニングの過程で、Vicuna はスタンフォード大学の Alpaca モデルに基づいていくつかの重要な改善を行いました。
より人間に近いテキスト生成機能、オープンエンド性、汎用性を備えた Vicuna は、大規模言語モデルの分野における画期的な進歩を表しています。 5. グアナコGuanaco は、多言語環境で優れた命令完了を実現する Meta の LLaMA モデルに基づく高レベル言語モデルのファミリです。 Guanaco は LLaMA-7B 上に構築されており、革新的な QLoRA (Quantized Low Rank Adapter) メソッドを使用して大幅な改善と微調整が行われています。このアプローチにより、単一の GPU 上で大規模な言語モデルを微調整できるようになります。 Guanaco モデル ファミリには、70 億から 650 億までのさまざまな数のパラメータを持つバリアントが含まれています。研究者によると、最大のGuanacoモデルはChat GPTの99.3%のパフォーマンスを達成し、ベンチマークで優れたパフォーマンスを発揮したという。 Guanaco はトレーニングに QLoRA メソッドを使用します。このメソッドはモデルを 4 ビット精度に効果的に量子化し、それを低ランク適応重み (LoRA) と組み合わせることで、高いパフォーマンスを維持しながらメモリ要件を大幅に削減します。このアプローチにより、最大の 650 億パラメータの Guanaco モデルを 48 ギガバイト未満の GPU メモリで効率的に実行できるようになり、パフォーマンスを損なうことなく 780 ギガバイト以上のサイズ削減が実現します。 Guanaco の注目すべき特徴は、長時間の会話への適応性です。ユーザーのリクエストに基づいて質問に答えたり、ディスカッションスレッドを継続したりできるため、チャットボット アプリケーションに最適です。このモデルは、視覚的な質問応答 (VQA) もサポートしており、テキスト入力と視覚入力を解釈して応答することができます。 Guanaco は当初、Alpaca モデルの 52,000 項目のデータセットに基づいていましたが、その後、幅広い言語、言語タスク、文法タスクをカバーする 534,530 を超える追加エントリで拡張されました。この広範なトレーニングにより、多言語およびマルチモーダルのタスクを効果的に実行できるようになります。 ただし、Guanaco モデルは商用アプリケーション向けにライセンスされていません。主な用途は学術研究と非商用アプリケーションです。しかし、その汎用性と自然言語処理タスクにおける強力なパフォーマンスにより、高く評価されています。 要約すると、Guanaco は効率的な微調整、多言語機能、適応型会話スキルを組み合わせ、言語モデルの分野で大きな進歩をもたらし、チャットボット、コンテンツ生成、端末ハードウェア アプリケーション、プライベート モデルなどの潜在的なアプリケーション価値を備えています。 6. レッドパジャマRedPajama は、Together、Ontocord.ai、ETH DS3Lab、Stanford CRFM、Hazy Research が参加する共同プロジェクトで、完全にオープンソースの優れた言語モデルのセットを作成することを使命としています。このプロジェクトの主な目的は、オープン モデルとクローズド モデル間の品質ギャップを埋めることです。現在、多くの強力な基礎モデルが商用 API によってロックされており、研究、カスタマイズ、機密データの使用が制限されています。 RedPajama は、Together、Ontocord.ai、ETH DS 3Lab、スタンフォード大学 CRFM、Hazy Research の共同プロジェクトであり、最先端の完全にオープンソースの言語モデルを作成することを使命としています。このプロジェクトの主な目標は、オープン モデルとクローズド モデル間の品質のギャップを埋めることです。現在、多くの強力な基礎モデルが商用 API によってロックされており、研究、カスタマイズ、機密データの使用が制限されています。 RedPajama プロジェクトは、次の 3 つの主要コンポーネントで構成されています。
RedPajama モデルとデータセットは Apache 2.0 ライセンスの下でリリースされており、研究および商用アプリケーションでの使用が可能です。 7. ファルコンテクノロジーイノベーション研究所によって開発された Falcon モデル ファミリには、一連の大規模な言語モデルが含まれています。テキスト生成、要約、チャットボットなど、さまざまなアプリケーションでの使用に最適化されています。 Falcon シリーズのモデルには、Falcon-40B、Falcon-7B、Falcon-180B など、それぞれ特定の要件とシナリオに合わせて調整されたさまざまなモデルが含まれています。 Falcon-40B モデルには 400 億のパラメータがあり、RefinedWeb データセットでトレーニングされました。このデータセットには 1.5 兆個のトークンが含まれており、高品質でフィルタリングされ重複が排除された Web データです。 Falcon-7B モデルは、70 億のパラメータを持つより小さなバリエーションで、RefinedWeb データセットでトレーニングされていますが、さらに慎重にキュレーションされたコーパスが追加され、機能が強化されています。 Falcon-180B は 1800 億のパラメータを持ち、3.5 兆トークンでトレーニングされました。現在、HuggingFace ランキングでトップであり、そのパフォーマンスは LLaMA 2 を直接圧倒しています。ベンチマーク テストでは、Falcon 180B は推論、コーディング、熟練度、知識テストなど、さまざまなタスクで LLaMA 2 に勝ちました。 因果デコーダー固有のモデルである Falcon モデルは、以前のトークン予測に基づいてシーケンス内の次のトークンを予測できるため、要約やチャットボットなどの機能を含むテキスト生成タスクに特に適しています。これらのアーキテクチャは、GPT-3 モデルをベースに構築されており、最適化とパフォーマンス強化のためにいくつかの調整が加えられています。たとえば、FlashAttention やマルチクエリ アテンション メカニズムを使用します。 Falcon-40B は、384 個の A100 40GB GPU を使用して、2 週間にわたって 2.5 兆個の RefinedWeb データ トークンでトレーニングされました。 Falcon-7B モデルは、RefinedWeb データセットの 1.5 兆トークンでトレーニングされ、同じ 384 A100 40GB GPU セットアップを使用して 2 週間トレーニングされました。 2D 並列戦略 (PP=2、DP=192) と ZeRO 最適化を組み合わせることで効率的なトレーニング プロセスが実現され、トレーニング コンピューティング リソースの使用を抑えながら、モデルのパフォーマンスを他のオープン ソース モデルと同等に高めることができます。 Falcon 180B に関しては、40B のアップグレード版となります。公式紹介によると、Falcon 180B は現在最高のオープンソース大型モデルです。 MMLU のパフォーマンスは、Llama 2 70B や OpenAI の GPT-3.5 を上回ります。これは、HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC、ReCoRD における Google の PaLM 2-Large と同等です。 これは、Hugging Face オープンソース大規模モデル リストで 68.74 のスコアを獲得し、Meta の LlaMA 2 (67.35) を上回り、最高評価のオープン大規模モデルであると考えられています。 トレーニング プロセスでは、Falcon 180B は、Amazon クラウド マシン ラーニング プラットフォームである Amazon SageMaker をベースに、最大 4096 個の GPU で 3.5 兆個のトークンのトレーニングを完了しました。合計 GPU 計算時間は約 7,000,000 です。 Falcon 180B のパラメータ サイズは Llama 2 (70B) の 2.5 倍ですが、トレーニングに必要な計算量は Llama 2 の 4 倍です。具体的なトレーニングデータのうち、Falcon 180B は主に RefinedWe データセット (約 85% を占める) です。また、会話、技術論文、小さなコードなど、厳選されたさまざまなデータに基づいてトレーニングされます。この事前トレーニング データセットは十分に大きいため、3.5 兆個のトークンでも 1 エポック未満しかかかりません。 ハードウェア要件: Falcon モデルは Apache 2.0 ライセンスに基づいてリリースされており、ロイヤリティやその他の制限なしで商用利用が可能です。ただし、Falcon-180b を商用目的で使用する場合の条件は非常に厳しく、「ホストされた使用」は含まれません。オープンソース ライセンスを確認し、法務チームに相談することをお勧めします。 要約すると、Falcon モデルの汎用性と有効性により、幅広いシナリオに適しています。これらは、大規模な言語モデルの研究に使用でき、要約、テキスト生成、チャットボット機能などの特定のアプリケーション向けのさらなる特化と微調整のための強固な基盤として機能します。 8.FLAN-T5FLAN-T5 シリーズには、さまざまなパラメータを持つ複数のモデルが含まれています。
FLAN-T5 のアーキテクチャは、エンコーダーとデコーダーの両方がトランスフォーマーである T5 エンコーダー/デコーダー アーキテクチャに基づいています。このトランスフォーマーベースの言語モデルは、12 個のトランスフォーマー層と、テキストを並列処理するためのフィードフォワード ニューラル ネットワークで構成されています。 FLAN-T5 は、マルチタスク言語理解とクロスリンガル質問応答において優れたパフォーマンスを発揮します。テキスト生成、常識推論、質問応答、感情分類、翻訳、代名詞解決などに優れています。これは、推論や質問への回答などのゼロショット NLP タスクやコンテキスト フューショット学習 NLP タスクを研究するための貴重なリソースを提供します。さらに、現在の大規模言語モデルの限界を理解することで、公平性と安全性に関する研究の進歩にも役立ちます。 Google は 2022 年末に Apache ライセンスの下で FLAN-T5 をオープンソース化しました。 Flan-T5 のトレーニングプロセスでは、事前トレーニングと微調整の 2 つの段階で大量のテキスト データが使用されます。 T5 アーキテクチャは事前トレーニング フェーズで使用され、モデルは指定されたトークン シーケンス内の次のトークンを予測します。命令の微調整フェーズでは、特定の命令を通じて FLAN-T5 の機能が改良され、さまざまなタスクや言語でのパフォーマンスが向上しました。 FLAN-T5 の微調整データの種類は非常に広範囲で、473 のデータセット、146 のタスク カテゴリ、1836 のタスクが含まれます。微調整中は、Muffin、T0-SF、NIV 2、CoT の 4 つのタスクが混合されます。これらのミックスには、対話データ、プログラム合成データ、算術推論、マルチホップ推論、自然言語推論などのさまざまなタスクが含まれます。 Flan-T5 モデルは特定のタスクや言語に限定されず、研究者や開発者に自然言語理解とテキスト生成の最先端を進歩させる強力なツールを提供します。 9.ステイブル・ベルーガ(旧名フリー・ウィリー)Stable AI と CarperAI ラボの Stable Beluga プロジェクトでは、Stable Beluga 1 と Stable Beluga 2 という 2 つのモデルが作成されました。これらのモデルは Meta の Llama モデル上に構築され、標準の Alpaca 形式で新しく合成生成されたデータセットを使用して微調整されています。このプロジェクトの目的は、オープンモデルとクローズドモデル間の品質のギャップを埋め、研究者や開発者がさまざまな自然言語処理タスクに合わせてこれらのモデルを調査およびカスタマイズできるようにすることです。 Stable Beluga 1 と Stable Beluga 2 は、それぞれ LLaMA-65B と LLaMA 2-70B ベース モデルを使用します。どちらのモデルも、さまざまなベンチマークで優れたパフォーマンスを発揮します。安定した Beluga 2 は、いくつかのベンチマークで Llama 2 を上回ります。 安定した Beluga 大規模言語モデルは、法律や数学などの専門分野における複雑な問題の解決に優れており、微妙な言語の詳細に重点を置いています。 Stable Beluga モデルは現在、非商用ライセンスに基づく研究実験として利用可能であり、AI コミュニティにおけるオープンな研究とアクセシビリティの促進への取り組みを強調しています。このライセンスにより、モデルを学術目的および非営利目的で無料で使用できることが保証され、自然言語処理の分野におけるコラボレーションとイノベーションが促進されます。 Stable Beluga モデルのトレーニング プロセスは、Microsoft の漸進的学習法に似た Orca メソッドに基づいています。ただし、Stable Beluga プロジェクトで使用されるデータセットは、Orca 論文で使用されるデータセットとは異なります。チームは、COT Submix Original、NIV2 Submix Original、FLAN 2021 Submix Original、T0 Submix Original を含む Enrico Shippole のデータセットをプロンプト語言語モデルとして使用しました。このデータセットには 600,000 個の高品質サンプルが含まれており、これは Orca データセットの約 10% のサイズです。安定した Beluga は、テスト データが削除されたフィルター処理されたデータセットを使用して微調整され、優れたパフォーマンスを実現しました。 10. 電力公社MosaicML によって開発された MPT モデルは、トランスフォーマーに基づく言語モデルのファミリです。商用利用向けに設計されたこれらのモデルはオープンソースであり、さまざまな自然言語処理タスクでより効率的かつ柔軟になるように設計された GPT-3 モデル上に構築されています。 MPT シリーズには複数のバージョンがあり、その中でも MPT-7B、MPT-7B-StoryWriter、MPT-30B は重要なモデルです。 MPT-7B は、MosaicML データ チームがキュレーションした 1 兆のテキストとコード トークンの大規模なコーパスでトレーニングされた 67 億のパラメーターを備えたデコーダーのみの Transformer モデルです。このモデルは主に FlashAttention アルゴリズムを使用し、大規模なコンテキストを処理するために ALiBi アルゴリズムも使用します。 300 億のパラメータを持つ MPT-30B は、前世代の MPT-7B 言語モデルよりも大幅に強力で、GPT-3 よりも優れた性能を発揮します。 MPT-7B のオープン ソース ライセンスは Apache-2.0 です。ただし、微調整せずにベース モデルを使用することは推奨されないことに注意してください。 MPT-7B-StoryWriter-65k+ は MPT-7B の派生版で、読み取りや書き込みなどコンテキストの長さが非常に長いシナリオ向けにカスタマイズされています。これは、コンテキスト長が 65,000 トークンの books3 データセットの新しいサブセットを微調整した結果です。 MPT-7B-StoryWriter-65k+ は、A100-80GB GPU の単一ノード上で最大 84k トークンのコンテンツを生成できます。 MPT-7B と同様に、Apache-2.0 ライセンスのオープン ソースです。 MPT-7B-Chat は、ShareGPT-Vicuna、HC 3、Alpaca、Helpful and Harmless、Evol-Instruct などの複数のデータセットを微調整した結果生まれた、チャットボットのような対話生成モデルです。オープンソースライセンスは CC-By-NC-SA-4.0 であり、非営利目的でのみ使用できます。 MPT-7B-Instruct は、MosaicML がリリースした MPT-7B データセットを微調整して作成された、短い形式の指示に特化したモデルです。このデータセットは、Databricks Dolly-15k と Anthropic の Helpful および Harmless データセットから取得されています。オープンソースライセンスは CC-By-SA-3.0 です。 MPT 7B のトレーニング プロセスでは、シャード データ並列処理、LION オプティマイザー、および完全シャード データ並列処理 (FSDP) テクノロジーを備えた 8 つの A100-80GB GPU が使用されます。勾配チェックポイントは、トレーニング中にメモリを最適化するために使用されます。このモデルは、67 億のパラメータ、32 の Transformer レイヤー (それぞれの隠しサイズは 4096)、16 の注意ポイント、およびシーケンス長が 65,536 の 50,432 語の語彙で構成されています。 MPT-30Bは、MosaicMLによって2か月かけてトレーニングされた新世代の製品です。MPT-30Bはデータミキシングを通じて事前トレーニングされており、10種類のオープンソーステキストコーパスから1Tの事前トレーニングデータトークンが収集され、EleutherAI GPT-NeoX-20Bトークナイザーを使用してテキストがセグメント化され、一定の比率に従ってサンプリングされます。 MPT-30B は、NVIDIA の H100 GPU クラスターを使用してトレーニングされます。 Apache 2.0 オープンソースライセンス契約を採用しており、そのパフォーマンスはオリジナルの GPT-3 よりも強力で、LLaMa-30B や Falcon-40B などの他のオープンソースモデルと競争力があります。 要約すると、MPT は自然言語処理のための貴重なオープンソース モデルです。処理効率、柔軟性、長いコンテキストの処理における優れたパフォーマンスに重点を置いているため、さまざまな言語関連のタスクやアプリケーション シナリオに適しています。 |
>>: なぜ R&D 管理はコスト削減と効率向上のための永遠の特効薬と考えられているのでしょうか?
米国道路交通安全局(NHTSA)は、SAEレベル2の先進運転支援システム(ADAS)またはSAEレベ...
[[348783]] Canvaからの画像テクノロジーは生活の中でどのような役割を果たしているのでし...
1. k-meansアルゴリズムの紹介: k-means アルゴリズムは入力量 k を受け取り、n ...
勉強すると、学んだことを忘れてしまい、忘れた後にまた学ぶという悪循環に陥ってしまう、そんな気持ちにな...
ヘルスケアにおける人工知能 (AI) の実装に関する課題を特定することで、ヘルスケア提供者は適切な戦...
過去70年間に「3つの上昇と2つの下降」を経験した後、基盤となるチップ、コンピューティングパワー、デ...
人類が最も懸念している問題の一つは、人工知能(AI)の将来の発展です。真の AI は、人間の作業のス...
[[390714]]機械学習は複雑化していますか? 「博士号なしで機械学習の仕事を得るのはますます...
以前は、機械学習に少しイライラしていました。一方では、メディアやトレーニング機関が機械学習を汎用人工...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
Transformer モデルが事前トレーニング データの範囲を超えて新しい認知と能力を一般化できる...
参考: 20 世紀のベスト: 編集者が選ぶトップ 10 アルゴリズム。著者:バリー・A・シプラ。アド...
はじめに: 「私の名前はジェイコブです。Google AI Residency プログラムの奨学生で...
[51CTO 包括的レポート] Microsoft は、ヨーロッパの Windows 7 ユーザー...