大規模言語モデル(LLM)は人工知能分野における重要な研究方向であり、ChatGPT以降急速な発展を遂げてきました。これらの開発には主に以下の側面が含まれます。
この記事では、現在利用可能なすべてのオープンソースの大規模言語モデルを要約します。 ファルコン-40B-インストラクトFalcon-40B-instruct は、Falcon-40B に基づいて TII によって構築され、Baize で微調整された 40B パラメータの因果デコーダー モデルです。 アブダビのテクノロジー・イノベーション研究所(TII)は、大規模言語モデル(LLM)であるFalcon-40Bのオープンソース実装を発表しました。 400億のパラメータを備えたFalcon-40BはUAE初の大規模AIモデルであり、AI分野における同国の野心と、イノベーションと研究を推進する取り組みを示すものです。 通常、非商用ユーザーのみにアクセスを提供するほとんどの LLM とは異なり、Falcon-40B は研究と商用の両方で使用できます。 TII はモデルの重みをオープンソース パッケージに組み込み、モデルの機能を強化し、より効率的な微調整を可能にしました。 ファルコン40Bは2023年3月のデビュー以来、素晴らしいパフォーマンスを発揮しています。スタンフォード大学のHELMツールを使用してベンチマークしたところ、OpenAIのGPT-3、DeepMindのChinchilla AI、GoogleのPaLM-62Bなどの他の有名なモデルよりもトレーニングの計算能力が少なくて済みました。 ビクーニャVicuna は、ShareGPT から収集されたユーザー共有の会話を通じてトレーニングされたオープンソースのチャットボットです。 GPT-4を審査員として用いた予備評価では、Vicuna-13BはOpenAI ChatGPTとGoogle Bardの90%以上の品質を達成し、Vicuna-13Bのトレーニングコストは約300ドルであることが示されました。コードと重み、およびオンライン デモは、非商用目的で公開されています。 7 万人のユーザーと共有された ChatGPT 会話で Vicuna を微調整した結果、Vicuna は Alpaca と比較してより詳細で構造化された回答を生成でき、品質は ChatGPT に匹敵することがわかりました。 Vicuna は、ShareGPT から収集された約 7 万件のユーザー共有会話とパブリック API を使用して、LLaMA ベース モデルを微調整することによって作成されました。 トレーニングには以下の改善も加えられています。 メモリの最適化: 最大コンテキスト長を 512 から 2048 に拡張し、勾配チェックポイントとフラッシュ アテンションを活用してメモリの負荷に対処します。 マルチターンの会話: トレーニング損失はマルチターンの会話を考慮して調整され、微調整損失はチャットボットの出力に対してのみ計算されます。 スポット インスタンスでコストを削減: SkyPilot が管理するスポットを使用してコストを削減し、自動リカバリ プリエンプションと自動リージョン切り替えを備えた安価なスポット インスタンスを活用します。このソリューションにより、7B モデルのトレーニング コストが 500 ドルから約 140 ドルに削減され、13B モデルのトレーニング コストが約 1,000 ドルから約 300 ドルに削減されます。 アルパカMeta の LLaMA 7B モデルで微調整された Alpaca。 text-davinci-003 を使用して、LLaMA モデルに従って 52K の命令を自己ガイド方式で生成します。評価セットでは、Alpaca は OpenAI の text-davincic-003 と多くの類似した動作を示しますが、はるかに小さく、再現が容易です。 下の図はアルパカの訓練方法を示しています。 LLaMA モデルは、完全に分割されたデータ並列処理や混合精度トレーニングなどの技術を活用し、HuggingFace のトレーニング フレームワークを使用して微調整されました。ほとんどのクラウド コンピューティング プロバイダーで 100 ドル未満のコストで購入できる 8 台の 80GB a100 で 7B LLaMA モデルを微調整するのに 3 時間かかりました。 ラマ最先端の基礎的な大規模言語モデルである LLaMA (Large Language Model Meta AI) は、人工知能のこのサブフィールドにおける研究者の研究を前進させるために設計されています。 他の大規模言語モデルと同様に、LLaMA は単語のシーケンスを入力として受け取り、次の単語を予測して再帰的にテキストを生成します。テキストは、ラテン文字とキリル文字を中心に、最も広く話されている20の言語から選択されました。 ほとんどのベンチマークでは、LLaMA-13b は GPT-3 (175B) よりも優れていますが、65B は Chinchilla-70B および PaLM-540B と同等です。 GPTJgpt-j6b は、Ben Wang の Mesh Transformer JAX を使用してトレーニングされた Transformer モデルです。 「GPT-J」はモデルのカテゴリを示し、「6B」は学習可能なパラメータの数を示します。このモデルには 28 層があり、モデルの次元は 4096、フィードフォワードの次元は 16384 です。モデルの寸法は 16 個のヘッドに分割され、それぞれのヘッドの寸法は 256 です。このモデルは、GPT-2/GPT-3 と同じ bp セットを使用して、50,257 のトークン化された語彙でトレーニングされます。このモデルはEleutherAIによってリリースされました。 GPT-J のコア機能は、テキスト文字列を取得して次のトークンを予測することです。 GPT-J は、冒とく語、猥褻語、その他の強い言葉が含まれていることが知られているデータセットである Pile でトレーニングされました。そのため、GPT-J は社会的に受け入れられないテキストを生成する可能性があります。 ドリーDatabricks の Dolly-V2-12B は、Databricks 機械学習プラットフォームでトレーニングされた大規模言語モデルです。 Dolly は Pythia-12B をベースに、ブレインストーミング、分類、クローズド QA、生成、情報抽出、オープン QA、要約など、InstructGPT 論文ドメインで Databricks の従業員が生成した約 15,000 件の命令/応答チューニング レコードに基づいてトレーニングされました。 要約するChatGPT 以降、大規模言語モデルは急速な発展を遂げてきました。これらの開発には、モデル サイズの拡大、ドメインの特化、意味理解と推論機能の向上、トレーニングの効率と速度の向上、バイアスの理解と対応などが含まれます。上記の6つの比較的優れたオープンソースの大規模言語モデルに加えて、さまざまなバージョンが存在するため、HuggingFaceはリーダーボードを作成しました。 ご興味がございましたら、以下をご覧ください。 https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard |
>>: 人工知能がプログラマーに取って代わるまでにはどれくらい時間がかかるのでしょうか?
SAP は、AI 時代において顧客がデータの潜在能力を最大限に活用し、より深い洞察、より速い成長、よ...
翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟導入この記事では、機械学習のインフラ、従業員、プロセスを統...
最近、arxiv を見ていたときに、Ensemble メソッドを使用して大規模な言語モデルを統合でき...
1. 概要1. 従来のWAFの問題点従来の WAF は、ルールとブラックリストおよびホワイトリストに...
6月20日のニュースによると、人工知能(AI)は急速に発展しているが、隠れた危険性ももたらしている。...
LLaMA や Mistral などの大規模言語モデルの成功により、大手企業やスタートアップ企業は独...
[[394114]]木を切る、狩りをする、家を建てるなどの長いゲームビデオを機械に見せるとします。モ...
モノのインターネット (IoT) は、接続デバイスの数の急増により、10 年以上にわたって着実に成長...
この記事では、主にDingTalkがFlutterをベースに構築したクロスクアッドターミナルアプリケ...
2016 年が過ぎ、BEEVA Labs のデータ アナリスト Ricardo Guerrero G...
[[421559]]パラメータの数とモデルのパフォーマンスの間には絶対的な関係がありますか?チュー...
昨日(6月7日)、2022年度全国大学入学試験が始まりました。午前中に中国語科目試験が終了し、中国語...