大規模言語モデル(LLM)は人工知能分野における重要な研究方向であり、ChatGPT以降急速な発展を遂げてきました。これらの開発には主に以下の側面が含まれます。
この記事では、現在利用可能なすべてのオープンソースの大規模言語モデルを要約します。 ファルコン-40B-インストラクトFalcon-40B-instruct は、Falcon-40B に基づいて TII によって構築され、Baize で微調整された 40B パラメータの因果デコーダー モデルです。 アブダビのテクノロジー・イノベーション研究所(TII)は、大規模言語モデル(LLM)であるFalcon-40Bのオープンソース実装を発表しました。 400億のパラメータを備えたFalcon-40BはUAE初の大規模AIモデルであり、AI分野における同国の野心と、イノベーションと研究を推進する取り組みを示すものです。 通常、非商用ユーザーのみにアクセスを提供するほとんどの LLM とは異なり、Falcon-40B は研究と商用の両方で使用できます。 TII はモデルの重みをオープンソース パッケージに組み込み、モデルの機能を強化し、より効率的な微調整を可能にしました。 ファルコン40Bは2023年3月のデビュー以来、素晴らしいパフォーマンスを発揮しています。スタンフォード大学のHELMツールを使用してベンチマークしたところ、OpenAIのGPT-3、DeepMindのChinchilla AI、GoogleのPaLM-62Bなどの他の有名なモデルよりもトレーニングの計算能力が少なくて済みました。 ビクーニャVicuna は、ShareGPT から収集されたユーザー共有の会話を通じてトレーニングされたオープンソースのチャットボットです。 GPT-4を審査員として用いた予備評価では、Vicuna-13BはOpenAI ChatGPTとGoogle Bardの90%以上の品質を達成し、Vicuna-13Bのトレーニングコストは約300ドルであることが示されました。コードと重み、およびオンライン デモは、非商用目的で公開されています。 7 万人のユーザーと共有された ChatGPT 会話で Vicuna を微調整した結果、Vicuna は Alpaca と比較してより詳細で構造化された回答を生成でき、品質は ChatGPT に匹敵することがわかりました。 Vicuna は、ShareGPT から収集された約 7 万件のユーザー共有会話とパブリック API を使用して、LLaMA ベース モデルを微調整することによって作成されました。 トレーニングには以下の改善も加えられています。 メモリの最適化: 最大コンテキスト長を 512 から 2048 に拡張し、勾配チェックポイントとフラッシュ アテンションを活用してメモリの負荷に対処します。 マルチターンの会話: トレーニング損失はマルチターンの会話を考慮して調整され、微調整損失はチャットボットの出力に対してのみ計算されます。 スポット インスタンスでコストを削減: SkyPilot が管理するスポットを使用してコストを削減し、自動リカバリ プリエンプションと自動リージョン切り替えを備えた安価なスポット インスタンスを活用します。このソリューションにより、7B モデルのトレーニング コストが 500 ドルから約 140 ドルに削減され、13B モデルのトレーニング コストが約 1,000 ドルから約 300 ドルに削減されます。 アルパカMeta の LLaMA 7B モデルで微調整された Alpaca。 text-davinci-003 を使用して、LLaMA モデルに従って 52K の命令を自己ガイド方式で生成します。評価セットでは、Alpaca は OpenAI の text-davincic-003 と多くの類似した動作を示しますが、はるかに小さく、再現が容易です。 下の図はアルパカの訓練方法を示しています。 LLaMA モデルは、完全に分割されたデータ並列処理や混合精度トレーニングなどの技術を活用し、HuggingFace のトレーニング フレームワークを使用して微調整されました。ほとんどのクラウド コンピューティング プロバイダーで 100 ドル未満のコストで購入できる 8 台の 80GB a100 で 7B LLaMA モデルを微調整するのに 3 時間かかりました。 ラマ最先端の基礎的な大規模言語モデルである LLaMA (Large Language Model Meta AI) は、人工知能のこのサブフィールドにおける研究者の研究を前進させるために設計されています。 他の大規模言語モデルと同様に、LLaMA は単語のシーケンスを入力として受け取り、次の単語を予測して再帰的にテキストを生成します。テキストは、ラテン文字とキリル文字を中心に、最も広く話されている20の言語から選択されました。 ほとんどのベンチマークでは、LLaMA-13b は GPT-3 (175B) よりも優れていますが、65B は Chinchilla-70B および PaLM-540B と同等です。 GPTJgpt-j6b は、Ben Wang の Mesh Transformer JAX を使用してトレーニングされた Transformer モデルです。 「GPT-J」はモデルのカテゴリを示し、「6B」は学習可能なパラメータの数を示します。このモデルには 28 層があり、モデルの次元は 4096、フィードフォワードの次元は 16384 です。モデルの寸法は 16 個のヘッドに分割され、それぞれのヘッドの寸法は 256 です。このモデルは、GPT-2/GPT-3 と同じ bp セットを使用して、50,257 のトークン化された語彙でトレーニングされます。このモデルはEleutherAIによってリリースされました。 GPT-J のコア機能は、テキスト文字列を取得して次のトークンを予測することです。 GPT-J は、冒とく語、猥褻語、その他の強い言葉が含まれていることが知られているデータセットである Pile でトレーニングされました。そのため、GPT-J は社会的に受け入れられないテキストを生成する可能性があります。 ドリーDatabricks の Dolly-V2-12B は、Databricks 機械学習プラットフォームでトレーニングされた大規模言語モデルです。 Dolly は Pythia-12B をベースに、ブレインストーミング、分類、クローズド QA、生成、情報抽出、オープン QA、要約など、InstructGPT 論文ドメインで Databricks の従業員が生成した約 15,000 件の命令/応答チューニング レコードに基づいてトレーニングされました。 要約するChatGPT 以降、大規模言語モデルは急速な発展を遂げてきました。これらの開発には、モデル サイズの拡大、ドメインの特化、意味理解と推論機能の向上、トレーニングの効率と速度の向上、バイアスの理解と対応などが含まれます。上記の6つの比較的優れたオープンソースの大規模言語モデルに加えて、さまざまなバージョンが存在するため、HuggingFaceはリーダーボードを作成しました。 ご興味がございましたら、以下をご覧ください。 https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard |
>>: 人工知能がプログラマーに取って代わるまでにはどれくらい時間がかかるのでしょうか?
ニューラル ネットワークとディープラーニング技術は、今日の高度なインテリジェント アプリケーションの...
近年、多くの物事の成功はテクノロジーの進歩によるものと言えます。その一つは、気候変動のリスクから地球...
[[283641]]機械学習モデルを API にパッケージ化することにまだ不安がありますか?このツ...
[[439314]]マージ間隔LeetCode の問題へのリンク: https://leetcode...
12月26日、高級品鑑定機関Entrupyは人工知能技術を使用して、さまざまなブランドのハンドバッグ...
【51CTO.comオリジナル記事】この記事では主に、フレームワークの概要、システム アーキテクチャ...
過去には、画像生成モデルは主に白人を被写体として表示していることで批判されることが多かったが、Goo...
人工知能については誰もが知っていますが、人工知能トレーナーについてはどのくらい知っていますか? [[...
MIT 博士課程の学生による驚くべき発見: Transformer の特定のレイヤーを非常に単純に削...
これらすべての認知機能を 1 つのマシンに統合し、あらゆる一般的なシナリオを処理できる人工知能を汎用...
6月6日、2021年世界人工知能技術大会の「発展と課題」特別フォーラムが杭州で開催された。快手テク...
人工知能の急速な発展に伴い、ナレッジグラフの実装と商業化の可能性は継続的に強化され、社内のデータ分析...