オープンソースの大規模言語モデル (LLM) の概要

オープンソースの大規模言語モデル (LLM) の概要

大規模言語モデル(LLM)は人工知能分野における重要な研究方向であり、ChatGPT以降急速な発展を遂げてきました。これらの開発には主に以下の側面が含まれます。

  1. モデル サイズの増加: LLM はますます大きくなり、パラメータの数も大幅に増加します。この拡張機能により、モデルはより複雑で長い入力シーケンスを処理し、より正確で一貫性のある出力を生成できるようになります。同時に、より大規模なモデルでは、より広範囲の知識と言語コンテキストをカバーできるため、より包括的な回答とソリューションを提供できます。
  2. 分野の専門化: LLM はさまざまな分野でさらに専門化が進められています。研究者らは、特定分野のトレーニングデータをさらに最適化することで、特定分野における質問回答やテキスト生成などのタスクにおいてモデルのパフォーマンスを向上させました。これにより、LLM は特定の業界や専門分野に対してより正確なサポートとアドバイスを提供できるようになります。
  3. 意味理解と推論能力の向上: 研究者は、LLM の意味理解と推論能力の向上に取り組んでいます。より多くのコンテキスト情報、関連知識、論理的推論メカニズムを導入することで、LLM は複雑な問題をよりよく理解し、推論と分析を実施し、より詳細で正確な回答を提供できるようになります。
  4. モデルのトレーニング効率と速度の向上: 研究者は、LLM のトレーニング効率と推論速度を向上させる一連の手法を提案しました。たとえば、分散トレーニング方式を使用すると、複数のコンピューターを並列トレーニングに使用して、モデルの収束を高速化できます。さらに、パフォーマンスを維持しながらモデルの計算リソースの消費を削減できる圧縮および加速技術もいくつかあります。
  5. バイアスの理解と対処: LLM の開発では、モデル内のバイアスをより適切に理解し、対処する方法にも重点が置かれています。研究者は、モデルの出力がより公平かつ中立的であることを保証するために、モデルが結果を生成するときに存在する可能性のある性別、人種、文化などの偏見に対処するために懸命に取り組んでいます。

この記事では、現在利用可能なすべてのオープンソースの大規模言語モデルを要約します。

ファルコン-40B-インストラクト

Falcon-40B-instruct は、Falcon-40B に基づいて TII によって構築され、Baize で微調整された 40B パラメータの因果デコーダー モデルです。

アブダビのテクノロジー・イノベーション研究所(TII)は、大規模言語モデル(LLM)であるFalcon-40Bのオープンソース実装を発表しました。 400億のパラメータを備えたFalcon-40BはUAE初の大規模AIモデルであり、AI分野における同国の野心と、イノベーションと研究を推進する取り組みを示すものです。

通常、非商用ユーザーのみにアクセスを提供するほとんどの LLM とは異なり、Falcon-40B は研究と商用の両方で使用できます。 TII はモデルの重みをオープンソース パッケージに組み込み、モデルの機能を強化し、より効率的な微調整を可能にしました。

ファルコン40Bは2023年3月のデビュー以来、素晴らしいパフォーマンスを発揮しています。スタンフォード大学のHELMツールを使用してベンチマークしたところ、OpenAIのGPT-3、DeepMindのChinchilla AI、GoogleのPaLM-62Bなどの他の有名なモデルよりもトレーニングの計算能力が少なくて済みました。

ビクーニャ

Vicuna は、ShareGPT から収集されたユーザー共有の会話を通じてトレーニングされたオープンソースのチャットボットです。 GPT-4を審査員として用いた予備評価では、Vicuna-13BはOpenAI ChatGPTとGoogle Bardの90%以上の品質を達成し、Vicuna-13Bのトレーニングコストは約300ドルであることが示されました。コードと重み、およびオンライン デモは、非商用目的で公開されています。

7 万人のユーザーと共有された ChatGPT 会話で Vicuna を微調整した結果、Vicuna は Alpaca と比較してより詳細で構造化された回答を生成でき、品質は ChatGPT に匹敵することがわかりました。

Vicuna は、ShareGPT から収集された約 7 万件のユーザー共有会話とパブリック API を使用して、LLaMA ベース モデルを微調整することによって作成されました。

トレーニングには以下の改善も加えられています。

メモリの最適化: 最大コンテキスト長を 512 から 2048 に拡張し、勾配チェックポイントとフラッシュ アテンションを活用してメモリの負荷に対処します。

マルチターンの会話: トレーニング損失はマルチターンの会話を考慮して調整され、微調整損失はチャットボットの出力に対してのみ計算されます。

スポット インスタンスでコストを削減: SkyPilot が管理するスポットを使用してコストを削減し、自動リカバリ プリエンプションと自動リージョン切り替えを備えた安価なスポット インスタンスを活用します。このソリューションにより、7B モデルのトレーニング コストが 500 ドルから約 140 ドルに削減され、13B モデルのトレーニング コストが約 1,000 ドルから約 300 ドルに削減されます。

アルパカ

Meta の LLaMA 7B モデルで微調整された Alpaca。 text-davinci-003 を使用して、LLaMA モデルに従って 52K の命令を自己ガイド方式で生成します。評価セットでは、Alpaca は OpenAI の text-davincic-003 と多くの類似した動作を示しますが、はるかに小さく、再現が容易です。

下の図はアルパカの訓練方法を示しています。

LLaMA モデルは、完全に分割されたデータ並列処理や混合精度トレーニングなどの技術を活用し、HuggingFace のトレーニング フレームワークを使用して微調整されました。ほとんどのクラウド コンピューティング プロバイダーで 100 ドル未満のコストで購入できる 8 台の 80GB a100 で 7B LLaMA モデルを微調整するのに 3 時間かかりました。

ラマ

最先端の基礎的な大規模言語モデルである LLaMA (Large Language Model Meta AI) は、人工知能のこのサブフィールドにおける研究者の研究を前進させるために設計されています。

他の大規模言語モデルと同様に、LLaMA は単語のシーケンスを入力として受け取り、次の単語を予測して再帰的にテキストを生成します。テキストは、ラテン文字とキリル文字を中心に、最も広く話されている20の言語から選択されました。

ほとんどのベンチマークでは、LLaMA-13b は GPT-3 (175B) よりも優れていますが、65B は Chinchilla-70B および PaLM-540B と同等です。

GPTJ

gpt-j6b は、Ben Wang の Mesh Transformer JAX を使用してトレーニングされた Transformer モデルです。 「GPT-J」はモデルのカテゴリを示し、「6B」は学習可能なパラメータの数を示します。このモデルには 28 層があり、モデルの次元は 4096、フィードフォワードの次元は 16384 です。モデルの寸法は 16 個のヘッドに分割され、それぞれのヘッドの寸法は 256 です。このモデルは、GPT-2/GPT-3 と同じ bp セットを使用して、50,257 のトークン化された語彙でトレーニングされます。このモデルはEleutherAIによってリリースされました。 GPT-J のコア機能は、テキスト文字列を取得して次のトークンを予測することです。

GPT-J は、冒とく語、猥褻語、その他の強い言葉が含まれていることが知られているデータセットである Pile でトレーニングされました。そのため、GPT-J は社会的に受け入れられないテキストを生成する可能性があります。

ドリー

Databricks の Dolly-V2-12B は、Databricks 機械学習プラットフォームでトレーニングされた大規模言語モデルです。 Dolly は Pythia-12B をベースに、ブレインストーミング、分類、クローズド QA、生成、情報抽出、オープン QA、要約など、InstructGPT 論文ドメインで Databricks の従業員が生成した約 15,000 件の命令/応答チューニング レコードに基づいてトレーニングされました。

要約する

ChatGPT 以降、大規模言語モデルは急速な発展を遂げてきました。これらの開発には、モデル サイズの拡大、ドメインの特化、意味理解と推論機能の向上、トレーニングの効率と速度の向上、バイアスの理解と対応などが含まれます。上記の6つの比較的優れたオープンソースの大規模言語モデルに加えて、さまざまなバージョンが存在するため、HuggingFaceはリーダーボードを作成しました。

ご興味がございましたら、以下をご覧ください。

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

<<:  欧州はAI規制を推進

>>:  人工知能がプログラマーに取って代わるまでにはどれくらい時間がかかるのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

SAPはイノベーションで顧客の成功を支援し、AI時代のデータ主導のビジネス変革の未来を形作ります

SAP は、AI 時代において顧客がデータの潜在能力を最大限に活用し、より深い洞察、より速い成長、よ...

非常に効率的な人工知能チームを構築するにはどうすればよいでしょうか?

翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟導入この記事では、機械学習のインフラ、従業員、プロセスを統...

...

LLM-Blender: 大規模な言語モデルも学習に統合可能

最近、arxiv を見ていたときに、Ensemble メソッドを使用して大規模な言語モデルを統合でき...

Web攻撃検出のための機械学習の深層実践

1. 概要1. 従来のWAFの問題点従来の WAF は、ルールとブラックリストおよびホワイトリストに...

AI生成コンテンツの隠れた危険性:AIがAIを学習するだけでは、インターネットは意味のないコンテンツで満たされる

6月20日のニュースによると、人工知能(AI)は急速に発展しているが、隠れた危険性ももたらしている。...

Llama-2+Mistral+MPT=? 複数の異種大規模モデルの融合が驚くべき結果を示す

LLaMA や Mistral などの大規模言語モデルの成功により、大手企業やスタートアップ企業は独...

ICLR 2021 調査ではゲームスキル パッケージについて調査?順序付けられた記憶決定ネットワークは、次のことを達成するのを助けます

[[394114]]木を切る、狩りをする、家を建てるなどの長いゲームビデオを機械に見せるとします。モ...

...

実証済みのROIを備えた機械学習アプリケーション

モノのインターネット (IoT) は、接続デバイスの数の急増により、10 年以上にわたって着実に成長...

DingTalk Flutter クロス 4 端末ソリューションの設計と技術実践

この記事では、主にDingTalkがFlutterをベースに構築したクロスクアッドターミナルアプリケ...

トップ 10 のディープラーニング フレームワークの比較分析

2016 年が過ぎ、BEEVA Labs のデータ アナリスト Ricardo Guerrero G...

中国の博士が、パラメータのわずか 33% で画像復元フィールドを圧縮するモデル SwinIR を提案しました。

[[421559]]パラメータの数とモデルのパフォーマンスの間には絶対的な関係がありますか?チュー...

AIが再び大学入試小論文に挑戦、強力なハードコア技術で「数秒」の文章作成を実現

昨日(6月7日)、2022年度全国大学入学試験が始まりました。午前中に中国語科目試験が終了し、中国語...

...