オープンソースの大規模言語モデル (LLM) の概要

大規模言語モデル（LLM）は人工知能分野における重要な研究方向であり、ChatGPT以降急速な発展を遂げてきました。これらの開発には主に以下の側面が含まれます。

モデルサイズの増加: LLM はますます大きくなり、パラメータの数も大幅に増加します。この拡張機能により、モデルはより複雑で長い入力シーケンスを処理し、より正確で一貫性のある出力を生成できるようになります。同時に、より大規模なモデルでは、より広範囲の知識と言語コンテキストをカバーできるため、より包括的な回答とソリューションを提供できます。
分野の専門化: LLM はさまざまな分野でさらに専門化が進められています。研究者らは、特定分野のトレーニングデータをさらに最適化することで、特定分野における質問回答やテキスト生成などのタスクにおいてモデルのパフォーマンスを向上させました。これにより、LLM は特定の業界や専門分野に対してより正確なサポートとアドバイスを提供できるようになります。
意味理解と推論能力の向上: 研究者は、LLM の意味理解と推論能力の向上に取り組んでいます。より多くのコンテキスト情報、関連知識、論理的推論メカニズムを導入することで、LLM は複雑な問題をよりよく理解し、推論と分析を実施し、より詳細で正確な回答を提供できるようになります。
モデルのトレーニング効率と速度の向上: 研究者は、LLM のトレーニング効率と推論速度を向上させる一連の手法を提案しました。たとえば、分散トレーニング方式を使用すると、複数のコンピューターを並列トレーニングに使用して、モデルの収束を高速化できます。さらに、パフォーマンスを維持しながらモデルの計算リソースの消費を削減できる圧縮および加速技術もいくつかあります。
バイアスの理解と対処: LLM の開発では、モデル内のバイアスをより適切に理解し、対処する方法にも重点が置かれています。研究者は、モデルの出力がより公平かつ中立的であることを保証するために、モデルが結果を生成するときに存在する可能性のある性別、人種、文化などの偏見に対処するために懸命に取り組んでいます。

この記事では、現在利用可能なすべてのオープンソースの大規模言語モデルを要約します。

ファルコン-40B-インストラクト

Falcon-40B-instruct は、Falcon-40B に基づいて TII によって構築され、Baize で微調整された 40B パラメータの因果デコーダーモデルです。

アブダビのテクノロジー・イノベーション研究所（TII）は、大規模言語モデル（LLM）であるFalcon-40Bのオープンソース実装を発表しました。 400億のパラメータを備えたFalcon-40BはUAE初の大規模AIモデルであり、AI分野における同国の野心と、イノベーションと研究を推進する取り組みを示すものです。

通常、非商用ユーザーのみにアクセスを提供するほとんどの LLM とは異なり、Falcon-40B は研究と商用の両方で使用できます。 TII はモデルの重みをオープンソースパッケージに組み込み、モデルの機能を強化し、より効率的な微調整を可能にしました。

ファルコン40Bは2023年3月のデビュー以来、素晴らしいパフォーマンスを発揮しています。スタンフォード大学のHELMツールを使用してベンチマークしたところ、OpenAIのGPT-3、DeepMindのChinchilla AI、GoogleのPaLM-62Bなどの他の有名なモデルよりもトレーニングの計算能力が少なくて済みました。

ビクーニャ

Vicuna は、ShareGPT から収集されたユーザー共有の会話を通じてトレーニングされたオープンソースのチャットボットです。 GPT-4を審査員として用いた予備評価では、Vicuna-13BはOpenAI ChatGPTとGoogle Bardの90%以上の品質を達成し、Vicuna-13Bのトレーニングコストは約300ドルであることが示されました。コードと重み、およびオンラインデモは、非商用目的で公開されています。

7 万人のユーザーと共有された ChatGPT 会話で Vicuna を微調整した結果、Vicuna は Alpaca と比較してより詳細で構造化された回答を生成でき、品質は ChatGPT に匹敵することがわかりました。

Vicuna は、ShareGPT から収集された約 7 万件のユーザー共有会話とパブリック API を使用して、LLaMA ベースモデルを微調整することによって作成されました。

トレーニングには以下の改善も加えられています。

メモリの最適化: 最大コンテキスト長を 512 から 2048 に拡張し、勾配チェックポイントとフラッシュアテンションを活用してメモリの負荷に対処します。

マルチターンの会話: トレーニング損失はマルチターンの会話を考慮して調整され、微調整損失はチャットボットの出力に対してのみ計算されます。

スポットインスタンスでコストを削減: SkyPilot が管理するスポットを使用してコストを削減し、自動リカバリプリエンプションと自動リージョン切り替えを備えた安価なスポットインスタンスを活用します。このソリューションにより、7B モデルのトレーニングコストが 500 ドルから約 140 ドルに削減され、13B モデルのトレーニングコストが約 1,000 ドルから約 300 ドルに削減されます。

アルパカ

Meta の LLaMA 7B モデルで微調整された Alpaca。 text-davinci-003 を使用して、LLaMA モデルに従って 52K の命令を自己ガイド方式で生成します。評価セットでは、Alpaca は OpenAI の text-davincic-003 と多くの類似した動作を示しますが、はるかに小さく、再現が容易です。

下の図はアルパカの訓練方法を示しています。

LLaMA モデルは、完全に分割されたデータ並列処理や混合精度トレーニングなどの技術を活用し、HuggingFace のトレーニングフレームワークを使用して微調整されました。ほとんどのクラウドコンピューティングプロバイダーで 100 ドル未満のコストで購入できる 8 台の 80GB a100 で 7B LLaMA モデルを微調整するのに 3 時間かかりました。

ラマ

最先端の基礎的な大規模言語モデルである LLaMA (Large Language Model Meta AI) は、人工知能のこのサブフィールドにおける研究者の研究を前進させるために設計されています。

他の大規模言語モデルと同様に、LLaMA は単語のシーケンスを入力として受け取り、次の単語を予測して再帰的にテキストを生成します。テキストは、ラテン文字とキリル文字を中心に、最も広く話されている20の言語から選択されました。

ほとんどのベンチマークでは、LLaMA-13b は GPT-3 (175B) よりも優れていますが、65B は Chinchilla-70B および PaLM-540B と同等です。

GPTJ

gpt-j6b は、Ben Wang の Mesh Transformer JAX を使用してトレーニングされた Transformer モデルです。「GPT-J」はモデルのカテゴリを示し、「6B」は学習可能なパラメータの数を示します。このモデルには 28 層があり、モデルの次元は 4096、フィードフォワードの次元は 16384 です。モデルの寸法は 16 個のヘッドに分割され、それぞれのヘッドの寸法は 256 です。このモデルは、GPT-2/GPT-3 と同じ bp セットを使用して、50,257 のトークン化された語彙でトレーニングされます。このモデルはEleutherAIによってリリースされました。 GPT-J のコア機能は、テキスト文字列を取得して次のトークンを予測することです。

GPT-J は、冒とく語、猥褻語、その他の強い言葉が含まれていることが知られているデータセットである Pile でトレーニングされました。そのため、GPT-J は社会的に受け入れられないテキストを生成する可能性があります。

ドリー

Databricks の Dolly-V2-12B は、Databricks 機械学習プラットフォームでトレーニングされた大規模言語モデルです。 Dolly は Pythia-12B をベースに、ブレインストーミング、分類、クローズド QA、生成、情報抽出、オープン QA、要約など、InstructGPT 論文ドメインで Databricks の従業員が生成した約 15,000 件の命令/応答チューニングレコードに基づいてトレーニングされました。

要約する

ChatGPT 以降、大規模言語モデルは急速な発展を遂げてきました。これらの開発には、モデルサイズの拡大、ドメインの特化、意味理解と推論機能の向上、トレーニングの効率と速度の向上、バイアスの理解と対応などが含まれます。上記の6つの比較的優れたオープンソースの大規模言語モデルに加えて、さまざまなバージョンが存在するため、HuggingFaceはリーダーボードを作成しました。

ご興味がございましたら、以下をご覧ください。

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

<<: 欧州はAI規制を推進

>>: 人工知能がプログラマーに取って代わるまでにはどれくらい時間がかかるのでしょうか?