オープンソースの大規模言語モデル (LLM) の概要

オープンソースの大規模言語モデル (LLM) の概要

大規模言語モデル(LLM)は人工知能分野における重要な研究方向であり、ChatGPT以降急速な発展を遂げてきました。これらの開発には主に以下の側面が含まれます。

  1. モデル サイズの増加: LLM はますます大きくなり、パラメータの数も大幅に増加します。この拡張機能により、モデルはより複雑で長い入力シーケンスを処理し、より正確で一貫性のある出力を生成できるようになります。同時に、より大規模なモデルでは、より広範囲の知識と言語コンテキストをカバーできるため、より包括的な回答とソリューションを提供できます。
  2. 分野の専門化: LLM はさまざまな分野でさらに専門化が進められています。研究者らは、特定分野のトレーニングデータをさらに最適化することで、特定分野における質問回答やテキスト生成などのタスクにおいてモデルのパフォーマンスを向上させました。これにより、LLM は特定の業界や専門分野に対してより正確なサポートとアドバイスを提供できるようになります。
  3. 意味理解と推論能力の向上: 研究者は、LLM の意味理解と推論能力の向上に取り組んでいます。より多くのコンテキスト情報、関連知識、論理的推論メカニズムを導入することで、LLM は複雑な問題をよりよく理解し、推論と分析を実施し、より詳細で正確な回答を提供できるようになります。
  4. モデルのトレーニング効率と速度の向上: 研究者は、LLM のトレーニング効率と推論速度を向上させる一連の手法を提案しました。たとえば、分散トレーニング方式を使用すると、複数のコンピューターを並列トレーニングに使用して、モデルの収束を高速化できます。さらに、パフォーマンスを維持しながらモデルの計算リソースの消費を削減できる圧縮および加速技術もいくつかあります。
  5. バイアスの理解と対処: LLM の開発では、モデル内のバイアスをより適切に理解し、対処する方法にも重点が置かれています。研究者は、モデルの出力がより公平かつ中立的であることを保証するために、モデルが結果を生成するときに存在する可能性のある性別、人種、文化などの偏見に対処するために懸命に取り組んでいます。

この記事では、現在利用可能なすべてのオープンソースの大規模言語モデルを要約します。

ファルコン-40B-インストラクト

Falcon-40B-instruct は、Falcon-40B に基づいて TII によって構築され、Baize で微調整された 40B パラメータの因果デコーダー モデルです。

アブダビのテクノロジー・イノベーション研究所(TII)は、大規模言語モデル(LLM)であるFalcon-40Bのオープンソース実装を発表しました。 400億のパラメータを備えたFalcon-40BはUAE初の大規模AIモデルであり、AI分野における同国の野心と、イノベーションと研究を推進する取り組みを示すものです。

通常、非商用ユーザーのみにアクセスを提供するほとんどの LLM とは異なり、Falcon-40B は研究と商用の両方で使用できます。 TII はモデルの重みをオープンソース パッケージに組み込み、モデルの機能を強化し、より効率的な微調整を可能にしました。

ファルコン40Bは2023年3月のデビュー以来、素晴らしいパフォーマンスを発揮しています。スタンフォード大学のHELMツールを使用してベンチマークしたところ、OpenAIのGPT-3、DeepMindのChinchilla AI、GoogleのPaLM-62Bなどの他の有名なモデルよりもトレーニングの計算能力が少なくて済みました。

ビクーニャ

Vicuna は、ShareGPT から収集されたユーザー共有の会話を通じてトレーニングされたオープンソースのチャットボットです。 GPT-4を審査員として用いた予備評価では、Vicuna-13BはOpenAI ChatGPTとGoogle Bardの90%以上の品質を達成し、Vicuna-13Bのトレーニングコストは約300ドルであることが示されました。コードと重み、およびオンライン デモは、非商用目的で公開されています。

7 万人のユーザーと共有された ChatGPT 会話で Vicuna を微調整した結果、Vicuna は Alpaca と比較してより詳細で構造化された回答を生成でき、品質は ChatGPT に匹敵することがわかりました。

Vicuna は、ShareGPT から収集された約 7 万件のユーザー共有会話とパブリック API を使用して、LLaMA ベース モデルを微調整することによって作成されました。

トレーニングには以下の改善も加えられています。

メモリの最適化: 最大コンテキスト長を 512 から 2048 に拡張し、勾配チェックポイントとフラッシュ アテンションを活用してメモリの負荷に対処します。

マルチターンの会話: トレーニング損失はマルチターンの会話を考慮して調整され、微調整損失はチャットボットの出力に対してのみ計算されます。

スポット インスタンスでコストを削減: SkyPilot が管理するスポットを使用してコストを削減し、自動リカバリ プリエンプションと自動リージョン切り替えを備えた安価なスポット インスタンスを活用します。このソリューションにより、7B モデルのトレーニング コストが 500 ドルから約 140 ドルに削減され、13B モデルのトレーニング コストが約 1,000 ドルから約 300 ドルに削減されます。

アルパカ

Meta の LLaMA 7B モデルで微調整された Alpaca。 text-davinci-003 を使用して、LLaMA モデルに従って 52K の命令を自己ガイド方式で生成します。評価セットでは、Alpaca は OpenAI の text-davincic-003 と多くの類似した動作を示しますが、はるかに小さく、再現が容易です。

下の図はアルパカの訓練方法を示しています。

LLaMA モデルは、完全に分割されたデータ並列処理や混合精度トレーニングなどの技術を活用し、HuggingFace のトレーニング フレームワークを使用して微調整されました。ほとんどのクラウド コンピューティング プロバイダーで 100 ドル未満のコストで購入できる 8 台の 80GB a100 で 7B LLaMA モデルを微調整するのに 3 時間かかりました。

ラマ

最先端の基礎的な大規模言語モデルである LLaMA (Large Language Model Meta AI) は、人工知能のこのサブフィールドにおける研究者の研究を前進させるために設計されています。

他の大規模言語モデルと同様に、LLaMA は単語のシーケンスを入力として受け取り、次の単語を予測して再帰的にテキストを生成します。テキストは、ラテン文字とキリル文字を中心に、最も広く話されている20の言語から選択されました。

ほとんどのベンチマークでは、LLaMA-13b は GPT-3 (175B) よりも優れていますが、65B は Chinchilla-70B および PaLM-540B と同等です。

GPTJ

gpt-j6b は、Ben Wang の Mesh Transformer JAX を使用してトレーニングされた Transformer モデルです。 「GPT-J」はモデルのカテゴリを示し、「6B」は学習可能なパラメータの数を示します。このモデルには 28 層があり、モデルの次元は 4096、フィードフォワードの次元は 16384 です。モデルの寸法は 16 個のヘッドに分割され、それぞれのヘッドの寸法は 256 です。このモデルは、GPT-2/GPT-3 と同じ bp セットを使用して、50,257 のトークン化された語彙でトレーニングされます。このモデルはEleutherAIによってリリースされました。 GPT-J のコア機能は、テキスト文字列を取得して次のトークンを予測することです。

GPT-J は、冒とく語、猥褻語、その他の強い言葉が含まれていることが知られているデータセットである Pile でトレーニングされました。そのため、GPT-J は社会的に受け入れられないテキストを生成する可能性があります。

ドリー

Databricks の Dolly-V2-12B は、Databricks 機械学習プラットフォームでトレーニングされた大規模言語モデルです。 Dolly は Pythia-12B をベースに、ブレインストーミング、分類、クローズド QA、生成、情報抽出、オープン QA、要約など、InstructGPT 論文ドメインで Databricks の従業員が生成した約 15,000 件の命令/応答チューニング レコードに基づいてトレーニングされました。

要約する

ChatGPT 以降、大規模言語モデルは急速な発展を遂げてきました。これらの開発には、モデル サイズの拡大、ドメインの特化、意味理解と推論機能の向上、トレーニングの効率と速度の向上、バイアスの理解と対応などが含まれます。上記の6つの比較的優れたオープンソースの大規模言語モデルに加えて、さまざまなバージョンが存在するため、HuggingFaceはリーダーボードを作成しました。

ご興味がございましたら、以下をご覧ください。

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

<<:  欧州はAI規制を推進

>>:  人工知能がプログラマーに取って代わるまでにはどれくらい時間がかかるのでしょうか?

ブログ    

推薦する

韓国のUNISTが協力し、今後5~15分間の交通状況を予測するAIシステムを開発

[[270835]]海外メディアの報道によると、韓国の蔚山科学技術院の高成安教授率いる研究チームは、...

...

アリババクラウドは、70億のパラメータを持つTongyi Qianwen大規模モデルをオープンソース化し、無料で商用利用可能に

大規模モデルの開発動向はオープンソースへと移行し始めています。周知のとおり、ChatGPT、GPT-...

Pytorchの核心部分である自動微分化を突破! !

こんにちは、Xiaozhuangです! PyTorch での自動微分演算に関して、この論文では Py...

四足歩行ロボットが二足歩行で階段を降りることを学びます。脚型システムより83%効率が高い

テスラと競争したロボットを覚えていますか? これは、チューリッヒにあるスイス連邦工科大学のスピンオフ...

SAIC Maxus、クローズドループエコシステム構築に向けた「RVスマートモビリティビジョン」を発表

2017年6月30日、第一回世界知能大会で上汽大通の「RVスマートモビリティビジョン」が盛大に発表さ...

ニューラル ネットワーク モデルの構築に適した最適化アルゴリズムはどれですか? 35,000件の検査でわかる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

元従業員が内部事情を暴露: 10年経っても、なぜGoogleはナレッジグラフを解明できないのか?

[[258183]]この記事はWeChatの公開アカウント「AI Front」(ID: ai-fr...

ディープラーニングAIを使用してマルウェアやAPTを検出し、防止する方法

[[163896]] [51CTO.com クイック翻訳] Deep Instinct は、最大 9...

オラクル、企業の言語モデルの導入と微調整を支援するクラウドベースの生成AIサービスを開始

データベース大手のオラクルは最近、Oracle Cloud Infrastructure Gener...

売上を予測するための 5 つの機械学習テクニック

売上予測は、機械学習 (ML) の一般的かつ重要な用途です。予測売上は、ベースラインを確立して新しい...

百度の自動運転技術は掘削機の運転を熟練ドライバーと同等の効率化に導く

海外メディアのTech Xploreによると、百度の研究ロボット工学・自動運転研究所(RAL)とメリ...

卒業生向け: 機械学習とデータサイエンスのどちらを選ぶべきでしょうか?

[[337428]]データサイエンス業界は 2013 年以降、人気が爆発的に高まり、より幅広い方向...

...

人工知能への恐怖現象を探る

現在、人工知能は人類に大きな発展の機会をもたらす一方で、さまざまなリスクや課題も伴っています。科学技...