オープンソースのビッグモデル分野に、新たな大手プレーヤーが加わりました。 Googleは新しいオープンソースモデルシリーズ「Gemma」を立ち上げました。 Gemini と比較すると、Gemma は軽量でありながら、無料で利用可能です。モデルのウェイトもオープンソースであり、商用利用が許可されています。 Gemma 公式ページ: https://ai.google.dev/gemma/ このリリースには、Gemma 2B と Gemma 7B の 2 つの重量計モデルが含まれています。各スケールには、事前トレーニング済みバージョンと指示に従って微調整されたバージョンの両方があります。使用したい人は、Kaggle、Google の Colab Notebook、または Google Cloud を通じてアクセスできます。 もちろん、Gemma は HuggingFace と HuggingChat もできるだけ早くリリースしたので、誰でもその生成機能を試すことができます。 Google によれば、Gemma モデルは小型であるにもかかわらず、Llama-2 7B や 13B、人気の Mistral 7B などの「主要ベンチマークで大型モデルを大幅に上回るパフォーマンス」を示したという。 そして、Gemma は「開発者のラップトップやデスクトップで直接実行できます。」 Google は、軽量モデルに加えて、コラボレーションを促進するツールや、これらのモデルを責任を持って使用するためのガイドラインもリリースしています。 Keras の作者である François Chollet 氏は、次のように率直に述べています。「最も強力なオープンソースの大規模モデルの地位は今や交代しました。」 HuggingFace の LLM リーダーボードでは、Gemma の 2B モデルと 7B モデルの両方がトップにランクされています。 新しい Responsible Generative AI Toolkit は、Gemma を使用してより安全な AI アプリケーションを作成するためのガイダンスと重要なツールを提供します。 Google は、すべての主要フレームワーク (JAX、PyTorch、TensorFlow) と互換性のあるネイティブ Keras 3.0 を通じて、推論と教師あり微調整 (SFT) のためのツールチェーンを Gemma に提供しています。 大手企業やAI研究機関が数千億規模の大規模マルチモーダルモデルを模索する一方で、多くのスタートアップ企業も数十億規模の言語モデルの構築に取り組んでいます。昨年 Meta が発表した Llama シリーズは業界に衝撃を与え、生成 AI のオープンソースとクローズドソースのルートに関する議論を巻き起こしました。 Google によると、Gemma は Gemini モデルの構築に使用されたものと同じ研究と技術を使用しているとのことです。しかし、オープンソース エコシステムに直接参入するという Gemma のアプローチは、Gemini とはまったく異なります。グーグルは昨年設定した「コア技術をこれ以上公開しない」という戦略も守らなかった。 開発者は Gemini 上で構築できますが、API 経由か、クローズド モデルと見なされる Google の Vertex AI プラットフォームのいずれかで構築できます。同じくクローズドソースのアプローチを採用している OpenAI と比較すると、明らかな利点はありません。 しかし、Gemma がオープンソース化されることで、Google は Meta や Mistral などの競合他社に直接頼るのではなく、自社の AI モデルを使用する人を増やすことができるかもしれない。 Google は今回オープンソースを発表しなかったが、おそらくいつか Meta の Llama 3 に先んじたいのだろう。結局のところ、今週 Llama シリーズが更新されるというニュースがあった (直接のレビューと比較を楽しみにしよう)。 リリースされてからまだ数時間しか経っていませんが、X プラットフォームの多くのユーザーがすでに使用体験を共有しています。あるユーザーは、Gemma -7B は非常に高速で出力が安定しており、Llama-2 13B よりも優れていると述べました。 Google はモデルをオープンソース化するとともに、Gemma のパフォーマンス、データセットの構成、モデリング手法の詳細を記載した技術レポートも公開しました。技術レポートでは、他の研究者が、Gemma がサポートする語彙サイズが 256K に達し、英語以外の言語に対してより適切かつ高速なサポートを提供できることなど、いくつかの注目すべき点を発見しました。 以下に技術レポートの詳細を記載します。 ジェマの技術詳細全体として、Gemma は、言語理解、推論、セキュリティにおいて優れたパフォーマンスを発揮する軽量の SOTA オープン モデル シリーズです。 技術レポートのリンク: https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf Google は、20 億のパラメータと 70 億のパラメータを持つ 2 つのバージョンの Gemma モデルをリリースし、対話、コマンドの追従、有用性、安全性を微調整するための事前トレーニングとチェックポイントを提供しました。 70億のパラメータを持つモデルは、GPUとTPUでの効率的な展開と開発に使用され、20億のパラメータを持つモデルはCPUとエンドサイドアプリケーションに使用されます。さまざまなサイズが、さまざまなコンピューティング制約、アプリケーション、開発者の要件に対応します。 Gemma は、質問回答、常識的推論、数学と科学、コーディングなど、18 のテキストベースのタスクのうち 11 で、同様のパラメーター サイズのオープン モデルよりも優れたパフォーマンスを発揮します。 下の図 1 は、質問応答、推論、数学と科学、コーディングなどのタスクにおける Gemma (7B) と LLaMA 2 (7B)、LLaMA 2 (13B)、Mistral (7B) のパフォーマンス比較を示しています。見ての通り、Gemma (7B) は優位性を示しています (質問応答タスクでは LLaMA 2 (13B) よりも弱いですが)。 次に、Gemma のモデル アーキテクチャ、トレーニング インフラストラクチャ、事前トレーニング、および微調整の方法を見てみましょう。 モデルアーキテクチャGemma モデル アーキテクチャは、Transformer デコーダに基づいています。表 1 は、アーキテクチャのコア パラメータをまとめたものです。モデルトレーニングのコンテキストの長さは 8192 トークンです。 さらに、Google はオリジナルのトランスフォーマー論文に基づいて、次のような改良を加えました。
トレーニングインフラGoogle は、自社開発の AI チップ TPUv5e を使用して Gemma モデルをトレーニングしました。TPUv5e は、256 個のチップで構成されるポッドに展開され、16 x 16 個のチップで構成される 2 次元リングに構成されています。 7B モデルの場合、Google は 16 個のポッド (合計 4096 個の TPUv5e) でモデルをトレーニングしました。 2 つのポッドにわたって 2B モデルを事前トレーニングし、合計 512 TPUv5e を作成しました。ポッドでは、Google は 7B モデルに対して 16 方向のモデル シャーディングと 16 方向のデータ レプリケーションを使用します。 2B モデルでは、256 方向のデータ複製のみが使用されます。オプティマイザーの状態は、ZeRO-3 と同様の技術を使用してさらに分割されます。ポッドの外部では、Google は Pathways アプローチを使用して、データセンター ネットワーク経由でデータのレプリケーションと復元を実行します。 事前トレーニング Gemma 2B と 7B は、それぞれ Web ドキュメント、数学、コードからの 2T と 6T の主に英語のデータでトレーニングされています。 Gemini とは異なり、これらのモデルはマルチモーダルではなく、多言語タスクで最先端のパフォーマンスを達成するようにトレーニングされていません。 互換性のために、Google は Gemini の SentencePiece トークナイザーのサブセットを使用します (Kudo および Richardson、2018)。数字を分割し、余分な空白を削除せず、(Chowdhery et al.、2022) および (Gemini team、2023) で使用されている手法に従って、不明なトークンをバイトレベルでエンコードします。語彙サイズは256kトークンです。 命令のチューニング 私たちは、テキストのみ、英語のみの合成、人間が生成したプロンプトと応答のペアの混合に対して教師あり微調整 (SFT) を使用し、英語のみのラベル付き嗜好データでトレーニングされた報酬モデルと一連の高品質プロンプトに基づくポリシーを使用して、人間によるフィードバックによる強化学習 (RLHF) を行い、Gemma 2B モデルと Gemma 7B モデルを微調整しました。 実験では、教師あり微調整と RLHF ステージの両方が、モデル出力の下流の自動評価と人間の嗜好評価のパフォーマンスを向上させるために非常に重要であることが示されています。 監督下での微調整 Google は、LM ベースの並列評価結果に基づいて、教師あり微調整用の独自の混合データを選択します。一連の保留プロンプトが与えられた場合、テスト モデルからの応答とベースライン モデルからの同じプロンプトへの応答を生成し、より大規模で高性能なモデルに 2 つの応答の優先順位を表明するよう求めます。 Google は、指示の遵守、信頼性、創造性、安全性などの特定の機能を強調するために、さまざまなプロンプト セットも構築します。 Google は、思考の連鎖の促進、人間の好みとの整合など、さまざまな手法を採用したさまざまな自動化された LM「ジャッジ」を使用しています。 形式 命令チューニング モデルは、トレーニングおよび推論中にすべての命令チューニング例に追加情報を注釈付けする特定のフォーマッタを使用してトレーニングされます。これには 2 つの目的があります。1) ユーザー ロールなどの会話での役割を示すこと、2) 特に複数ターンの会話で会話のターンを説明することです。これら 2 つの目的を達成するために、Google はトークナイザーに特別な制御トークンを予約します。 以下の表 3 は関連する書式制御トークンを示し、表 4 はダイアログの例を示します。 人間のフィードバックによる強化学習 (RLHF) Google は、RLHF を使用して教師あり微調整モデルをさらに微調整し、人間の評価者から好みのペアを収集するだけでなく、Gemini に似た Bradley-Terry モデルに基づいて報酬関数をトレーニングしました。このポリシーは、最初に調整されたモデルに対して Kullback-Leibler 正則化項を含む REINFORCE のバリアントを使用して、この報酬関数を最適化するようにトレーニングされます。 教師あり微調整 (SFT) フェーズと同様に、ハイパーパラメータの調整と報酬ハッキングの軽減のために、自動評価器として大容量モデルに依存し、ベースライン モデルとの比較を計算します。 評価するGoogle は、人間の好み、自動ベンチマーク、メモリなどの指標を使用して、幅広い領域にわたって Gemma の包括的な評価を実施しました。 人間の嗜好評価Google は、微調整されたモデルに対して標準的な学術ベンチマークを実行することに加えて、最終リリース候補モデルに対して人間による評価調査を実施し、Mistral v0.2 7B Instruct モデルと比較しました。 Mistral v0.2 7B Instructと比較すると、Gemma 7B ITの勝率は51.7%、Gemma 2B ITの勝率は41.6%です。基本的な安全プロトコルをテストする約 400 のプロンプトのうち、Gemma 7B IT の勝率は 58% で、Gemma 2B IT の勝率は 56.5% でした。対応する数値は表5に示されています。 自動ベンチマークGoogle はまた、表 6 に示すように、一連の学術ベンチマークで Gemma 2B および 7B モデルをいくつかの外部オープンソース LLM と比較しました。 MMLU では、Gemma 7B は、同等またはより小さいサイズのすべてのオープン ソース モデルよりも優れたパフォーマンスを発揮し、LLaMA2 13B を含むいくつかのより大きなモデルよりも優れたパフォーマンスを発揮します。 しかし、ベンチマークの作成者は人間の専門家のパフォーマンスを 89.8% と評価しており、Gemini Ultra はこのしきい値を超えた最初のモデルであり、Gemma が Gemini や人間レベルのパフォーマンスに到達するにはまだ多くの改善の余地があることを示しています。 しかし、Gemma モデルは数学とコーディングのベンチマークでは優れたパフォーマンスを発揮しました。数学タスクでは、Gemma モデルは GSM8K およびより難しい MATH ベンチマークで他のモデルよりも少なくとも 10 ポイント優れています。同様に、HumanEval では他のオープンソース モデルよりも少なくとも 6 ポイント優れています。 Gemma は、MBPP で微調整された CodeLLaMA-7B モデルよりも優れたパフォーマンスを発揮します (CodeLLaMA のスコアは 41.4% ですが、Gemma 7B のスコアは 44.4%)。 記憶力評価Google は、Anil らが採用した方法を使用して、Gemma の記憶機能をテストしました。具体的には、各コーパスから 10,000 件のドキュメントをサンプリングし、最初の 50 個のトークンをモデルのプロンプトとして使用しました。このプロセスでは、Google は正確な記憶に重点を置いており、モデルによって生成された次の 50 個のトークンがテキスト内の実際の後続のテキストと完全に一致する場合、テキストは記憶済みとして分類されます。評価結果は、同じサイズの PaLM モデルと PaLM 2 モデルと比較され、図 2 に示されています。 プライバシーデータ大規模なモデルの場合、プライベートなデータが記憶される可能性は非常に懸念されるものです。 Gemma の事前トレーニング済みモデルを安全かつ信頼できるものにするために、Google は自動的な方法を使用して、トレーニング セットから特定のプライバシー情報やその他の機密データを除外します。 潜在的にプライベートなデータを識別するために、Google は Google Cloud Data Loss Prevention(DLP)ツールを使用します。このツールは、個人データのカテゴリ (名前、電子メールなど) に基づいて 3 つの重大度レベルを出力します。 Google は、最も重大度の高いものを「機密」、残りの 2 つを「個人情報」に分類し、保存された出力に機密データまたは個人情報がどの程度含まれているかを測定します。 下の図 3 に示すように、Google は機密データの保存を観察しませんでしたが、Gemma モデルが上記で潜在的に「プライベート」と分類されたデータの一部を記憶していることを発見しました。この研究で使用されたツールには、多くの誤検知がある可能性がある(コンテキストを考慮せずにパターンのみを照合するため)ことに留意する必要があり、つまり、実験結果では、特定された個人データの量が過大評価される可能性がある。 記憶されたデータの量に関しては、下の図 4 に示すように、Google は約 50% 多くのデータが記憶されたことを確認しました。これは、データセットの異なるサブカテゴリごとにほぼ一貫していました。 最後に、Google は標準化された AI セキュリティ ベンチマークを使用して Gemma のセキュリティも評価しました。その結果を以下の表 8 に示します。 参考リンク: https://www.theverge.com/2024/2/21/24078610/google-gemma-gemini-small-ai-model-open-source. |
>>: Google VideoPoet の責任者 Jiang Lu が TikTok に参入しました! AIビデオモデル戦争が迫る
9月26日のニュース: ここ数か月、マイクロソフトは人工知能 (AI) 事業の開発を加速させています...
これまで、私を含め、ほとんどの人は、今回の流行が経済に及ぼす影響は段階的かつ一時的な変動に過ぎないと...
新興技術のデジタル時代において、大規模言語モデル (LLM) は、人間社会と文化の多くの側面に革命を...
[[273454]]多くの薬と同様に、精神を明晰に保つために特に使用される薬であるモダフィニルには、...
編集者注: ディープラーニングの継続的な発展により、音声認識技術は大幅に向上し、人々の日常生活に多く...
論文アドレス: https://www.nature.com/articles/s41562-022...
人工知能に関する議論は現在、自動運転車、チャットボット、デジタルツイン、ロボット工学、そしてビッグデ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
編集者注: ロボット アドバイザーの登場により、従来のアドバイザーはどこへ向かうのでしょうか。これは...
画像マッチングは、2 つの画像間のピクセルの対応を推定することを目的とした、コンピューター ビジョン...
編集者注: これは、2019年上海世界人工知能会議でSinovation Ventures会長のKa...