世界で最も強力なオープンソースモデルが一夜にして所有者が変わりました。 Google Gemma 7B が Llama 2 13B を圧倒、オープンソース戦争が再燃

真夜中に雷鳴が轟いた。Google は本当に LLM をオープンソース化したのか? ！

今回、オープンソースを多用した Gemma は 2B と 7B の 2 つのサイズで提供され、Gemini と同じ研究と技術を使用して構築されています。

Gemini の相同技術のサポートにより、Gemma は同じ規模で SOTA パフォーマンスを実現するだけではありません。

さらに印象的なのは、主要なベンチマークにおいて、Llama 2 13B などの大型モデルよりも優れた性能を発揮できることです。

同時に、Google は 16 ページの技術レポートも公開しました。

技術レポートのアドレス: https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf

Google によると、Gemma という名前はラテン語の「gemma」に由来しており、「宝石」を意味し、その貴重さを象徴しているようです。

歴史的に、Transformers、TensorFlow、BERT、T5、JAX、AlphaFold、AlphaCode はすべて、Google がオープンソースコミュニティに貢献してきたイノベーションです。

Google: 今日はOpen AIとは何かをお見せします

Google が本日、世界中で同時にリリースした Gemma は、オープンソース AI 構築ブームを再び巻き起こすことは間違いないだろう。

同時に、OpenAIが「唯一のClosedAI」という称号を獲得したことも確認された。

最近はSoraの影響でOpenAIが大人気となり、Llameも大きな動きを見せていると言われており、再びGoogleがリードを奪っています。シリコンバレーの大企業はすでに旋風を巻き起こしています!

Google: オープンソースとクローズドソースの両方が欲しい

ハギングフェイスCEOも祝福のメッセージを投稿した。

ハグフェイスホットリストにジェマが登場するスクリーンショットも投稿された。

Keras の作者 François Chollet 氏は率直にこう述べています。「最も強力なオープンソースの大規模モデルの所有者が今日変わりました。」

ネットユーザーの中には、実際に試してみて、Gemma 7Bは本当に速いと言った人もいます。

Google は文字通り、Gemini で GPT-4 を殴り、Gemma で Llama 2 を蹴っています。

ネットユーザーもこの楽しいイベントを見ることに興味を持っており、Mistral AIとOpenAIに対し、Googleが注目を集めるのを阻止するために今夜大きな動きを起こすよう呼びかけている。（手動犬頭）

同じスケールでSOTAをリフレッシュし、Llama 2 13Bを上回る

ご覧のとおり、Gemma-7B モデルは、一般的な言語理解、推論、数学、コーディングをカバーする 8 つのベンチマークで Llama 2 7B および 13B を上回りました。

また、特に数学、科学、コーディング関連のタスクでは、Mistral 7B モデルのパフォーマンスを上回ります。

安全性の面では、指示に従って微調整された Gemma-2B IT モデルと Gemma-7B IT モデルはどちらも、人間の嗜好評価において Mistal-7B v0.2 モデルを上回りました。

特に、Gemma-7B IT モデルは、特定の指示を理解して実行する点で優れたパフォーマンスを発揮しました。

完全なツールスイート: フレームワーク、ツール、ハードウェアを最適化

今回、Google はモデル自体に加えて、開発者が Gemma モデルを責任を持って使用し、Gemma を使用してより安全な AI アプリケーションを構築できるようにするための一連のツールも提供します。

- Google は、JAX、PyTorch、TensorFlow 用の完全なツールチェーンを提供し、モデル推論と教師あり微調整 (SFT) をサポートし、最新の Keras 3.0 と完全に互換性があります。

- 事前に構築された Colab および Kaggle ノートブック、および Hugging Face、MaxText、NVIDIA NeMo、TensorRT-LLM などの一般的なツールとの統合により、Gemma の探索を簡単に開始できます。

- Gemma モデルは、個人のノートパソコンやワークステーションで実行することも、Google Cloud にデプロイして、Vertex AI や Google Kubernetes Engine (GKE) への簡単なデプロイをサポートすることもできます。

- Google は Gemma をプラットフォーム間で最適化し、NVIDIA GPU や Google Cloud TPU などのさまざまな AI ハードウェアで優れたパフォーマンスを発揮できるようにしました。

さらに、利用規約では、規模に関係なく、すべての組織に責任ある商用利用および配布の権利が与えられます。

しかし完全な勝利ではない

しかし、ジェマは全てのランキングでSOTAを獲得することはできませんでした。

公式レビューでは、Gemma 7B は、MMLU、HellaSwag、SIQA、CQA、ARC-e、HumanEval、MBPP、GSM8K、MATH、AGIEval で Llama 2 7B および 13B モデルに勝利しました。

対照的に、Gemma 7B は Boolq テストでは Mistral 7B と同点でした。

しかし、PIQA、ARC-c、Winogrande、BBHではミストラル7Bより劣ります。

OBQAと三価QAでは7Bと13BスケールのLlama 2 7Bに同時に敗北しました。

技術レポート

Googleは今回、Gemmaモデルの2つのバージョンをリリースした。70億パラメータのモデルはGPUやTPU上での効率的な展開や開発に使用され、20億パラメータのモデルはCPUやエンドサイドアプリケーションに用いられる。

Gemma は、質問回答、常識的推論、数学と科学、コーディングなど、18 のテキストベースのタスクのうち 11 で、同様のパラメータサイズのオープンソースモデルよりも優れたパフォーマンスを発揮します。

モデルアーキテクチャの面では、Gemma は Transformer に基づいていくつかの改良を加えており、複雑なタスクを処理する際に優れたパフォーマンスと効率を発揮できます。

- マルチクエリアテンションメカニズム

このうち、7B モデルはマルチヘッドアテンションメカニズムを使用し、2B モデルはマルチクエリアテンションメカニズムを使用します。結果は、これらの特定の注意メカニズムがさまざまなモデルサイズでパフォーマンスを向上できることを示しています。

- RoPE埋め込み

従来の絶対位置埋め込みとは異なり、このモデルは各レイヤーで回転位置埋め込み技術を使用し、モデルの入力と出力間で埋め込みを共有することで、モデルのサイズを効果的に削減できます。

- GeGLU活性化関数

標準の ReLU 活性化関数を GeGLU 活性化関数に置き換えると、モデルのパフォーマンスが向上します。

- ノーマライザーの場所

各 Transformer サブレイヤーの入力と出力は正規化されます。ここでは、モデルの安定性と効率性を確保するために、正規化レイヤーとして RMSNorm が使用されます。

アーキテクチャのコアパラメータは次のとおりです。

両方のスケールのパラメータは次のとおりです。

事前トレーニング

トレーニングデータ

Gemma 2B と 7B は、Web ドキュメント、数学、コードから主に英語のデータのそれぞれ 2T トークンと 6T トークンでトレーニングされました。

Gemini とは異なり、これらのモデルはマルチモーダルではなく、多言語タスクでの SOTA 用にトレーニングされていません。

Google は互換性のために Gemini の SentencePiece トークナイザーのサブセットを使用します。

指示の微調整

チームは、教師あり微調整 (SFT) と人間によるフィードバックによる強化学習 (RLHF) を含めて、Gemma 2B および 7B モデルを微調整しました。

教師ありの微調整段階では、研究者らはプレーンテキスト、英語、人間と機械が生成した質問と回答のペアで構成されるデータセットを使用しました。

強化学習段階では、英語の嗜好データに基づいてトレーニングされた報酬モデルと、厳選された高品質のプロンプトのセットが戦略として使用されます。

研究者たちは、これら 2 つの段階が、自動評価と人間の嗜好評価の両方においてモデルのパフォーマンスを向上させるために非常に重要であることを発見しました。

監督下での微調整

研究者らは、LM ベースの並列評価に基づいて、教師あり微調整のためのデータ混合物を選択しました。

研究者は、提示された一連のプロンプトが与えられると、テストモデルから応答を生成し、同じプロンプトに対する応答をベースラインモデルから生成し、それらをランダムにシャッフルして、より大規模で機能的なモデルに 2 つの応答のどちらかを選択するように求めます。

研究者たちは、指示に従うこと、事実に即していること、創造的であること、安全であることなど、特定の能力を強調するために、さまざまなプロンプトのセットを作成しました。

私たちは、人間の好みに合わせるために、思考連鎖プロンプト、採点基準や憲章の使用など、さまざまな手法を採用した、さまざまな LM ベースの自動審査員を使用しました。

RLHF

研究者らは、人間からのフィードバックによる強化学習（RLHF）を使用して、教師あり微調整を行ったモデルをさらに最適化しました。

彼らは人間の評価者から好みの選択肢を収集し、ジェミニプロジェクトで行われたのと同様に、ブラッドリーテリーモデルに基づく報酬関数をトレーニングしました。

研究者らは、REINFORCE アルゴリズムの改良版を使用し、Kullback-Leibler 正則化項を追加して、この戦略が元々調整されたモデルとの一貫性を維持しながらこの報酬関数を最適化できるようにしました。

以前の教師あり微調整フェーズと同様に、ハイパーパラメータを調整し、報酬メカニズムの悪用をさらに防ぐために、研究者は高性能モデルを自動評価ツールとして使用し、それをベースラインモデルと直接比較しました。

パフォーマンス評価

自動評価

Google は、身体的および社会的推論、質問への回答、プログラミング、数学、常識的推論、言語モデル、読解力など、複数の領域で Gemma のパフォーマンスを評価しました。

Gemma2B モデルと 7B モデルは、さまざまな学術ベンチマークで複数の外部オープンソース大規模言語モデルと比較されます。

MMLU ベンチマークでは、Gemma 7B モデルは、同じサイズまたはより小さいサイズのすべてのオープンソースモデルよりも優れているだけでなく、Llama 2 13B を含むいくつかのより大きなモデルよりも優れています。

しかし、Gemini Ultra は、ベンチマークの作成者によって評価された人間の専門家の 89.8% のパフォーマンスを上回った最初のモデルであり、Gemma には Gemini と人間レベルのパフォーマンスの両方を向上させる余地が大いにあることを示しています。

さらに、Gemma モデルは数学とプログラミングのベンチマークで特に優れたパフォーマンスを発揮しました。

モデルの分析能力を評価するために一般的に使用される数学的タスクでは、Gemma モデルは GSM8K とより難しい MATH ベンチマークの両方で他のモデルを少なくとも 10 ポイント上回っています。

同様に、HumanEval でも、他のオープンソースモデルを少なくとも 6 ポイント上回っています。

Gemma は、MBPP でのコード微調整に特化した CodeLLaMA 7B モデルのパフォーマンスを上回ります (CodeLLaMA のスコアは 41.4% ですが、Gemma 7B のスコアは 44.4%)。

記憶力評価

最近の研究では、慎重に調整された AI モデルであっても、既存の調整手段を回避できる新しいタイプの敵対的攻撃に対して脆弱である可能性があることが判明しました。

このような打撃により、モデルが不規則に動作し、トレーニング中に記憶したデータを繰り返し出力してしまう可能性もあります。

そのため、研究者らは、モデルの記憶能力を評価するための上限と考えられ、多くの研究で共通の定義として使用されているモデルの「検出可能な記憶」能力の研究に焦点を当てました。

研究者らは、Gemma の事前トレーニング済みモデルで記憶テストを実施しました。

具体的には、各データセットから 10,000 件のドキュメントをランダムに選択し、ドキュメントの最初の 50 個のトークンをモデルのプロンプトとして使用しました。

テストの焦点は正確な記憶です。つまり、モデルが入力に基づいて、元のテキストと完全に一致する次の 50 個のトークンを正確に生成できる場合、モデルはテキストを「記憶」したとみなされます。

さらに、モデルが書き換えられた形式で情報を記憶できるかどうかを検出するために、研究者らは、生成されたテキストと元のテキストの間の編集ギャップを最大 10% まで許容するモデルの「近似記憶」能力もテストしました。

図 2 では、Gemma のテスト結果を、同様のサイズの PaLM モデルおよび PaLM 2 モデルと比較しています。

Gemma の記憶率は著しく低いことがわかります (図 2 の左側を参照)。

しかし、事前学習データセット全体の「総記憶量」を推定することで、より正確な評価結果を得ることができます（図2の右側を参照）。Gemmaの学習データの記憶性能は、PaLMに匹敵します。

個人情報を記憶するという問題は特に重大です。図 3 に示すように、研究者は記憶された機密情報を発見しませんでした。

「個人情報」に分類されるデータの一部が記憶されていたことが判明したが、その頻度は比較的低かった。

また、これらのツールは多くの誤検知を生成する傾向があり（文脈を考慮せずに単にパターンを一致させるため）、研究者が発見する個人情報の量が過大評価される可能性があります。

要約と議論

一般的に、Gemma モデルは、対話、論理的推論、数学、コード生成など、多くの分野で改善されています。

MMLU (64.3%) と MBPP (44.4%) のテストでは、Gemma は優れたパフォーマンスを示しただけでなく、オープンソースの大規模言語モデルのパフォーマンスにさらなる改善の余地があることも示しました。

Google は、標準的なテストタスクで高度なパフォーマンスを達成することに加えて、コミュニティと協力してこの分野での開発を推進していくことを楽しみにしています。

ジェマは、コーディング、データ処理、アーキテクチャ設計、命令の最適化、人間のフィードバックに基づく強化学習、評価方法など、ジェミニモデルプログラムから多くのことを学びました。

同時に、Google は大規模言語モデルを使用する際の一連の制限を改めて強調しました。

標準的なテストタスクでは優れたパフォーマンスを発揮しますが、情報の正確さの確保、モデルのターゲットの調整、複雑な論理的推論の処理、悪意のある入力に対するモデルの耐性の強化など、目的のタスクを確実に実行できる、安定性とセキュリティを兼ね備えたモデルを作成するには、さらなる研究が必要です。

チームは、ジェミニが指摘したように、より挑戦的で堅牢なテストベンチマークが必要であると述べた。

チームメンバー

コア貢献者:

その他の貢献者:

製品マネージャー、プロジェクトマネージャー、エグゼクティブスポンサー、オーナー、テクニカルリーダー:

<<: 人工知能が不動産業界にもたらす変化

>>:

キング・オブ・グローリーのプレイからサッカーのプレイまで、テンセントのAIが再び進化

世界で最も強力なオープンソースモデルが一夜にして所有者が変わりました。 Google Gemma 7B が Llama 2 13B を圧倒、オープンソース戦争が再燃

同じスケールでSOTAをリフレッシュし、Llama 2 13Bを上回る

完全なツールスイート: フレームワーク、ツール、ハードウェアを最適化

しかし完全な勝利ではない

技術レポート

事前トレーニング

指示の微調整

パフォーマンス評価

要約と議論

チームメンバー

キング・オブ・グローリーのプレイからサッカーのプレイまで、テンセントのAIが再び進化

中国のAIハイテクが2018CESを制覇、Zhuner翻訳機が世界の家電「オスカー」を驚かせる

Python 補間アルゴリズムの完全な説明

20 分で回路基板の組み立て方を学びましょう!オープンソースのSERLフレームワークは、精密制御において100％の成功率を誇り、人間の3倍の速さです。

人工知能変革の転換点をどう乗り越えるか

無料ですか?寄生？ ChatGPTに夢中です！

建設現場での死傷者を減らすには？ 10のAI手法をご紹介します

AI モデルの 3 種類のバイアスとその修正方法

科学者たちは、脳波を3%という低いエラー率で直接テキストに変換する「心を読む」方法を開発した。

推薦する

GPT-X に基づく製品コピーライティングと画像生成の実践

私の国の医薬品人工知能市場は急速な成長期に入っている

中国情報通信研究院が2021年最初の「信頼できるAI成果」を発表、百度が5つの賞を受賞

ボストン・ダイナミクスはまたもオーナーが変わる。ロボット界のトップスターを商業化するのはなぜ難しいのか？

9つの主要な回帰アルゴリズムと例のまとめ

996の非効率性にノーと言いましょう: ChatGPTはコードコメントとドキュメントを簡単に処理するのに役立ちます

機械学習はコンタクトセンターの未来

AIは製造業にどのように役立つのでしょうか?

ファーウェイのエリック・シュー氏：パーベイシブ・インテリジェンスを創造し、すべてがつながるインテリジェントな世界を構築する

テクノロジーファイナンスからスマートファイナンスまで、民生銀行の革新的な人工知能の応用をご覧ください

効果的な機械学習研究者の6つの習慣

AI as a Serviceが不可欠な理由

教師あり学習、教師なし学習、強化学習とは何ですか?ついに誰かが明らかにした