世界で最も強力なオープンソース モデルが一夜にして所有者が変わりました。 Google Gemma 7B が Llama 2 13B を圧倒、オープンソース戦争が再燃

世界で最も強力なオープンソース モデルが一夜にして所有者が変わりました。 Google Gemma 7B が Llama 2 13B を圧倒、オープンソース戦争が再燃

真夜中に雷鳴が轟いた。Google は本当に LLM をオープンソース化したのか? !

今回、オープンソースを多用した Gemma は 2B と 7B の 2 つのサイズで提供され、Gemini と同じ研究と技術を使用して構築されています。

Gemini の相同技術のサポートにより、Gemma は同じ規模で SOTA パフォーマンスを実現するだけではありません。

さらに印象的なのは、主要なベンチマークにおいて、Llama 2 13B などの大型モデルよりも優れた性能を発揮できることです。

同時に、Google は 16 ページの技術レポートも公開しました。

技術レポートのアドレス: https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf

Google によると、Gemma という名前はラテン語の「gemma」に由来しており、「宝石」を意味し、その貴重さを象徴しているようです。

歴史的に、Transformers、TensorFlow、BERT、T5、JAX、AlphaFold、AlphaCode はすべて、Google がオープンソース コミュニティに貢献してきたイノベーションです。

Google: 今日はOpen AIとは何かをお見せします

Google が本日、世界中で同時にリリースした Gemma は、オープンソース AI 構築ブームを再び巻き起こすことは間違いないだろう。

同時に、OpenAIが「唯一のClosedAI」という称号を獲得したことも確認された。

最近はSoraの影響でOpenAIが大人気となり、Llameも大きな動きを見せていると言われており、再びGoogleがリードを奪っています。シリコンバレーの大企業はすでに旋風を巻き起こしています!

Google: オープンソースとクローズドソースの両方が欲しい

ハギングフェイスCEOも祝福のメッセージを投稿した。

ハグフェイスホットリストにジェマが登場するスクリーンショットも投稿された。

Keras の作者 François Chollet 氏は率直にこう述べています。「最も強力なオープンソースの大規模モデルの所有者が今日変わりました。」

ネットユーザーの中には、実際に試してみて、Gemma 7Bは本当に速いと言った人もいます。

Google は文字通り、Gemini で GPT-4 を殴り、Gemma で Llama 2 を蹴っています。

ネットユーザーもこの楽しいイベントを見ることに興味を持っており、Mistral AIとOpenAIに対し、Googleが注目を集めるのを阻止するために今夜大きな動きを起こすよう呼びかけている。 (手動犬頭)

同じスケールでSOTAをリフレッシュし、Llama 2 13Bを上回る

ご覧のとおり、Gemma-7B モデルは、一般的な言語理解、推論、数学、コーディングをカバーする 8 つのベンチマークで Llama 2 7B および 13B を上回りました。

また、特に数学、科学、コーディング関連のタスクでは、Mistral 7B モデルのパフォーマンスを上回ります。

安全性の面では、指示に従って微調整された Gemma-2B IT モデルと Gemma-7B IT モデルはどちらも、人間の嗜好評価において Mistal-7B v0.2 モデルを上回りました。

特に、Gemma-7B IT モデルは、特定の指示を理解して実行する点で優れたパフォーマンスを発揮しました。

完全なツールスイート: フレームワーク、ツール、ハードウェアを最適化

今回、Google はモデル自体に加えて、開発者が Gemma モデルを責任を持って使用し、Gemma を使用してより安全な AI アプリケーションを構築できるようにするための一連のツールも提供します。

- Google は、JAX、PyTorch、TensorFlow 用の完全なツールチェーンを提供し、モデル推論と教師あり微調整 (SFT) をサポートし、最新の Keras 3.0 と完全に互換性があります。

- 事前に構築された Colab および Kaggle ノートブック、および Hugging Face、MaxText、NVIDIA NeMo、TensorRT-LLM などの一般的なツールとの統合により、Gemma の探索を簡単に開始できます。

- Gemma モデルは、個人のノートパソコンやワークステーションで実行することも、Google Cloud にデプロイして、Vertex AI や Google Kubernetes Engine (GKE) への簡単なデプロイをサポートすることもできます。

- Google は Gemma をプラットフォーム間で最適化し、NVIDIA GPU や Google Cloud TPU などのさまざまな AI ハードウェアで優れたパフォーマンスを発揮できるようにしました。

さらに、利用規約では、規模に関係なく、すべての組織に責任ある商用利用および配布の権利が与えられます。

しかし完全な勝利ではない

しかし、ジェマは全てのランキングでSOTAを獲得することはできませんでした。

公式レビューでは、Gemma 7B は、MMLU、HellaSwag、SIQA、CQA、ARC-e、HumanEval、MBPP、GSM8K、MATH、AGIEval で Llama 2 7B および 13B モデルに勝利しました。

対照的に、Gemma 7B は Boolq テストでは Mistral 7B と同点でした。

しかし、PIQA、ARC-c、Winogrande、BBHではミストラル7Bより劣ります。

OBQAと三価QAでは7Bと13BスケールのLlama 2 7Bに同時に敗北しました。

技術レポート

Googleは今回、Gemmaモデルの2つのバージョンをリリースした。70億パラメータのモデルはGPUやTPU上での効率的な展開や開発に使用され、20億パラメータのモデルはCPUやエンドサイドアプリケーションに用いられる。

Gemma は、質問回答、常識的推論、数学と科学、コーディングなど、18 のテキストベースのタスクのうち 11 で、同様のパラメータ サイズのオープン ソース モデルよりも優れたパフォーマンスを発揮します。

モデル アーキテクチャの面では、Gemma は Transformer に基づいていくつかの改良を加えており、複雑なタスクを処理する際に優れたパフォーマンスと効率を発揮できます。

- マルチクエリアテンションメカニズム

このうち、7B モデルはマルチヘッド アテンション メカニズムを使用し、2B モデルはマルチクエリ アテンション メカニズムを使用します。結果は、これらの特定の注意メカニズムがさまざまなモデル サイズでパフォーマンスを向上できることを示しています。

- RoPE埋め込み

従来の絶対位置埋め込みとは異なり、このモデルは各レイヤーで回転位置埋め込み技術を使用し、モデルの入力と出力間で埋め込みを共有することで、モデルのサイズを効果的に削減できます。

- GeGLU活性化関数

標準の ReLU 活性化関数を GeGLU 活性化関数に置き換えると、モデルのパフォーマンスが向上します。

- ノーマライザーの場所

各 Transformer サブレイヤーの入力と出力は正規化されます。ここでは、モデルの安定性と効率性を確保するために、正規化レイヤーとして RMSNorm が使用されます。

アーキテクチャのコアパラメータは次のとおりです。

両方のスケールのパラメータは次のとおりです。

事前トレーニング

トレーニングデータ

Gemma 2B と 7B は、Web ドキュメント、数学、コードから主に英語のデータのそれぞれ 2T トークンと 6T トークンでトレーニングされました。

Gemini とは異なり、これらのモデルはマルチモーダルではなく、多言語タスクでの SOTA 用にトレーニングされていません。

Google は互換性のために Gemini の SentencePiece トークナイザーのサブセットを使用します。

指示の微調整

チームは、教師あり微調整 (SFT) と人間によるフィードバックによる強化学習 (RLHF) を含めて、Gemma 2B および 7B モデルを微調整しました。

教師ありの微調整段階では、研究者らはプレーンテキスト、英語、人間と機械が生成した質問と回答のペアで構成されるデータセットを使用しました。

強化学習段階では、英語の嗜好データに基づいてトレーニングされた報酬モデルと、厳選された高品質のプロンプトのセットが戦略として使用されます。

研究者たちは、これら 2 つの段階が、自動評価と人間の嗜好評価の両方においてモデルのパフォーマンスを向上させるために非常に重要であることを発見しました。

監督下での微調整

研究者らは、LM ベースの並列評価に基づいて、教師あり微調整のためのデータ混合物を選択しました。

研究者は、提示された一連のプロンプトが与えられると、テスト モデルから応答を生成し、同じプロンプトに対する応答をベースライン モデルから生成し、それらをランダムにシャッフルして、より大規模で機能的なモデルに 2 つの応答のどちらかを選択するように求めます。

研究者たちは、指示に従うこと、事実に即していること、創造的であること、安全であることなど、特定の能力を強調するために、さまざまなプロンプトのセットを作成しました。

私たちは、人間の好みに合わせるために、思考連鎖プロンプト、採点基準や憲章の使用など、さまざまな手法を採用した、さまざまな LM ベースの自動審査員を使用しました。

RLHF

研究者らは、人間からのフィードバックによる強化学習(RLHF)を使用して、教師あり微調整を行ったモデルをさらに最適化しました。

彼らは人間の評価者から好みの選択肢を収集し、ジェミニ プロジェクトで行われたのと同様に、ブラッドリー テリー モデルに基づく報酬関数をトレーニングしました。

研究者らは、REINFORCE アルゴリズムの改良版を使用し、Kullback-Leibler 正則化項を追加して、この戦略が元々調整されたモデルとの一貫性を維持しながらこの報酬関数を最適化できるようにしました。

以前の教師あり微調整フェーズと同様に、ハイパーパラメータを調整し、報酬メカニズムの悪用をさらに防ぐために、研究者は高性能モデルを自動評価ツールとして使用し、それをベースラインモデルと直接比較しました。

パフォーマンス評価

自動評価

Google は、身体的および社会的推論、質問への回答、プログラミング、数学、常識的推論、言語モデル、読解力など、複数の領域で Gemma のパフォーマンスを評価しました。

Gemma2B モデルと 7B モデルは、さまざまな学術ベンチマークで複数の外部オープンソース大規模言語モデルと比較されます。

MMLU ベンチマークでは、Gemma 7B モデルは、同じサイズまたはより小さいサイズのすべてのオープン ソース モデルよりも優れているだけでなく、Llama 2 13B を含むいくつかのより大きなモデルよりも優れています。

しかし、Gemini Ultra は、ベンチマークの作成者によって評価された人間の専門家の 89.8% のパフォーマンスを上回った最初のモデルであり、Gemma には Gemini と人間レベルのパフォーマンスの両方を向上させる余地が大いにあることを示しています。

さらに、Gemma モデルは数学とプログラミングのベンチマークで特に優れたパフォーマンスを発揮しました。

モデルの分析能力を評価するために一般的に使用される数学的タスクでは、Gemma モデルは GSM8K とより難しい MATH ベンチマークの両方で他のモデルを少なくとも 10 ポイント上回っています。

同様に、HumanEval でも、他のオープンソース モデルを少なくとも 6 ポイント上回っています。

Gemma は、MBPP でのコード微調整に特化した CodeLLaMA 7B モデルのパフォーマンスを上回ります (CodeLLaMA のスコアは 41.4% ですが、Gemma 7B のスコアは 44.4%)。

記憶力評価

最近の研究では、慎重に調整された AI モデルであっても、既存の調整手段を回避できる新しいタイプの敵対的攻撃に対して脆弱である可能性があることが判明しました。

このような打撃により、モデルが不規則に動作し、トレーニング中に記憶したデータを繰り返し出力してしまう可能性もあります。

そのため、研究者らは、モデルの記憶能力を評価するための上限と考えられ、多くの研究で共通の定義として使用されているモデルの「検出可能な記憶」能力の研究に焦点を当てました。

研究者らは、Gemma の事前トレーニング済みモデルで記憶テストを実施しました。

具体的には、各データセットから 10,000 件のドキュメントをランダムに選択し、ドキュメントの最初の 50 個のトークンをモデルのプロンプトとして使用しました。

テストの焦点は正確な記憶です。つまり、モデルが入力に基づいて、元のテキストと完全に一致する次の 50 個のトークンを正確に生成できる場合、モデルはテキストを「記憶」したとみなされます。

さらに、モデルが書き換えられた形式で情報を記憶できるかどうかを検出するために、研究者らは、生成されたテキストと元のテキストの間の編集ギャップを最大 10% まで許容するモデルの「近似記憶」能力もテストしました。

図 2 では、Gemma のテスト結果を、同様のサイズの PaLM モデルおよび PaLM 2 モデルと比較しています。

Gemma の記憶率は著しく低いことがわかります (図 2 の左側を参照)。

しかし、事前学習データセット全体の「総記憶量」を推定することで、より正確な評価結果を得ることができます(図2の右側を参照)。Gemmaの学習データの記憶性能は、PaLMに匹敵します。

個人情報を記憶するという問題は特に重大です。図 3 に示すように、研究者は記憶された機密情報を発見しませんでした。

「個人情報」に分類されるデータの一部が記憶されていたことが判明したが、その頻度は比較的低かった。

また、これらのツールは多くの誤検知を生成する傾向があり(文脈を考慮せずに単にパターンを一致させるため)、研究者が発見する個人情報の量が過大評価される可能性があります。

要約と議論

一般的に、Gemma モデルは、対話、論理的推論、数学、コード生成など、多くの分野で改善されています。

MMLU (64.3%) と MBPP (44.4%) のテストでは、Gemma は優れたパフォーマンスを示しただけでなく、オープンソースの大規模言語モデルのパフォーマンスにさらなる改善の余地があることも示しました。

Google は、標準的なテスト タスクで高度なパフォーマンスを達成することに加えて、コミュニティと協力してこの分野での開発を推進していくことを楽しみにしています。

ジェマは、コーディング、データ処理、アーキテクチャ設計、命令の最適化、人間のフィードバックに基づく強化学習、評価方法など、ジェミニ モデル プログラムから多くのことを学びました。

同時に、Google は大規模言語モデルを使用する際の一連の制限を改めて強調しました。

標準的なテストタスクでは優れたパフォーマンスを発揮しますが、情報の正確さの確保、モデルのターゲットの調整、複雑な論理的推論の処理、悪意のある入力に対するモデルの耐性の強化など、目的のタスクを確実に実行できる、安定性とセキュリティを兼ね備えたモデルを作成するには、さらなる研究が必要です。

チームは、ジェミニが指摘したように、より挑戦的で堅牢なテストベンチマークが必要であると述べた。

チームメンバー

コア貢献者:

その他の貢献者:

製品マネージャー、プロジェクト マネージャー、エグゼクティブ スポンサー、オーナー、テクニカル リーダー:

<<:  人工知能が不動産業界にもたらす変化

>>: 

ブログ    

推薦する

瞳に秘められた市場、虹彩認証は100億のブルーオーシャンを歓迎します!

[[442794]]人工知能の人気が高まるにつれ、生体認証技術が大きな注目を集めています。特に20...

AIがモノのインターネットをどう変えるのか

AI は、ネットワークとデバイスが過去の決定から学習し、将来のアクティビティを予測し、パフォーマン...

反復コラボレーション法に基づく顔の超解像

2020CVPR 受理論文「Deep Face Super-Resolution with Iter...

大量ユーザーポイントのランキングアルゴリズムに関する議論

質問多数のユーザーがいるウェブサイトでは、ユーザーにポイントがあり、使用中にいつでも更新される可能性...

Dianping.com における検索関連性技術の探求と実践

著者: Xiaoya、Shen Yuan、Judy など1. 背景レビュー検索は、Dianping ...

AIとローコード/ノーコードのすべきこと、すべきでないこと

ローコードとノーコードは、新しいアプリケーションやサービスを簡単に作成できるようにして、プログラマー...

宇宙全体が巨大なニューラルネットワークなのだろうか?科学者はこう説明する

[[385301]]核となる考え方は、次のように簡単にまとめることができます。ニューラル ネットワー...

ビッグデータマイニング機械学習人工知能ベン図戦争

半期会議がもうすぐ開かれますが、上司はみんなでしっかり計画を立てるように言いました。私たちの将来の方...

...

...

...

顔認識ブームは沈静化すべきでしょうか?

北京地下鉄は昨年11月から、セキュリティチェックに顔認識技術を使用する試験運用を開始し、ブラックリス...

マイクロソフト、AIを活用してがんの放射線治療時間を短縮:スキャン速度が2.5倍に向上、精度は90%に

6月28日、BBCによると、英国はNHS(国民保健サービス)の全トラストに新しい人工知能技術を原価で...

リチウム電池の防爆結果がネイチャー誌の表紙に登場、UCLAの中国チームが制作

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

6つの主要なディープラーニングフレームワークの詳細な説明

1. テアノ Theano は、カナダのケベック州モントリオール大学の LISA グループ (現在は...