人間を超えた最初の専門家！ OpenAIが混乱に陥る中、Googleのマルチモーダル大規模モデルGeminiがそれを打ち負かす

OpenAIが混乱に陥っている間、Googleは「全員を殺す」準備をしている。

ちょうど昨夜、GoogleとAlphabetのCEOであるサンダール氏は、Geminiの発売を発表し、これを「当社最大かつ最も有能なAIモデル」と呼び、皆に衝撃を与えた。

Gemini のキーワードは「マルチモーダル」であり、Google は第 1 世代の Gemini 1.0 を 3 つの異なるサイズに最適化しました。Gemini Ultra (非常に複雑なタスク向けの最大かつ最も強力なモデル)、Gemini Pro (さまざまなタスクに最適なモデル)、Gemini Nano (エッジデバイスで最も効率的なモデル) です。

サンダー氏は、ジェミニはこれまでで最も柔軟性の高いモデルであり、データセンターからモバイルデバイスまで、あらゆるデバイスで効率的に実行できると述べ、業界を称賛しました。

彼は、Gemini の魅力的な点の 1 つは、最初からネイティブにマルチモーダルなモデルであることだ、と説明しました。人間と同じように、テキストだけでなく、ビデオ、オーディオ、コードからも学習します。したがって、このモデルは本質的により高性能であり、新しい機能を引き出すのに役立つと思います。これは非常にエキサイティングです。

つまり、OpenAI を恐れているということです。

ジェミニの最も強力なパフォーマンスはどこから来るのでしょうか?

Google DeepMind の CEO 兼共同創設者によると、Gemini はこれまでで最も強力で汎用的なモデルであり、多くの主要なベンチマークで最先端のパフォーマンスを発揮します。最初のバージョンである Gemini 1.0 は、Ultra、Pro、Nano のさまざまなサイズに最適化されています。これらはジェミニ時代に入った最初のモデルであり、今年初めに Google DeepMind を設立したときに私たちが抱いていたビジョンを初めて実現したものです。

彼はまた、ジェミニが世界中の人々にもたらすであろう将来と機会に心から興奮しています。具体的には、Gemini は Google Research を含む Google チーム間の広範なコラボレーションの成果です。これは、マルチモーダルになるようにゼロから作成されたため、テキスト、コード、オーディオ、画像、ビデオなど、さまざまな種類の情報を一般化し、流暢に理解、操作、および組み合わせることができます。

パフォーマンスの面では、Google は、自然な画像、音声、ビデオの理解から数学的推論まで、Gemini モデルを厳密にテストしました。大規模言語モデル (LLM) の研究開発で広く使用されている 32 の学術ベンチマークのうち、Gemini Ultra のパフォーマンスは 30 で現在の最先端レベルを上回っています。

(キャプション: ジェミニのパフォーマンスは、さまざまなマルチモーダルベンチマークにおいて現在の最先端技術を上回っています。)

一方、ジェミニウルトラは90.0%のスコアを獲得し、数学、物理学、歴史、法律、医学、倫理など57の科目を使って世界知識と問題解決能力をテストするMMLU（大規模マルチタスク言語理解）テストで人間の専門家を上回った最初のモデルとなった。

MMLU にとって、Google の新しいベンチマーク方法により、Gemini は推論能力を活用して難しい質問に答える前により慎重に考えることができるようになり、第一印象に基づいて直接質問に答える場合に比べて大幅に改善されました。

Gemini Ultra は、さまざまなドメインにまたがり、慎重な推論を必要とするマルチモーダルタスクで構成される新しい MMMU ベンチマークでも 59.4% のスコアを達成しました。

Google の画像ベンチマークでは、Gemini Ultra は、画像からテキストを抽出してさらに処理するためのオブジェクト文字認識 (OCR) システムを使用せずに、以前の最高モデルを上回りました。

AIアプリケーションの爆発的増加の前夜は本当に到来したのでしょうか?

一般的な大型モデルに特徴的なウィンドウダイアログとは異なり、マルチモーダルな大型モデルこそが未来であるということが業界のコンセンサスとなっています。

推論の面では、Gemini 1.0 は複雑な文章や視覚情報を理解するのに役立つ高度なマルチモーダル推論機能を備えています。これにより、膨大な量のデータの中から判別が難しい知識コンテンツを発見できる独自の能力が得られます。情報を読み取り、フィルタリングし、理解することで数十万の文書から洞察を引き出すという並外れた能力は、科学から金融までさまざまな分野でデジタル化のスピードで新たなブレークスルーを達成するのに役立ちます。

同時に、Gemini 1.0 はテキスト、画像、音声などを同時に認識して理解するようにトレーニングされているため、微妙な情報をより適切に理解し、複雑なトピックに関する質問に答えることができます。これにより、数学や物理学などの複雑な科目における推論を説明するのに特に適しています。

高度なエンコード機能に関しては、Gemini はより高度なエンコードシステムのエンジンとしても使用できます。 2年前、Googleはプログラミングコンテストで競争力のあるパフォーマンスを達成した初のAIコード生成システムであるAlphaCodeを披露しました。現在、Google は Gemini の特殊バージョンを使用して、コーディングスキルだけでなく複雑な数学や理論コンピューターサイエンスの知識も必要な競技プログラミングの問題を解くのに優れた、さらに高度なコード生成システムである AlphaCode 2 を開発しました。

さらに重要なことに、Google は最先端の AI モデルのトレーニングをサポートするように設計された、これまでで最も強力で効率的かつスケーラブルな TPU システムである Cloud TPU v5p もリリースしました。次世代 TPU は Gemini の開発を加速し、開発者や企業顧客が大規模な生成 AI モデルをより迅速にトレーニングできるようにし、新しい製品や機能をより早くリリースできるようにします。

これにより、Gemini の信頼性、拡張性、効率性が向上します。

セキュリティが核心、「ジェミニを世界に普及させよう」

Google では、あらゆる業務において、大胆かつ責任ある方法で AI を進歩させることに取り組んでいると報告されています。 Googleは、開発のあらゆる段階で潜在的なリスクを考慮し、リスクをテストして軽減するために懸命に取り組んでいると述べた。

特に Gemini レベルでは、バイアスや毒性の評価を含め、これまでのすべての Google AI モデルの中で最も包括的な安全性評価が Gemini には備わっていると理解されています。「私たちは、サイバー攻撃、説得、自律性などの潜在的なリスク領域で革新的な研究を実施し、Google Research のクラス最高の敵対的テスト手法を適用して、Gemini を展開する前に重大なセキュリティ問題を検出しました。」

被害を軽減するために、Google は暴力や否定的な固定観念を含むコンテンツを識別、ラベル付け、フィルタリングするための特殊な安全性分類システムを構築しました。強力なフィルターと組み合わせたこの階層化アプローチは、Gemini をすべての人にとってより安全で包括的なものにするように設計されています。さらに、Google は、事実性、根拠、帰属、コラボレーションなど、モデルが直面している既知の課題に取り組み続けています。

Google は、Google 製品を通じて、安全な基盤のもとで何十億もの人々に Gemini を提供することに尽力しています。

まず、バードは今日から、より高度な推論、計画、理解などのために、Gemini Pro の微調整バージョンを使用します。これは、Bard の発売以来最大のアップグレードです。英語版は 170 以上の国と地域で利用可能となり、今後数か月以内にさまざまな形式で拡大し、新しい言語と地域をサポートする予定です。

第二に、Google は Pixel でも Gemini を使用します。 Pixel 8 Proは、録音アプリの「要約」などの新機能を強化し、Gboardの「スマート返信」を展開するGemini Nanoを搭載した初のスマートフォンで、WhatsAppを皮切りに、来年にはさらに多くのメッセージングアプリに導入される予定だ。

最後に、今後数か月以内に、Gemini は検索、広告、Chrome、Duet AI など、さらに多くの製品やサービスに適用される予定です。 Google は、ユーザーに高速な検索生成エクスペリエンス (SGE) を提供する Gemini in Search の実験を開始しました。これにより、米国での英語検索の待ち時間が 40% 短縮され、品質が向上します。

開発者に関しては、12 月 13 日から、開発者と企業顧客は、Google AI Studio または Google Cloud Vertex AI の Gemini API を通じて Gemini Pro を入手できます。

これは AI 開発における重要なマイルストーンであることは間違いありません。また、Google が大規模モデルに関してこれ以上負けを認めない姿勢を示していることも示しています。

彼らの目標も非常に明確です。「世界中の何十億もの人々の生活と仕事の仕方を変えること」待って見てみましょう。

<<: あなたの声は私のパスです

>>: Appleが自社チップ用のオープンソースフレームワークMLXを開発、Llama 7Bを実装しM2 Ultraで動作