Google の復讐キラー Gemini が深夜に突然オンラインになりました! Googleは、1年間にわたりChatGPTに抑圧された後、12月のこの日に最強の反撃を開始することを選択しました。 Google のこれまでで最大かつ最も強力なビッグモデルであるマルチモーダル Gemini は、テキスト、ビデオ、音声などの複数の分野で GPT-4 を上回り、これまでの恥辱を完全に埋め合わせました。 人間には五感があり、私たちが構築する世界や消費するメディアはこのように表現されます。 Gemini の出現は、真に普遍的な AI モデルへの第一歩です。 Gemini の誕生は AI モデルにとって大きな飛躍を意味し、Google のすべての製品はそれに応じて変革されるでしょう。 検索エンジン、広告製品、マルチモーダル モデルが満載の Chrome ブラウザ... これが Google が私たちに与えてくれる未来です。 壮大なマルチモーダルイノベーションこれまで、大規模なマルチモーダル モデルは、OpenAI の GPT-4、DALL·E、Whisper などの純粋なテキスト、純粋なビジョン、純粋なオーディオ モデルを単純につなぎ合わせたものでした。しかし、これは最適な解決策ではありません。 対照的に、マルチモーダル性は当初から Gemini の設計の一部でした。 最初から、ジェミニはさまざまな方法で訓練されていました。その後、研究者らは追加のマルチモーダルデータを使用してモデルを微調整し、その有効性をさらに向上させました。最終的には、さまざまなモダリティでの入力コンテンツの「シームレスな」理解と推論を実現します。 結果から判断すると、Gemini のパフォーマンスは既存のマルチモーダル モデルよりもはるかに優れており、その機能はほぼすべての分野で SOTA レベルにあります。 この最大かつ最も高性能なモデルは、Gemini が人間と同じように周囲の世界を理解し、テキスト、コード、音声、画像、ビデオなど、あらゆるタイプの入出力を吸収できることも意味します。 ジェミニは、紙のボールが左端のカップの中に入っていることを正しく推測しました。 Google DeepMindのCEO兼共同創設者であるデミス・ハサビス氏は、Googleは常に非常に一般的なシステムに興味を持っていたと語った。 ここで重要なのは、これらすべてのモードをどのように組み合わせるか、さまざまな入力と感覚からできるだけ多くのデータを収集し、同じように多様な応答を返すかということです。 DeepMind と Google Brain が合併した後、彼らは本当に何か本物のものを思いつきました。 ジェミニと名付けられた理由は、Google の 2 つの主要な AI 研究所を組み合わせたものだからです。また、アポロ月面着陸計画への道を開いた NASA のジェミニ プロジェクトに由来するという説もあります。 初めて人間を超え、GPT-4を大幅に打ち負かした公式には発表されていないが、内部情報によると、Gemini には数兆個のパラメータがあり、トレーニングに使用される計算能力は GPT-4 の 5 倍にもなるという。 GPT-4 と競合するモデルであるため、Gemini は最も厳しいテストを受ける必要があります。 Google は、さまざまなタスクで 2 つのモデルのパフォーマンスを評価し、自然な画像、音声、ビデオの理解から数学的推論まで、一般的に使用されている 32 の学術ベンチマークのうち 30 で Gemini Ultra が GPT-4 を上回ったことを知り、うれしい驚きを感じました。 MMLU(大規模マルチタスク言語理解)テストでは、Gemini Ultra が 90.0% という高得点を獲得し、初めて人間の専門家を上回りました。 ジェミニは、MMLU(大規模マルチタスク言語理解)において人間の専門家を上回る初のモデルです。 MMLUテストは、数学、物理学、歴史、法律、医学、倫理など57科目をカバーし、世界に関する知識と問題解決能力をテストするように設計されています。 50 を超えるさまざまな分野のそれぞれにおいて、Gemini は各分野の最高の専門家と同等の能力を備えています。 Google の MMLU の新しいベンチマークにより、Gemini は複雑な質問に答える前に、より慎重に推論を実行できるようになりました。これは、直感的な反応だけに頼る場合に比べて大幅に改善されています。 Gemini Ultra は、深い推論を必要とするさまざまなドメインにまたがるマルチモーダル タスクを含む新しい MMMU ベンチマークでも 59.4% という高いスコアを達成しました。 Gemini Ultra は、画像ベンチマーク テストでも以前の主要モデルを上回るパフォーマンスを発揮し、この成果は OCR システムの助けを借りずに達成されました。 さまざまなテストにより、Gemini はマルチモーダル処理能力に優れ、より複雑な推論を行う大きな可能性を秘めていることが示されました。 詳細については、Gemini の技術レポートを参照してください。 レポートアドレス: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf ミディアム、ラージ、エクストララージ!Gemini Ultra は、Google がこれまでに作成した中で最も強力な LLM であり、非常に複雑なタスクを実行でき、主にデータ センターおよびエンタープライズ レベルのアプリケーションを対象としています。 Gemini Pro は、幅広いタスクに対応する最高性能のモデルです。これは Google の多くの AI サービスに利用され、本日から Bard の基盤となる予定です。 Gemini Nano は、Android デバイス上でローカルおよびオフラインで実行できるデバイス上のタスクに最適なモデルであり、Pixel 8 Pro ユーザーはすぐにそれを体験できます。このうち、Nano-1 のパラメータは 1.8B、Nano-2 のパラメータは 3.25B です。 Gemini の最も基本的なモデルはテキスト入力とテキスト出力が可能ですが、Gemini Ultra などのより強力なモデルでは画像、ビデオ、オーディオを同時に処理できます。 それだけでなく、ジェミニは移動やタッチを学習して、よりロボットらしくなります。 その後、双子座はより多くの感覚を獲得し、より気づき、より正確になります。 幻覚は依然として避けられない問題ですが、モデルがより多くのことを知るほど、パフォーマンスは向上します。 テキスト、画像、音声の正確な理解Gemini 1.0 は、テキスト、画像、音声など、さまざまな形式の入力コンテンツを同時に認識して理解するようにトレーニングされているため、微妙な情報をより適切に理解し、複雑なトピックに関連するさまざまな質問に答えることができます。 たとえば、ユーザーは最初に英語以外の音声クリップをアップロードし、次に英語の音声クリップを録音して質問します。 オーディオ要約の一般的な設計では、テキスト入力プロンプトが使用されることを知っておく必要があります。一方、Gemini は、異なる言語の 2 つのオーディオ クリップを同時に処理し、必要な要約コンテンツを正確に出力できます。 、再生時間 00:38 さらにすごいのは、オムレツを作りたいとき、Gemini に音声で頼むだけでなく、手元にある材料の写真を撮って送信することもできることです。 次に、Gemini は音声で送信された要件と写真の材料を組み合わせて、オムレツの作り方を段階的に教えてくれます。 各ステップが完了した後に写真を撮ることもできます。また、Gemini は実際の進捗状況に基づいて次に何をすべきかをガイドし続けます。 手がんに苦しむ人や料理ができない人も救われる! さらに、この能力により、双子座は数学や物理学などの複雑な科目における推論問題を説明するのが特に得意になります。 たとえば、子どもの宿題を手伝うときに手間を省きたい場合、親はどうすればいいでしょうか? 答えは簡単です。写真を撮るだけで、ジェミニの推論能力は数学や物理学などさまざまな科学の問題を解決するのに十分です。 いずれの手順についても、Gemini に詳しい説明を依頼できます。 エラーの理解を深めるために、Gemini でエラーの種類に似た質問を出力することもできます。 複雑な推論も簡単に扱えるさらに、Gemini 1.0 には、複雑な文字情報や視覚情報をよりよく理解できるマルチモーダル推論機能が備わっています。これにより、膨大な量のデータに埋もれ、判別が困難な知識を発見する際に優れたパフォーマンスを発揮します。 Gemini 1.0 は、情報を読み取り、フィルタリングし、理解することで、何千もの文書から独自の洞察を抽出し、科学から金融まで多くの分野で新たなブレークスルーを促進することもできます。 AlphaCode 2: コーディング能力が人間のプレイヤーの 85% を超えるもちろん、ベンチマークは結局のところ単なるテストであり、Gemini の本当のテストは、それを使用してコードを記述したいユーザーです。 コードを書くことは、Google が Gemini のために作成したキラー機能です。 Gemini 1.0 モデルは、Python、Java、C++、Go など、世界で最も主流のプログラミング言語で高品質のコードを理解、解釈、生成できるだけではありません。同時に、複数の言語で動作し、複雑な情報について推論することができます。 この観点から見ると、Gemini は間違いなく世界をリードするプログラミング インフラストラクチャ モデルの 1 つになるでしょう。 2年前、GoogleはAlphaCodeという製品をリリースしました。これはプログラミングコンテストで競争力のあるレベルに達した最初のAIコード生成システムでもありました。 Google は、Gemini のカスタマイズされたバージョンに基づいて、より高度なコード生成システムである AlphaCode 2 をリリースしました。 AlphaCode 2 は、プログラミングだけでなく複雑な数学やコンピューター サイエンスの理論も関係する問題に直面したときに優れたパフォーマンスを発揮します。 Google の開発者は、第 1 世代の AlphaCode と同じテスト プラットフォームで AlphaCode 2 もテストしました。 結果によると、新しいモデルは大幅な改善を示し、以前の AlphaCode のほぼ 2 倍の問題を解決しました。 その中で、AlphaCode 2 プログラミングのパフォーマンスは人間のプログラマーの 85% を超えましたが、対照的に、AlphaCode はプログラマーの約 50% しか超えませんでした。 さらに、人間のプログラマーが AlphaCode 2 と共同作業する場合、コード サンプルに特定の要件を設定することで、AlphaCode 2 のパフォーマンスがさらに向上します。 AlphaCode 2 は、競技プログラミング用に特別に設計された高度な検索および再ランキング メカニズムと組み合わせた強力な LLM で動作します。 下の図に示すように、新しいモデルは主に次の部分で構成されています。 - 各問題に対してそれぞれのコードサンプルを生成する複数の戦略モデル。 - 可能なプログラムソリューションを検索するために多様なコードサンプルを生成できるサンプリングメカニズム。 - 問題の説明に一致しないコードサンプルを削除するフィルタリング メカニズム。 - 意味的に類似したコードサンプルをグループ化して重複を減らすクラスタリング アルゴリズム。 - 10 個のコード サンプル クラスターから最適なソリューションを選択するスコアリング モデル。 詳細については、Alpha Code 2 の技術レポートを参照してください。 レポートアドレス: https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf 信頼性、効率性、拡張性の向上Google にとって同様に重要なのは、Gemini が明らかにより効率的で信頼性が高く、拡張性の高いモデルであるということです。 これは Google 独自の Tensor Processing Units でトレーニングされており、PaLM などの Google の以前のモデルよりも高速かつ安価に実行できます。 開発者は、Google の社内 Tensor Processing Units (TPU) v4 および v5e を使用して、AI に最適化されたインフラストラクチャ上で Gemini 1.0 を大規模にトレーニングしました。 信頼性が高くスケーラブルなトレーニング モデルと最も効率的なサービス モデルは、Google が Gemini を作成する上で重要な目標です。 TPU では、Gemini は以前の小型で低性能のモデルよりも大幅に高速に動作します。これらのカスタム設計された AI アクセラレータは、Google の大規模モデル製品の中核をなしています。 これらの製品は、検索、YouTube、Gmail、Google マップ、Google Play、Android など、数十億人のユーザーにサービスを提供していることを覚えておいてください。また、世界中のテクノロジー企業が大規模なモデルを経済的かつ効率的にトレーニングするのにも役立ちます。 Google は本日、Gemini に加えて、これまでで最も強力で効率的かつスケーラブルな TPU システムである Cloud TPU v5p もリリースしました。これは最先端の AI モデルのトレーニング用に特別に設計されています。 新世代の TPU により Gemini の開発が加速し、開発者や企業顧客が大規模な生成 AI モデルをより迅速にトレーニングし、新しい製品や機能を開発できるようになります。 ジェミニ、Google を再び偉大なものにする?明らかに、ピチャイ氏とハサビス氏の見解では、ジェミニの打ち上げは始まりに過ぎず、はるかに大きなプロジェクトが始まろうとしている。 Gemini は Google が待ち望んでいたモデルであり、OpenAI と ChatGPT が世界を席巻した後の 1 年間の探求の成果です。 Google は Red Alert を発令して以来、遅れを取り戻そうと努力しているが、両社とも、特に AGI が近づくにつれて、追いつくためにあまり急ぐのは気が進まないと述べている。 ジェミニは世界を変えるでしょうか?せいぜい、これは生成 AI 競争で Google が OpenAI に追いつくのに役立つかもしれない。 しかし、ピチャイ氏、ハサビス氏らは、これがグーグルの真の偉大さの始まりだと考えているようだ。 本日公開された技術レポートでは、アーキテクチャの詳細、モデル パラメータ、トレーニング データセットは明らかにされていません。 アレン人工知能研究所の元CEO、オーレン・エツィオーニ氏は、「これらのベンチマークでジェミニがGPT-4より優れていることに疑う余地はないが、GPT-5はジェミニより優れているかもしれない」と語った。 ジェミニのような大規模なモデルを構築するには数億ドルの費用がかかるかもしれないが、クラウドを介した AI の提供で優位に立っている企業にとっては、最終的な見返りは数十億ドル、あるいは数兆ドルにもなる可能性がある。 「これは負けられない戦争であり、勝たなければならない戦争だ。」 |
<<: スループットが約30倍に増加しました。田元東チームの最新論文は、大規模モデル展開の問題を解決している
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
編集者注:この記事はWeChatパブリックアカウント「脑极体」(ID:unity007)からのもので...
[[206874]]昨日、中国共産党第19回全国代表大会が開幕した。 AIの重要なポイントを強調して...
[[441326]]リンクリストの交差LeetCode の問題へのリンク: https://leet...
エッジに AI を導入すると、強力なリアルタイム分析と処理を実現できる可能性があります。使用例には、...
[[443279]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...
地球科学は、岩石、鉱物、土地の特性を研究するだけでなく、地球の気候、海洋、大気、生態系などの現象と原...
市場調査会社MarketsandMarketsによると、世界のエッジ人工知能(エッジAI)ソフトウェ...
8月28日、国家エネルギー音声の公式WeChatアカウントによると、龍源電力工程技術有限公司は最近、...