Googleが小規模でGeminiのテストを開始したと報道:GPT-4のトレーニングよりも5倍強力で、マルチモーダル機能が大幅に向上

Googleが小規模でGeminiのテストを開始したと報道:GPT-4のトレーニングよりも5倍強力で、マルチモーダル機能が大幅に向上

今年5月のGoogle I/Oカンファレンスで、ピチャイ氏はGPT-4と競合する大規模モデルであるPaLM 2を発表したが、同時にGoogleの研究の焦点がマルチモーダルで効率的な機械学習ツールであるGeminiに移行していることにも言及した。

Gemini の開発を加速するため、Google は今年 4 月に社内の 2 つの人工知能研究所である Google Brain と DeepMind を統合しました。Gemini の共同プロジェクトは、2 つの研究所の研究者チームが主導しています。

今後数か月で、Gemini の謎は徐々に明らかになってきました。このモデルは Google Brain と DeepMind の合併後に開発され、GPT-4 のように数兆個のパラメータを持つことが大まかにわかっています。Gemini はトレーニング中に、以前のモデルでは見られなかったマルチモーダル機能を実証しました。微調整と厳格なセキュリティ テストを経た後、Google はさまざまな製品、アプリケーション、デバイスへの展開を確実にするために、さまざまなサイズと機能の Gemini バージョンも提供します。

最新のニュースとしては、Google が少数の企業に Gemini ソフトウェアの初期バージョンの使用を許可したということだ。これは、Google がこれを消費者向けサービスに組み込み、同社のクラウド コンピューティング サービスを通じて企業に販売しようとしていることを意味する。

GPT-4を超えることはできるでしょうか?

最近、SemiAnalysisのアナリストであるDylan Patel氏とDaniel Nishball氏が、Geminiに関するさらなる情報を公開しました。その中で、Dylan Patel氏は今年7月11日にGPT-4のアーキテクチャを公開しました。

Dylan Patel 氏と Daniel Nishball 氏は、Gemini の第一世代は TPUv4 でトレーニングされるはずだったこと、そしてこれらのポッドは最大数のチップ (4096 個) を統合せず、チップの信頼性とホットスワップを確保するためにより少数のチップを使用したことを明らかにしました。 14 個のポッドすべてを適切なマスク フィールド使用率 (MFU) で約 100 日間使用した場合、Gemini のトレーニングに必要なハードウェア FLOPS は 1e26 を超えます。

しかし、Gemini は最大 1e26 FLOPS の計算能力を備えた新しい TPUv5 Pod でのトレーニングを開始しました。これは GPT-4 のトレーニングよりも 5 倍の計算能力です。

また、GeminiのトレーニングデータベースはYoutube上の93.6億分の動画字幕で、データセット全体のサイズはGPT-4の約2倍になります。

Gemini は大規模な言語モデルのグループで構成されており、MOE アーキテクチャと投機的サンプリング技術を使用して、事前に小規模モデルを通じてトークンを生成し、それを大規模モデルに転送して評価することで、モデルの全体的な推論速度を向上させることができます。

機能面では、Gemini は、チャットボットからテキストの要約、ユーザーが読みたい内容の説明に基づいた生のテキスト (電子メールの下書き、歌詞、ニュース記事など) の生成まで、あらゆるものをサポートしています。さらに、Gemini はソフトウェア エンジニアがユーザーの要件に応じてコードを記述し、オリジナルの画像を生成するのに役立ちます。

以前 The Information が報じたように、Google は Gemini によってソフトウェア開発者のコ​​ード生成機能が大幅に向上し、Microsoft の GitHub Copilot コード アシスタントに追いつくことを期待している。

Google の従業員は、Gemini を使用してチャート分析などの機能を実行したり、完成したチャートの意味をモデルに説明させたり、テキストまたは音声コマンドを使用して Web ブラウザやその他のソフトウェアを操作したりすることも検討しました。

GPT-4 をテストしたある人物は、少なくとも 1 つの点で Gemini は GPT-4 より優れていると述べています。つまり、Web 上の公開情報に加えて、Gemini は Google が消費者向け製品から取得した膨大な独自データも活用しているということです。したがって、モデルは特定のクエリに対するユーザーの意図を理解するのに特に正確であるはずであり、誤った回答(つまり、幻覚)を生成することが少なくなるようです。

Google Cloudが追いつくチャンス

Google は、今年初めに OpenAI が GPT-4 へのアクセスの販売を開始して以来、ここ数カ月間、既存の商用モデルをより多くの開発者に積極的に提供してきました。

今年 5 月、Google は Vertex AI を通じて Google Cloud の顧客に PaLM 2 を提供すると発表しました。事情に詳しい別の人物によると、グーグルは自社の「Google Cloud Vertex AI」サービスを通じて企業にさまざまな規模のジェミニを提供する計画で、開発者は単純なタスクを処理するためのあまり複雑でないバージョンか、個人のデバイスで実行できるほど小さいバージョンを有料で購入できるという。

同関係者は、Googleは現在、開発者に比較的大きなGeminiバージョンの使用を許可しているが、GPT-4に近い開発中の最大バージョンは許可していないと付け加えた。

Gemini のリリースは Google にとって大きな出来事です。 Google は、このソフトウェアがクラウド サーバー レンタル事業を促進するだけでなく、Bard チャットボットから Workspace ソフトウェアまでの新機能をサポートすることを期待して、OpenAI に対抗する武器としてこのソフトウェアの開発に多大なコンピューティング リソースと人材を費やしてきました。

The Information の報道によると、OpenAI や、企業の人工知能の開発と利用を支援する Databricks などのソフトウェア企業も、会話型 AI から大きな収益を生み出すと予測しているという。しかし、オープンソースの大規模モデルの台頭により、Google と OpenAI が独自のモデルへのアクセスを販売することで得ている注目度が下がる可能性がある。

ある日、あなたが目を覚ますと、Gemini が正式にリリースされ、その謎が完全に明かされるかもしれません。

Google は Gemini で流れを変えることができるか?ただ辛抱するしかない。

<<:  3nmなのに歯磨き粉を絞ってるだけ? A17 Proの実行スコアが公開:CPUマルチコアはわずか3.6%向上

>>:  放射線科学における LLM の潜在的な応用は何ですか?数十の研究機関が共同で31の大型モデルをテスト

ブログ    
ブログ    
ブログ    

推薦する

AIをベースとしたイベントインテリジェント分析システム構築の実践

1. 背景現在、仮想化やクラウドコンピューティングなどの新技術の普及により、企業のデータセンター内の...

漫画は爆発的な効果でAIに変身し、サーバーが何度も圧倒された

[[436077]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

AIとIoTでモダンな職場を構築する方法

ビジネスリーダーは、従業員の生産性、パフォーマンス、安全性を向上させるために、人工知能 (AI) と...

AWS 上でディープラーニングホストを構築する (Windows 版)

この記事では、Amazon EC2 P2 インスタンスをレンタルして使用する方法について簡単に説明し...

宜蘭グループインテリジェンスが再び認められ、認知インテリジェンスの飛躍的発展を促進

【原文は51CTO.comより】このほど、工業情報化部中国電子情報産業発展研究所が指導し、51CTO...

人工知能とデータ分析の新たなトレンド

明らかに、AI とデータ分析の世界はダイナミックな変化の真っ只中にあります。将来は、イノベーションと...

人工知能産業の急速な発展の背後にある4つの大きな無駄

[[258526]]過去7年間、中国のプライベートエクイティ投資市場における人工知能分野への投資額は...

ビッグデータの機械理解の秘密:クラスタリングアルゴリズムの詳細な説明

この記事では、いくつかのクラスタリング アルゴリズムの基本的な概要を示し、シンプルでありながら詳細な...

ヴィンセントの3Dモデルが大躍進しました! MVDreamは、超リアルな3Dモデルを一文で生成します

すごいですね!数語を入力するだけで、美しく高品質な 3D モデルを作成できるようになりました。ちょう...

...

...

ディープラーニングにおける多体問題の解決方法

「多体問題」(N 体問題とも呼ばれる)は単純に見えますが、実際には今日の数学で解決するのが非常に難し...

厦門大学、インテル、DJI による共同プロジェクトで、オンライン動画からゼロショット画像マッチングの大規模モデルを学習

画像マッチングは、2 つの画像間のピクセルの対応を推定することを目的とした、コンピューター ビジョン...

自動プログラミングNLPモデル技術のレビュー

Copilot、Codex、AlphaCode: プログラミングを自動化するコンピュータ プログラム...