GPT-4 のキラー Google Gemini が登場します! 26人のR&Dボスのリストが公開され、MidjourneyのようなRAW画像機能を提供する

Google の新しいキラー兵器、Gemini が世界に登場します!

GeminiはGPT-4のようにテキスト会話ができるだけでなく、MidjourneyやStable Diffusionの機能を統合し、画像も生成できると噂されています。

OpenAIに対抗するため、GoogleのCEOピチャイ氏は今年4月に異例の措置を取り、文化もコードも全く異なるチームであるGoogle BrainとDeepMindを合併した。

現在、何百人ものエンジニアを集めたGoogleのアベンジャーズは、OpenAIのGPT-4を狙い撃ちし、一挙にAI分野のトップの座を取り戻すべく、昼夜を問わず待機して作業に取り組んでいる。

Googleの創設者セルゲイ・ブリン氏も現場に戻り、ジェミニの訓練を自ら監督した。

Geminiは今秋にリリースされる予定で、Googleのテストも間もなく行われる。

アベンジャーズの名簿が発表された

ジェミニに賭けてGPT-4の最強キラーを作ろう

関係者によると、Gemini は LLM のテキスト機能と Vincent グラフの機能を組み合わせたものだそうです。

つまり、GPT-4 と Midjourney/Stable Diffusion の組み合わせに相当します。

ジェミニがこれほど強力な描画能力を持っていることが外部の人々に知られるのは今回が初めてです。

さらに、分析チャートを提供したり、テキスト説明付きのグラフィックを作成したり、テキストまたは音声コマンドを使用してソフトウェアを制御したりすることもできます。

6月末には、Google DeepMindのCEOであるハサビス氏も、GeminiをAlphaGoや大規模言語モデルと組み合わせ、Google DeepMindが数千万ドル、あるいは数億ドルを投資する用意があることを明らかにした。

ジェミニは、強化学習やツリー探索を利用するAlphaGOのほか、ロボット工学や神経科学などの分野の技術を統合します。

写真

Google は、Bard チャットボットを強化し、Google Docs や Slides などのエンタープライズレベルのアプリケーションを推進する Gemini に大きな賭けをしていると言えるでしょう。

さらに、Google はクラウドサーバーレンタルサービスを通じて開発者に Gemini へのアクセス料金を請求することも望んでいる。

現在、Google Cloud は Vertex AI 製品を通じて Google AI モデルへのアクセスを販売しています。

これらの新機能が実現すれば、Google は Microsoft に追いつく可能性が高いでしょう。

結局のところ、Microsoft はすでに AI 製品のリーダーであり、Office 365 アプリには AI 機能が含まれており、そのアプリケーションではユーザーに ChatGPT へのアクセスも販売しています。

ブルームバーグのベンチャーキャピタル部門、ブルームバーグ・ベータのAIスタートアップ投資家、ジェームズ・チャム氏はブルームバーグに対し、「過去9か月間、誰もが尋ねてきた疑問は、OpenAIを追い抜く可能性を秘めた企業がいつ現れるのかということだ」と語った。

「ついに、GPT-4 に対抗できるモデルが登場したようです。」

Google、快適な領域から抜け出すことを余儀なくされる

OpenAIの台頭により、Googleは中核となる検索事業を確保しながら、新たな技術の導入に努めなければなりません。

関係者によると、Google は Gemini をリリースする前に、いくつかの製品でこれを使用する可能性が高いとのことです。

これまで Google は検索を改善するためにより単純なモデルを使用してきましたが、Bard や Gemini などの製品では、大量の画像やテキストを分析して、より人間らしい回答を生成する必要があります。

こうした膨大な量のデータによって生じる潜在的な莫大なサーバーコストも、Google が管理しなければならないものである。

アップデートされたバードはさらに強力になりました

YouTubeの利点

The Informationによると、Googleは大量のYouTube動画を使ってGeminiをトレーニングしたという。

さらに、Gemini はオーディオとビデオをモデル自体に統合してマルチモーダル機能を形成することもできます。これは多くの研究者によって AI の次のフロンティアであると考えられています。

たとえば、YouTube 動画でトレーニングされたモデルは、整備士が動画に基づいて自動車の修理の問題を診断するのに役立ちます。

あるいは、ユーザーが作成したい Web サイトやアプリのスケッチに基づいてソフトウェアコードを生成することもできます。 OpenAI は以前、GPT-4 のこの機能を実証しましたが、まだリリースされていません。

OpenAIの責任者グレッグ・ブロックマンはかつてGPT-4の画像読み取りとウェブページコード書き込み能力を実証したが、遅れているようだ。

YouTube コンテンツを使用することで、Google は、ユーザーが視聴したい内容の説明に基づいて詳細な動画を自動的に生成する、より高度なテキスト動画変換ソフトウェアを開発することもできます。

これは、Google が支援するスタートアップ企業 RunwayML が開発している技術に似ており、ハリウッドのコンテンツクリエイターたちは現在、その開発に注目しています。

Google DeepMindが本格的な反撃を開始

Google は 2011 年に Google Brain を設立しました。これは、検索結果、ターゲット広告、Gmail の自動入力機能を最適化する Google 独自の AI を構築することを目的としています。

一方、ロンドンを拠点とするディープマインドは、学術研究に重点を置いています。2016年には、アルファ囲碁がイ・セドルを4対1で破り、この研究は汎用人工知能（AGI）への道における重要なマイルストーンとみなされています。

DeepMind が開発したソフトウェアは Google のデータセンターの運用効率を向上させるために使用されているが、DeepMind の取り組みは同社の中核製品にはあまり影響を与えていない。

しかし昨年末、すべてが変わりました。

2022年11月、OpenAIはChatGPTをリリースしました。わずか数週間でユーザー数は数千万人に急増し、その後、最短時間でユーザー数1億人を突破するという成果を達成しました。

数か月以内に、OpenAI の収益は数億ドルに達しました。この期間中、Microsoft は新たに 100 億ドルを投資し、数え切れないほどの熱い資金が OpenAI に流入しました。OpenAI の市場価値と人気は前例のない高さに達しました。

その時初めて、Google は AI 分野における自社のリーダーシップが危機に瀕していることに気づいたのです。

Google Brain + DeepMind =?

今年4月、これまで消極的な立場だったGoogleが、Google BrainとDeepMindを正式に合併するという究極の一手を打った。

『王は王に会うことはない』の2つの主要部門は実際に統合され、この動きにも観客は驚愕した。

合併後のGoogle DeepMindはDeepMindのCEOであるデミス・ハサビス氏が率い、元Google AI部門責任者のジェフ・ディーン氏が主任科学者として後任となる。

現在、少なくとも26人の大物がジェミニの開発を担当しており、その中にはかつてGoogle BrainやDeepMindで働いていた研究者も含まれている。

事情に詳しい関係者によると、ディープマインドの幹部2人、オリオル・ビニャルス氏とコライ・カブククオグル氏が、元グーグル・ブレインの責任者ジェフ・ディーン氏とともにジェミニの開発を担当することになるという。彼らはジェミニの開発に携わる数百人の従業員を監督することになる。

さらに、Googleの共同創業者セルゲイ・ブリン氏も待望の復帰を果たした。

セルゲイ・ブリンとラリー・ペイジ

彼はジェミニモデルを評価し、従業員のトレーニングを支援してきました。

報道によると、ブリン氏は、ジェミニが誤って不快な可能性のあるコンテンツでトレーニングされていたことをチームが発見した後、モデルを再トレーニングする技術的な意思決定プロセスにも関与していたという。

予期せぬ結婚の苦しみ

Google Brain と DeepMind の合併により、新しいチームはすぐに非常に深刻な問題に直面しました。それは、コードをどのようにマージするか、開発にはどのソフトウェアを使用するか、という問題でした。

結局のところ、以前は 2 つの部門のコードベースは完全に独立していました。

双方は譲歩して妥協に達したが、

- モデルの事前トレーニング段階では、Google Brainが機械学習モデルのトレーニングに使用するソフトウェアであるPaxを使用します。

- 後期段階では、DeepMindのモデル開発ソフトウェアであるCore Model Strikeを使用して

しかし、内部関係者によると、多くの従業員は、慣れていないソフトウェアを使わなければならないことに依然として不満を抱いているという。

さらに、Google と DeepMind は ChatGPT 用の独自のモデルを開発しました。

DeepMindは、コードネームGoodallのプロジェクトに着手した。このプロジェクトは、非公開のモデルChipmunkのさまざまなバリエーションを使用して、ChatGPTと競合するシステムを開発することを目指している。 Google Brain は Gemini プロジェクトを開発し、立ち上げました。

最終的に、DeepMind は当初の取り組みを断念し、Google Brain プロジェクトに基づいて Gemini の開発に協力することを決定しました。

興味深いことに、Google Brain はリモートワークのポリシーに関しては DeepMind よりもはるかに寛容な姿勢をとっているとも言われています。

内部摩擦、恥ずかしさ、反撃

OpenAI の明るい状況と比較すると、Google は疲弊する内部闘争に巻き込まれている。

まず、多くの上級技術人材が退職し、リアム・フェダス、バレット・ゾフ、ルーク・メッツなどの研究者がOpenAIへの参加を選択しました。

Google は、例えば Jacob Devlin 氏と Jack Rae 氏を再採用するなど、一部の優秀な人材を取り戻しました。

ジェイコブ・デブリン氏はバードの開発を批判した後、1月にOpenAIを去った。ジャック・レイは、2022 年に OpenAI に入社した元 DeepMind 研究者です。

以前、デブリン氏は、バード社のチームがトレーニングにChatGPTデータを使用していることについて、ピチャイ氏やディーン氏などの幹部に懸念を表明し、その後辞任した。

そして、支配的なChatGPTに対抗し、人工知能分野のリーダーとしての地位を取り戻すために、Googleは今年2月にチャットボットBardを急遽リリースした。

しかし、記者会見は些細な事実誤認によって台無しになり、同社の時価総額は一夜にして1000億ドルも消え去った。

Google の最初の反撃は不名誉な結果に終わった。

5月、Google I/Oカンファレンスで新しいPaLM 2モデルがリリースされ、Bardの質問に答えたりコードを生成する能力が大幅に向上しました。

また、生成 AI と独自の従来の検索サービスを組み合わせた Search Generative Experience (SGE) もリリースされました。

簡単に言えば、SGE は Bing Chat に似た AI 検索サービスですが、新しいチャットウィンドウを直接使用するのではなく、AI によって生成されたコンテンツコレクションを検索結果としてユーザーに表示します。

つまり、検索中に、Google は AI を利用して検索内容の説明を提供したり、ユーザーの質問に答えたり、旅行計画の支援などを行うことになります。

利用可能なすべてのコンテンツが AI によって収集された返信に集中しているため、ユーザーは価格を比較するために複数のリンク間を行ったり来たりする必要がなくなり、リンクの背後にあるどの情報が真実であるかを判断するのに時間を費やす必要もありません。

最近のアップデートで、Google は SGE に AI 生成の応答に画像や動画を添付する機能を追加し、ユーザーが検索する知識や情報をより直感的に理解できるようにしました。

Bing Chat と同様に、SGE の AI 応答には、AI が生成した返信をサポートするタイムスタンプ付きのリンクが含まれます。ユーザーが関連情報に興味がある場合は、リンクをクリックして特定のコンテンツをより包括的に理解することができます。

AI によって生成された応答では、多くの知識ベースの情報や概念について、ユーザーはマウスをホバーするだけで概念の正確な定義を得ることができます。

現在、この機能は、科学、歴史、経済などの知識に関する質問に AI が回答するために開始されました。

情報を学習または理解するために非常に長い Web ページを閲覧する必要があるユーザーのために、SGE は Web ページ内の AI 要約機能も更新しました - 閲覧中の SGE。

この機能は、いつでも使用できる「アウトラインジェネレーター」をユーザーに提供するのと同じです。長い Web ページコンテンツの場合、ユーザーはこれを使用してアウトラインを生成し、重要なポイントをすばやく把握できます。

下の「ページの探索」セクションでは、ユーザーはページコンテンツに関連する質問も確認できます。ユーザーが質問に興味がある場合は、クリックするだけで、記事の内容がこれらの質問にどのように答えているかを確認できます。

ただし、Google の保守的なマーケティング戦略により、SEG では現在、待機リストを使用してテストを申請できるのは米国のユーザーのみです。

そのため、ほとんどのユーザーは、Google がこのようなサービスを開始したことすら知らないかもしれません。

つまり、2つの部門が合併した後、ユーザーに人生のアドバイスや心理カウンセリングを提供するツールも含め、少なくとも21の生成AIツールをテストしたと報告されています。

昨年、自社のチャットAIに意識があると主張したエンジニアを緊急解雇したGoogleは、現在、この種の「デリケートな」領域の調査を開始しており、本当に試してみることにしたようだ。

ジェミニプロジェクトは現在順調な状況にある

しかし、2つのチームの合併は、ジェミニプロジェクトを担当していた一部のエンジニアにとって、実に大きな驚きでした。

以前DeepMindで働いていたジェームズ・モロイ氏とトム・ヘニガン氏は、Googleの上級研究員ポール・バーハム氏とともにインフラを担当している。

以前ディープマインドでチェスや囲碁のシステムに携わっていたティモシー・リリクラップ氏と、グーグル・ブレインの研究者エミリー・ピトラー氏は、法学修士課程の学生が数学やウェブ検索などの特殊なタスクを処理できるようにすることに重点を置いたチームを率いている。

しかし、統合された組織内の人員問題に加えて、Gemini チームは、モデルのトレーニングに使用できるデータの特定など、開発プロセス中に大きな課題にも直面しました。

その結果、Google の弁護士はトレーニングの取り組みを綿密に評価してきました。

あるケースでは、著作権者からの異議を恐れた弁護士が研究者に教科書からトレーニングデータを削除するよう要求した。

そのデータは、天文学や生物学などの分野に関する質問に答えるためのモデルのトレーニングに役立つ可能性があります。

しかし、元グーグル幹部でベンチャーキャピタル企業フェリシス・ベンチャーズの創設者であるアイディン・センクト氏は、ジェミニの立ち上げは「グーグルが極端に保守的になるのではなく、再び最前線に立つ決意をしている」ことを示したとコメントした。

Aydin Senkut 氏も Google の決定に同意している。

「これは正しい方向です。最終的には、彼らは成功することになるでしょう。」

<<: ネイチャー誌に「LK-99は超伝導体ではない」という記事が掲載された。

>>:

エンジニアはETLを書くべきか？ - 効率的なアルゴリズム/データサイエンス部門の構築方法を教えます

ブログ

人工知能とセキュリティ：繋がる双子

ブログ

ウーバーの安全担当者が世界初の自動運転車による死亡事故で有罪を認め、3年間の保護観察処分を受ける

ブログ

GPT-4 のキラー Google Gemini が登場します! 26人のR&Dボスのリストが公開され、MidjourneyのようなRAW画像機能を提供する

Google、快適な領域から抜け出すことを余儀なくされる

YouTubeの利点

Google DeepMindが本格的な反撃を開始

Google Brain + DeepMind =?

予期せぬ結婚の苦しみ

内部摩擦、恥ずかしさ、反撃

ジェミニプロジェクトは現在順調な状況にある

エンジニアはETLを書くべきか？ - 効率的なアルゴリズム/データサイエンス部門の構築方法を教えます

大きな AI 問題の解決: AI 操作のエネルギー消費を削減するにはどうすればよいでしょうか?

絵が醜すぎて見せられない？機械学習用の描画テンプレートセットを作った人がいます。ダークモードもあります

JD.comの鄭志同氏：機械学習を使って何億もの商品データを最適化する方法

顔認識ブームは沈静化すべきでしょうか?

人工知能とセキュリティ：繋がる双子

ウーバーの安全担当者が世界初の自動運転車による死亡事故で有罪を認め、3年間の保護観察処分を受ける

推薦する

ByteDance アルゴリズムの面接の質問、解けますか?

錬金術をより形而上学的にしましょう！蘇州大学の博士課程では「天の幹と地の枝」を使ってランダムシードを生成しており、このプロジェクトはオープンソース化されている。

LLM の成功に欠かせない基礎: RLHF とその代替技術

ビッグデータAIベースのセキュリティシステムにおける倫理的偏見

マッキンゼー：人工知能の最大の課題と機会

市場規模は22億を超えるか？教育用ロボットは急速に発展している

国連は、国際社会がガバナンスを強化するための支援を提供するためにAI諮問機関を設立した。

「顔認識」に関する法的問題

プライベートコレクション、オープンソースのトップディープラーニングプロジェクト9つ

RAG 上級スキル - ウィンドウコンテキスト取得の実装方法

人工知能ロボットの開発にはどのプログラミング言語を選択すればよいでしょうか?

将来の物流と輸送における人工知能の役割

AIがあらゆるところに存在している世界を想像してみてください

図 | 武術の観点から STL ソートアルゴリズムの秘密を探る