GPT-4 のキラー Google Gemini が登場します! 26人のR&Dボスのリストが公開され、MidjourneyのようなRAW画像機能を提供する

GPT-4 のキラー Google Gemini が登場します! 26人のR&Dボスのリストが公開され、MidjourneyのようなRAW画像機能を提供する

Google の新しいキラー兵器、Gemini が世界に登場します!

GeminiはGPT-4のようにテキスト会話ができるだけでなく、MidjourneyやStable Diffusionの機能を統合し、画像も生成できると噂されています。

OpenAIに対抗するため、GoogleのCEOピチャイ氏は今年4月に異例の措置を取り、文化もコードも全く異なるチームであるGoogle BrainとDeepMindを合併した。

現在、何百人ものエンジニアを集めたGoogleのアベンジャーズは、OpenAIのGPT-4を狙い撃ちし、一挙にAI分野のトップの座を取り戻すべく、昼夜を問わず待機して作業に取り組んでいる。

Googleの創設者セルゲイ・ブリン氏も現場に戻り、ジェミニの訓練を自ら監督した。

Geminiは今秋にリリースされる予定で、Googleのテストも間もなく行われる。

アベンジャーズの名簿が発表された

ジェミニに賭けてGPT-4の最強キラーを作ろう

関係者によると、Gemini は LLM のテキスト機能と Vincent グラフの機能を組み合わせたものだそうです。

つまり、GPT-4 と Midjourney/Stable Diffusion の組み合わせに相当します。

ジェミニがこれほど強力な描画能力を持っていることが外部の人々に知られるのは今回が初めてです。

さらに、分析チャートを提供したり、テキスト説明付きのグラフィックを作成したり、テキストまたは音声コマンドを使用してソフトウェアを制御したりすることもできます。

6月末には、Google DeepMindのCEOであるハサビス氏も、GeminiをAlphaGoや大規模言語モデルと組み合わせ、Google DeepMindが数千万ドル、あるいは数億ドルを投資する用意があることを明らかにした。

ジェミニは、強化学習やツリー探索を利用するAlphaGOのほか、ロボット工学や神経科学などの分野の技術を統合します。

写真

Google は、Bard チャットボットを強化し、Google Docs や Slides などのエンタープライズ レベルのアプリケーションを推進する Gemini に大きな賭けをしていると言えるでしょう。

さらに、Google はクラウド サーバー レンタル サービスを通じて開発者に Gemini へのアクセス料金を請求することも望んでいる。

現在、Google Cloud は Vertex AI 製品を通じて Google AI モデルへのアクセスを販売しています。

これらの新機能が実現すれば、Google は Microsoft に追いつく可能性が高いでしょう。

結局のところ、Microsoft はすでに AI 製品のリーダーであり、Office 365 アプリには AI 機能が含まれており、そのアプリケーションではユーザーに ChatGPT へのアクセスも販売しています。

ブルームバーグのベンチャーキャピタル部門、ブルームバーグ・ベータのAIスタートアップ投資家、ジェームズ・チャム氏はブルームバーグに対し、「過去9か月間、誰もが尋ねてきた疑問は、OpenAIを追い抜く可能性を秘めた企業がいつ現れるのかということだ」と語った。

「ついに、GPT-4 に対抗できるモデルが登場したようです。」

Google、快適な領域から抜け出すことを余儀なくされる

OpenAIの台頭により、Googleは中核となる検索事業を確保しながら、新たな技術の導入に努めなければなりません。

関係者によると、Google は Gemini をリリースする前に、いくつかの製品でこれを使用する可能性が高いとのことです。

これまで Google は検索を改善するためにより単純なモデルを使用してきましたが、Bard や Gemini などの製品では、大量の画像やテキストを分析して、より人間らしい回答を生成する必要があります。

こうした膨大な量のデータによって生じる潜在的な莫大なサーバーコストも、Google が管理しなければならないものである。

アップデートされたバードはさらに強力になりました

YouTubeの利点

The Informationによると、Googleは大量のYouTube動画を使ってGeminiをトレーニングしたという。

さらに、Gemini はオーディオとビデオをモデル自体に統合してマルチモーダル機能を形成することもできます。これは多くの研究者によって AI の次のフロンティアであると考えられています。

たとえば、YouTube 動画でトレーニングされたモデルは、整備士が動画に基づいて自動車の修理の問題を診断するのに役立ちます。

あるいは、ユーザーが作成したい Web サイトやアプリのスケッチに基づいてソフトウェア コードを生成することもできます。 OpenAI は以前、GPT-4 のこの機能を実証しましたが、まだリリースされていません。

OpenAIの責任者グレッグ・ブロックマンはかつてGPT-4の画像読み取りとウェブページコード書き込み能力を実証したが、遅れているようだ。

YouTube コンテンツを使用することで、Google は、ユーザーが視聴したい内容の説明に基づいて詳細な動画を自動的に生成する、より高度なテキスト動画変換ソフトウェアを開発することもできます。

これは、Google が支援するスタートアップ企業 RunwayML が開発している技術に似ており、ハリウッドのコンテンツ クリエイターたちは現在、その開発に注目しています。

Google DeepMindが本格的な反撃を開始

Google は 2011 年に Google Brain を設立しました。これは、検索結果、ターゲット広告、Gmail の自動入力機能を最適化する Google 独自の AI を構築することを目的としています。

一方、ロンドンを拠点とするディープマインドは、学術研究に重点を置いています。2016年には、アルファ囲碁がイ・セドルを4対1で破り、この研究は汎用人工知能(AGI)への道における重要なマイルストーンとみなされています。

DeepMind が開発したソフトウェアは Google のデータセンターの運用効率を向上させるために使用されているが、DeepMind の取り組みは同社の中核製品にはあまり影響を与えていない。

しかし昨年末、すべてが変わりました。

2022年11月、OpenAIはChatGPTをリリースしました。わずか数週間でユーザー数は数千万人に急増し、その後、最短時間でユーザー数1億人を突破するという成果を達成しました。

数か月以内に、OpenAI の収益は数億ドルに達しました。この期間中、Microsoft は新たに 100 億ドルを投資し、数え切れないほどの熱い資金が OpenAI に流入しました。OpenAI の市場価値と人気は前例のない高さに達しました。

その時初めて、Google は AI 分野における自社のリーダーシップが危機に瀕していることに気づいたのです。

Google Brain + DeepMind =?

今年4月、これまで消極的な立​​場だったGoogleが、Google BrainとDeepMindを正式に合併するという究極の一手を打った。

『王は王に会うことはない』の2つの主要部門は実際に統合され、この動きにも観客は驚愕した。

合併後のGoogle DeepMindはDeepMindのCEOであるデミス・ハサビス氏が率い、元Google AI部門責任者のジェフ・ディーン氏が主任科学者として後任となる。

現在、少なくとも26人の大物がジェミニの開発を担当しており、その中にはかつてGoogle BrainやDeepMindで働いていた研究者も含まれている。

事情に詳しい関係者によると、ディープマインドの幹部2人、オリオル・ビニャルス氏とコライ・カブククオグル氏が、元グーグル・ブレインの責任者ジェフ・ディーン氏とともにジェミニの開発を担当することになるという。彼らはジェミニの開発に携わる数百人の従業員を監督することになる。

さらに、Googleの共同創業者セルゲイ・ブリン氏も待望の復帰を果たした。

セルゲイ・ブリンとラリー・ペイジ

彼はジェミニ モデルを評価し、従業員のトレーニングを支援してきました。

報道によると、ブリン氏は、ジェミニが誤って不快な可能性のあるコンテンツでトレーニングされていたことをチームが発見した後、モデルを再トレーニングする技術的な意思決定プロセスにも関与していたという。

予期せぬ結婚の苦しみ

Google Brain と DeepMind の合併により、新しいチームはすぐに非常に深刻な問題に直面しました。それは、コードをどのようにマージするか、開発にはどのソフトウェアを使用するか、という問題でした。

結局のところ、以前は 2 つの部門のコード ベースは完全に独立していました。

双方は譲歩して妥協に達したが、

- モデルの事前トレーニング段階では、Google Brainが機械学習モデルのトレーニングに使用するソフトウェアであるPaxを使用します。

- 後期段階では、DeepMindのモデル開発ソフトウェアであるCore Model Strikeを使用して

しかし、内部関係者によると、多くの従業員は、慣れていないソフトウェアを使わなければならないことに依然として不満を抱いているという。

さらに、Google と DeepMind は ChatGPT 用の独自のモデルを開発しました。

DeepMindは、コードネームGoodallのプロジェクトに着手した。このプロジェクトは、非公開のモデルChipmunkのさまざまなバリエーションを使用して、ChatGPTと競合するシステムを開発することを目指している。 Google Brain は Gemini プロジェクトを開発し、立ち上げました。

最終的に、DeepMind は当初の取り組みを断念し、Google Brain プロジェクトに基づいて Gemini の開発に協力することを決定しました。

興味深いことに、Google Brain はリモートワークのポリシーに関しては DeepMind よりもはるかに寛容な姿勢をとっているとも言われています。

内部摩擦、恥ずかしさ、反撃

OpenAI の明るい状況と比較すると、Google は疲弊する内部闘争に巻き込まれている。

まず、多くの上級技術人材が退職し、リアム・フェダス、バレット・ゾフ、ルーク・メッツなどの研究者がOpenAIへの参加を選択しました。

Google は、例えば Jacob Devlin 氏と Jack Rae 氏を再採用するなど、一部の優秀な人材を取り戻しました。

ジェイコブ・デブリン氏はバードの開発を批判した後、1月にOpenAIを去った。ジャック・レイは、2022 年に OpenAI に入社した元 DeepMind 研究者です。

以前、デブリン氏は、バード社のチームがトレーニングにChatGPTデータを使用していることについて、ピチャイ氏やディーン氏などの幹部に懸念を表明し、その後辞任した。

そして、支配的なChatGPTに対抗し、人工知能分野のリーダーとしての地位を取り戻すために、Googleは今年2月にチャットボットBardを急遽リリースした。

しかし、記者会見は些細な事実誤認によって台無しになり、同社の時価総額は一夜にして1000億ドルも消え去った。

Google の最初の反撃は不名誉な結果に終わった。

5月、Google I/Oカンファレンスで新しいPaLM 2モデルがリリースされ、Bardの質問に答えたりコードを生成する能力が大幅に向上しました。

また、生成 AI と独自の従来の検索サービスを組み合わせた Search Generative Experience (SGE) もリリースされました。

簡単に言えば、SGE は Bing Chat に似た AI 検索サービスですが、新しいチャット ウィンドウを直接使用するのではなく、AI によって生成されたコンテンツ コレクションを検索結果としてユーザーに表示します。

つまり、検索中に、Google は AI を利用して検索内容の説明を提供したり、ユーザーの質問に答えたり、旅行計画の支援などを行うことになります。

利用可能なすべてのコンテンツが AI によって収集された返信に集中しているため、ユーザーは価格を比較するために複数のリンク間を行ったり来たりする必要がなくなり、リンクの背後にあるどの情報が真実であるかを判断するのに時間を費やす必要もありません。

最近のアップデートで、Google は SGE に AI 生成の応答に画像や動画を添付する機能を追加し、ユーザーが検索する知識や情報をより直感的に理解できるようにしました。

Bing Chat と同様に、SGE の AI 応答には、AI が生成した返信をサポートするタイムスタンプ付きのリンクが含まれます。ユーザーが関連情報に興味がある場合は、リンクをクリックして特定のコンテンツをより包括的に理解することができます。

AI によって生成された応答では、多くの知識ベースの情報や概念について、ユーザーはマウスをホバーするだけで概念の正確な定義を得ることができます。

現在、この機能は、科学、歴史、経済などの知識に関する質問に AI が回答するために開始されました。

情報を学習または理解するために非常に長い Web ページを閲覧する必要があるユーザーのために、SGE は Web ページ内の AI 要約機能も更新しました - 閲覧中の SGE。

この機能は、いつでも使用できる「アウトライン ジェネレーター」をユーザーに提供するのと同じです。長い Web ページ コンテンツの場合、ユーザーはこれを使用してアウトラインを生成し、重要なポイントをすばやく把握できます。

下の「ページの探索」セクションでは、ユーザーはページ コンテンツに関連する質問も確認できます。ユーザーが質問に興味がある場合は、クリックするだけで、記事の内容がこれらの質問にどのように答えているかを確認できます。

ただし、Google の保守的なマーケティング戦略により、SEG では現在、待機リストを使用してテストを申請できるのは米国のユーザーのみです。

そのため、ほとんどのユーザーは、Google がこのようなサービスを開始したことすら知らないかもしれません。

つまり、2つの部門が合併した後、ユーザーに人生のアドバイスや心理カウンセリングを提供するツールも含め、少なくとも21の生成AIツールをテストしたと報告されています。

昨年、自社のチャットAIに意識があると主張したエンジニアを緊急解雇したGoogleは、現在、この種の「デリケートな」領域の調査を開始しており、本当に試してみることにしたようだ。

ジェミニプロジェクトは現在順調な状況にある

しかし、2つのチームの合併は、ジェミニプロジェクトを担当していた一部のエンジニアにとって、実に大きな驚きでした。

以前DeepMindで働いていたジェームズ・モロイ氏とトム・ヘニガン氏は、Googleの上級研究員ポール・バーハム氏とともにインフラを担当している。

以前ディープマインドでチェスや囲碁のシステムに携わっていたティモシー・リリクラップ氏と、グーグル・ブレインの研究者エミリー・ピトラー氏は、法学修士課程の学生が数学やウェブ検索などの特殊なタスクを処理できるようにすることに重点を置いたチームを率いている。

しかし、統合された組織内の人員問題に加えて、Gemini チームは、モデルのトレーニングに使用できるデータの特定など、開発プロセス中に大きな課題にも直面しました。

その結果、Google の弁護士はトレーニングの取り組みを綿密に評価してきました。

あるケースでは、著作権者からの異議を恐れた弁護士が研究者に教科書からトレーニングデータを削除するよう要求した。

そのデータは、天文学や生物学などの分野に関する質問に答えるためのモデルのトレーニングに役立つ可能性があります。

しかし、元グーグル幹部でベンチャーキャピタル企業フェリシス・ベンチャーズの創設者であるアイディン・センクト氏は、ジェミニの立ち上げは「グーグルが極端に保守的になるのではなく、再び最前線に立つ決意をしている」ことを示したとコメントした。

Aydin Senkut 氏も Google の決定に同意している。

「これは正しい方向です。最終的には、彼らは成功することになるでしょう。」

<<:  ネイチャー誌に「LK-99は超伝導体ではない」という記事が掲載された。

>>: 

ブログ    
ブログ    
ブログ    

推薦する

次世代のインターネット技術 - ディープラーニング

[[384617]]過去 20 年間がインターネットの急速な発展の 20 年間であったとすれば、次の...

...

...

ChatGPT で半日の作業を 20 分に短縮

みなさんこんにちは、私はクン兄さんですここ数ヶ月、私はウェブサイトの開発とAI関連の知識の学習に忙し...

説明書不要で様々な家具や家電製品に使用できる初の具現化3Dグラフィックモデルシステム

最近はロボットが家事のすべてを担うようになりました。ポットを使えるスタンフォードのロボットが登場した...

企業が機械学習で犯す5つの間違い

機械学習技術の発展により、企業内のさまざまな構造化コンテンツや非構造化コンテンツから、より多くの情報...

機械学習の博士課程での私の経験から得た洞察

2020 年は非常に困難な年でしたが、私にとってはコーネル大学でコンピューターサイエンスの博士号を取...

OpenAI: GPT-5が危険すぎる場合、理事会はアルトマンの釈放を阻止する権利がある

OpenAIは新たな発表を行った。取締役会はアルトマン氏の決定を拒否する権限を持つようになった。特に...

中国の博士が127ページの論文「自然言語処理におけるグラフニューラルネットワークの初心者からマスターまで」を発表

グラフは、複雑なシステムを記述およびモデル化するために使用できる一般的な言語です。グラフは、構文情報...

生成 AI は DevSecOps を殺すのか?

ノアが編集制作:51CTO テクノロジースタック(WeChat ID:blog)生成 AI は De...

報告書は、中国が人工知能の特許出願数で世界一であると指摘している。

最近、2020年中国人工知能産業年次大会が蘇州で開催されました。大会で発表された「中国人工知能発展報...

機械学習アルゴリズムを使用して「実験室地震」を予測するにはどうすればよいでしょうか?

[[186458]]機械学習アルゴリズムが「実験室の地震」を予測できるという事実は、間違いなく画期...

単一ニューロンは将来の活動を予測することで学習し、脳の働きを説明するのに役立つ。

何世紀にもわたり、人類は脳がどのように機能し、どのように情報を獲得するかを理解しようとしてきました。...

...