Google Project Ellman が Gemini AI モデルのシナリオを公開

Google Project Ellman が Gemini AI モデルのシナリオを公開

Googleチームは、AI技術を使ってユーザーの写真や検索エンジンのクエリ情報を処理し、ユーザーの生活がどのようなものか総合的に分析するというコンセプトを提案した。このプロジェクトは「Project Ellmann」と呼ばれている。

当初のアイデアによれば、Project Ellmann は LLM (Gemini など) を使用して情報を抽出し、ユーザーの写真から特定のパターンを見つけ、質問に正確に答えることができるチャットボットを作成する予定でした。グーグルによれば、エルマン氏は「私生活の語り手」となるという。

興味深い話だが、Google は Ellmann の機能を Google フォトや他の製品に組み込むつもりだろうか?現時点では不明です。 Google フォトには 10 億人を超えるユーザーがおり、4 兆枚の写真や動画が保存されています。

Google は現在、自社の製品ラインを最適化するために AI 技術を使用しており、Ellmann はその使用方法の 1 つにすぎません。数日前、Google は Gemini をリリースしました。これは、いくつかのケースで OpenAI GPT-4 を上回りました。

Google は、Google Cloud ユーザーに Gemini のライセンスを供与する予定です。ユーザーは Gemini を使用して必要な機能を開発できます。 Gemini の最も顕著な利点は「マルチモーダル性」にあります。つまり、テキスト、画像、ビデオ、オーディオなど、複数の種類の情報を理解できるということです。

最近の社内会議で、Google フォトの上級幹部が Project Ellman のデモンストレーションを行いました。内部文書によると、Google チームは大規模な言語モデルを使用して、ユーザーの現実世界の人生ストーリーを「鳥瞰」できると考えているようです。

伝記、過去の記録、写真、その他の資料を通じて、エルマンは状況を深く理解することができました。たとえば、一連のクリップを分析することで、エルマンはさまざまなメッセージの主題が大学生活であるかどうかを判断できます。

プレゼンテーションのスライドの 1 つに、「個人の生活を俯瞰しなければ、難しい質問に答えることも、良いストーリーを伝えることもできません」と書かれていました。

別の人はこう言った。「私たちはあなたの写真を見て、どんなタグや場所から撮られたのかを確認し、それが意味のある瞬間の一部であるかどうかを判断します。あなたの人生を総合的に理解すると、個人的な物語がより明確になります。」

Google チームも Ellmann Chat について語りました。 Ellmann Chatとは何ですか?チームは次のように説明した。「これをオンにすると、あなたの個人的な生活についてすべて知っていると想像してください。あなたはどんな質問をしますか?」

たとえば、ユーザーが Ellmann Chat に「私は犬を飼っていますか?」と質問すると、AI は飼い主が犬を飼っていると答え、その犬の名前を言いました。また、家族の中で犬と一緒にいるのが最も好きな人が 2 人いること、そしてその家族の名前は何であるかも答えました。

もうひとつの問題は、所有者が引っ越したいと思っていて、AIに現在の生活環境に似た町をいくつか提供して選択してもらうことです。エルマンはこれらの質問に答えることができます。それだけでなく、エルマン氏はユーザーの食習慣も把握しています。

たとえば、Ellmann は写真を分析して、ユーザーが何を購入したいのか、何に興味があるのか​​、仕事や旅行の計画は何かといった質問に対する答えを見つけることができます。エルマン氏は、ユーザーが好んで訪れるウェブサイトや使用するアプリを正確に把握しています。

Googleの広報担当者は次のように明らかにした。「Googleフォトは、ユーザーの写真や動画の検索を支援するためにAI技術を常に利用したいと考えてきました。LLMを使えば、より実用的な体験を提供できます。Ellmannはまだ社内で検討している段階であり、最終的にリリースされるかどうかは、まだ時間がかかるでしょう。Googleは、Ellmannがユーザーにとって本当に役立つものであることを保証し、ユーザーのプライバシーとセキュリティも考慮したいと考えています。」

Project Ellmann は、新しいテクノロジーを使用してユーザーのためによりパーソナライズされた個人的な思い出を作成しようとしている多くのテクノロジー企業の 1 つにすぎません。

Google フォトでも Apple フォトでも、写真を分析し、そこからパターンを見つけて、アルバムを作成します。 Google フォトでは、類似した写真を自動的にアルバムにグループ化して、ユーザーが写真を見つけやすくすることができます。アップルは6月、アップグレード後には写真に写っている人物や犬、猫をソフトウェアで識別できるようになると発表した。ユーザーは人物の名前を言うだけで、ソフトウェアがその人物の写真を見つける手助けをしてくれる。

素晴らしいように聞こえますが、Google と Apple のテクノロジーはまだ完璧ではなく、時々間違いを犯します。 2015年、AppleとGoogleのAIが黒人をチンパンジーと認識し、ジョークを巻き起こした。今日でも、間違いを避けるのは依然として難しい。 (ナイフ)

<<: 

>>: 

ブログ    
ブログ    

推薦する

データ構造とアルゴリズム: K 回の否定後の配列の合計を最大化する

[[435915]] K回の反転後の配列の最大合計LeetCode の問題へのリンク: https:...

人工知能に適した9つのプログラミング言語

[[436583]] [51CTO.com クイック翻訳]人工知能という用語は、20 世紀半ばに生ま...

...

Google が「シャンプー」という 2 次最適化アルゴリズムを提案、Transformer のトレーニング時間を 40% 削減

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習のコンテナ化: TensorFlow、Kubernetes、Kubeflow

[[253678]] [51CTO.com クイック翻訳] 機械学習 (ML) は、パターンを識別...

Java プログラミング スキル - データ構造とアルゴリズム「再帰」

[[392763]]コンセプト簡単に言うと、再帰とは、毎回異なる変数を渡しながら、自身を呼び出すメ...

お気に入りのランダムフォレストは? TensorFlow オープンソース決定森ライブラリ TF-DF

[[402276]]人工知能の発展の歴史の中で、さまざまなアルゴリズムが際限なく登場してきました。...

673本の論文を要約し、UIUCなどが20ヶ月で完成させた信頼性の高い機械学習レビューを発表

少し前、UIUC と南洋理工大学の 3 人の研究者が 20 か月かけて 673 本の論文を研究し、信...

Google CEO ピチャイ: 新しい AI 製品のサブスクリプション モデルを検討中

10月26日、2023年第3四半期の決算発表で、グーグルとその親会社アルファベットのCEOであるサン...

人工知能の応用、開発、影響についての考察

ケンブリッジ大学人工知能研究センターは、人工知能によってもたらされる新しい能力とそれが直面するリスク...

...

ニューラルネットワークの層とノードの数を設定する方法

[51CTO.com クイック翻訳] 人工ニューラル ネットワークには、ネットワークのアーキテクチャ...

...