Google Project Ellman が Gemini AI モデルのシナリオを公開

Google Project Ellman が Gemini AI モデルのシナリオを公開

Googleチームは、AI技術を使ってユーザーの写真や検索エンジンのクエリ情報を処理し、ユーザーの生活がどのようなものか総合的に分析するというコンセプトを提案した。このプロジェクトは「Project Ellmann」と呼ばれている。

当初のアイデアによれば、Project Ellmann は LLM (Gemini など) を使用して情報を抽出し、ユーザーの写真から特定のパターンを見つけ、質問に正確に答えることができるチャットボットを作成する予定でした。グーグルによれば、エルマン氏は「私生活の語り手」となるという。

興味深い話だが、Google は Ellmann の機能を Google フォトや他の製品に組み込むつもりだろうか?現時点では不明です。 Google フォトには 10 億人を超えるユーザーがおり、4 兆枚の写真や動画が保存されています。

Google は現在、自社の製品ラインを最適化するために AI 技術を使用しており、Ellmann はその使用方法の 1 つにすぎません。数日前、Google は Gemini をリリースしました。これは、いくつかのケースで OpenAI GPT-4 を上回りました。

Google は、Google Cloud ユーザーに Gemini のライセンスを供与する予定です。ユーザーは Gemini を使用して必要な機能を開発できます。 Gemini の最も顕著な利点は「マルチモーダル性」にあります。つまり、テキスト、画像、ビデオ、オーディオなど、複数の種類の情報を理解できるということです。

最近の社内会議で、Google フォトの上級幹部が Project Ellman のデモンストレーションを行いました。内部文書によると、Google チームは大規模な言語モデルを使用して、ユーザーの現実世界の人生ストーリーを「鳥瞰」できると考えているようです。

伝記、過去の記録、写真、その他の資料を通じて、エルマンは状況を深く理解することができました。たとえば、一連のクリップを分析することで、エルマンはさまざまなメッセージの主題が大学生活であるかどうかを判断できます。

プレゼンテーションのスライドの 1 つに、「個人の生活を俯瞰しなければ、難しい質問に答えることも、良いストーリーを伝えることもできません」と書かれていました。

別の人はこう言った。「私たちはあなたの写真を見て、どんなタグや場所から撮られたのかを確認し、それが意味のある瞬間の一部であるかどうかを判断します。あなたの人生を総合的に理解すると、個人的な物語がより明確になります。」

Google チームも Ellmann Chat について語りました。 Ellmann Chatとは何ですか?チームは次のように説明した。「これをオンにすると、あなたの個人的な生活についてすべて知っていると想像してください。あなたはどんな質問をしますか?」

たとえば、ユーザーが Ellmann Chat に「私は犬を飼っていますか?」と質問すると、AI は飼い主が犬を飼っていると答え、その犬の名前を言いました。また、家族の中で犬と一緒にいるのが最も好きな人が 2 人いること、そしてその家族の名前は何であるかも答えました。

もうひとつの問題は、所有者が引っ越したいと思っていて、AIに現在の生活環境に似た町をいくつか提供して選択してもらうことです。エルマンはこれらの質問に答えることができます。それだけでなく、エルマン氏はユーザーの食習慣も把握しています。

たとえば、Ellmann は写真を分析して、ユーザーが何を購入したいのか、何に興味があるのか​​、仕事や旅行の計画は何かといった質問に対する答えを見つけることができます。エルマン氏は、ユーザーが好んで訪れるウェブサイトや使用するアプリを正確に把握しています。

Googleの広報担当者は次のように明らかにした。「Googleフォトは、ユーザーの写真や動画の検索を支援するためにAI技術を常に利用したいと考えてきました。LLMを使えば、より実用的な体験を提供できます。Ellmannはまだ社内で検討している段階であり、最終的にリリースされるかどうかは、まだ時間がかかるでしょう。Googleは、Ellmannがユーザーにとって本当に役立つものであることを保証し、ユーザーのプライバシーとセキュリティも考慮したいと考えています。」

Project Ellmann は、新しいテクノロジーを使用してユーザーのためによりパーソナライズされた個人的な思い出を作成しようとしている多くのテクノロジー企業の 1 つにすぎません。

Google フォトでも Apple フォトでも、写真を分析し、そこからパターンを見つけて、アルバムを作成します。 Google フォトでは、類似した写真を自動的にアルバムにグループ化して、ユーザーが写真を見つけやすくすることができます。アップルは6月、アップグレード後には写真に写っている人物や犬、猫をソフトウェアで識別できるようになると発表した。ユーザーは人物の名前を言うだけで、ソフトウェアがその人物の写真を見つける手助けをしてくれる。

素晴らしいように聞こえますが、Google と Apple のテクノロジーはまだ完璧ではなく、時々間違いを犯します。 2015年、AppleとGoogleのAIが黒人をチンパンジーと認識し、ジョークを巻き起こした。今日でも、間違いを避けるのは依然として難しい。 (ナイフ)

<<: 

>>: 

ブログ    

推薦する

ASRU2019コンペティションが終了、中国語と英語の混合音声認識技術における新たなブレークスルー

2019 IEEE 自動音声認識および理解ワークショップ (ASRU) は、2019 年 12 月 ...

Google AI はすべてを食べています!すべての公開コンテンツはAIトレーニングのためにクロールされ、プライバシーポリシーが更新されました

今後、インターネット上で公に話すすべての言葉が、Google によって AI のトレーニングに使用さ...

ロボットが2000万の仕事に取って代わる:最大の懸念は30代なのに何も知らないこと

[[269741]] 01 数日前、あるニュースが私の周りの多くの人々に反省と心配を抱かせました。 ...

2018年世界AI大学ランキング:カーネギーメロン大学がトップ、清華大学は13位

最近、CSRankingsは2018年のコンピューターサイエンスのトップスクールのランキングを発表し...

現実は素晴らしい、Googleとコーネル大学が提案した実画像補完技術RealFill

休暇で旅行するときは、写真を撮ることが必須です。しかし、景勝地で撮影した写真の多くは、背景に何かが写...

...

...

...

脚付きロボットの新たなスキル:ANYmalは山登りを学んでいる

ロボット工学の研究者がここ数年で脚付きロボットで成し遂げたことは実に驚くべきことだ。昨年7月、オレゴ...

...

...

仕事の脅威? AIはマーケティング担当者の仕事を奪うのでしょうか?

先週、コピーライターのパネルがAIによってコピーライターの必要性がなくなるかどうかを議論した。一部の...

無人スーパー、無人運転、無人宅配が実現すれば、職を失いそうな一般人はどうするのだろうか。

人工知能などの技術の発展により、無人技術がますます多く登場しています。 2030 年までに、8 億人...

マスク氏の Grok 大型モデルがプレイ可能になりました!彼の口は彼自身と同じくらい悪い。

友達に大きなサプライズ!マスク氏は突然、Grokの大型モデルを大量の有料ユーザーに開放すると発表した...

[ビッグガイがやってくるエピソード8] 電子商取引リスク管理ツール - モバイルデバイス向けの信頼できるID

[51CTO.com からのオリジナル記事] ライブショー「ビッグネームがやってくる」の今回のエピ...