インターネットの理解からユーザーの理解へ、Google は今回何に賭けているのでしょうか?

インターネットの理解からユーザーの理解へ、Google は今回何に賭けているのでしょうか?

Google I/O カンファレンスは予定通り開催されます。北京時間5月12日午前1時、Google I/O 2022カンファレンスの開会式で、Google CEOのサンダー・ピチャイ氏が「知識とコンピューティング」をキーワードに2時間にわたる基調講演を行った。このスピーチは、Google の長期的な発展ビジョンを概説するとともに、ある程度、ポスト疫病時代のインターネット技術の進化の方向も描いています。


検索の再定義: とにかく、どこでも

Google は、「検索を再考。あらゆる方法で、どこでも」というビジョンを掲げています。

これは次のように解釈できます。検索は、「誰が検索しているのか」と「実際に何を探しているのか」の両方を理解できる、マルチセンサー、マルチデバイスの提案になりつつあります。また、質問と回答を超えて検索エクスペリエンスを拡張します。 Android はコンテキストとコンテンツに重点を置いたものとなり、ユーザーに合わせてカスタマイズできるようになります。自然なインタラクションを重視しているため、コマンドを覚えなくても情報を得ることができます。また、あらゆるデバイスをどこでも使えるようにするために必要なハードウェア エコシステムと、それに合わせたソフトウェアを構築しています。

Google は先月、マルチ検索機能を開始しました。これは、日常生活で認識できないものや説明できないものに遭遇したときに、写真を撮って質問することで Google アプリで直接検索できる機能です。さらに、携帯電話のカメラ機能を使ってスーパーマーケット内の商品を直接スキャンし、欲しい商品を見つけることができる「シーン探索」機能もあります。

画像出典: Google

Google は、マルチ検索機能を拡張して、複数の次元に沿って検索できるようにしました。たとえば、探している特定の種類の料理の写真を Google に提供し、近くで見つけられる場所を尋ねることができます。


AR: 現実世界で理解し、理解される

情報技術の新たな分野である拡張現実 (AR) は、既存の技術をさらに進化させる可能性を秘めています。この可能性はテクノロジーそのものではなく、テクノロジーが私たちに現実世界にもっと注意を向けさせるという点にあります。 Google は、私たちの創作物やデザインは現実世界に基づいており、決して現実から切り離されたものではないという考えを提唱しています。 AR はまさにこのデザインコンセプトを実現するのに役立つ新しい手法です。

Google Glass V2 画像ソース: Google

言語を例に挙げてみましょう。言語は人と人とのコミュニケーションの基礎です。しかし、会話の相手が別の言語を話したり、会話の一方が聴覚障害者だったりすると、コミュニケーションが難しくなります。 Google は最新のテクノロジーを翻訳と言語の文字起こしに適用し、初期のテストプロトタイプで発表された結果は聴衆から拍手喝采を浴びた。


人工知能:あらゆるところに「素材」が溢れて咲き誇る

よくあることですが、Google I/O では AI 関連の話題がたくさんありました。 1 つ目は、Google のこれまでで最も先進的な会話型 AI モデルである LaMDA 2 の発表です。このモデルは、以前のバージョンと比較して不正確な応答や不快な応答を減らすことで、会話の品質を大幅に向上させます。それだけでなく、Google はこの技術を検索やその他の製品にも応用しています。

さらに、YouTube 動画は自動的にチャプターとトランスクリプトに分割されます。 DeepMind のマルチモーダル テクノロジーにより、YouTube 動画はより高い精度で自動的にチャプターに分割されます。音声認識モデルを使用してビデオを書き起こすことも可能です。

たとえば、Google ドキュメントでは自動要約機能が導入されました。この機能の実装は、自然言語処理においても大きな進歩を意味します。 Google ドキュメントは機械学習モデルを使用して、わずか数秒で単語を自動的に解析し、重要なポイントを抽出できます。

Google が、5,400 億のパラメータに基づいてトレーニングされた、これまでに Google が独自に開発した最大の言語モデルである PaLM を発表したことは特筆に値します。この大規模モデルを「思考の連鎖」と呼ばれる新しい手法と組み合わせると、複数のステップを必要とする問題を一連の中間ステップに変換することができ、非常に満足のいく結果が得られます。

思考プロンプトチェーン 出典: Google

人工知能に関連した小話もいくつかあります。 Google は、自動生成された翻訳がスマートフォンの YouTube に表示されるようになり、Nest Hub Max を見るだけで Google アシスタントとの会話を開始できるようになると発表しました。また、スマートフォンはチョコレート バーがいっぱい並んだ棚を認識し、探しているものに基づいて 1 つを選ぶこともできます。 Google の説明によれば、これは「あなたの周りの世界に超強力な Ctrl-F を与える」ものです。

画像出典: Google

人造人間13号:完璧さもまた強さの一種

Google は Android 13 の計画を見直しており、同社のモバイル オペレーティング システムの次期バージョンは Android 12 で導入されたアイデアをさらに進めたものになるようです。 Google は、コンテンツ テーマをより多くの場所に追加し、ユーザーがアプリでさまざまな言語を使用するように設定できるようにし、セキュリティとプライバシーの機能をいくつか追加しています。実用的な機能面では、Android 13がWindowsの実行をサポートしていることが注目に値します。Android 13開発者プレビュー版を搭載したGoogle Pixel 6でWin11 Arm仮想マシンを実行し、ネイティブに近いパフォーマンスを実現した人がいると言われています。

さらに、Android 13 では、ロック画面インターフェースへの QR スキャナーの追加、クリックによるメディアのストリーミング、新しいシステム写真セレクターの追加などの新機能もサポートされています。また、単一のアプリの言語を指定することもできます。これらはすべて非常に実用的です。

Android には現在、スマートホーム標準のサポートが組み込まれており、新しいデバイスのインストールと制御が容易になります。 Google は、オーディオとビデオを他のデバイスに送信するための Cast プロトコルのサポートを拡張し、Bluetooth デバイスの接続を容易にする Fast Pair サービスを改善しました。

全体的に、Android 13 は 12 と比べて大きな変化はありません。むしろ、そのコンセプトに基づいて多くの詳細を最適化し続けており、Android エコシステムはより完全で強力なものになっています。

新しいベータ版がリリースされ、Android ファンは試すことができます。

画像出典: Google


Tensor チップ: クラウドではなくローカル

Google は来年 Android タブレットをリリースする計画を発表しており、多くの Android 開発者が「より大きなピクセルに最適な相棒」を夢見ていると思います。 Google はタブレット市場に再参入したいと考えている。最も魅力的なのは、ハードウェアの詳細、つまりテンソル チップです。

画像出典: Google

Google は、より多くのデータ処理をクラウドではなくデバイス上でローカルに実行できるように、モバイル プラットフォームの革新に取り組んでいます。 Google のカスタム Google Tensor チップは、この方向への重要な一歩です。フラッグシップスマートフォン「Pixel 6」と「Pixel 6 Pro」にはすでにGoogle Tensorプロセッサが搭載されており、ユーザーはGoogleの音声認識技術などのAI機能をスマートフォンで直接利用することができます。さらに、このテクノロジーを Android の Private Compute Core と組み合わせると、データ駆動型の機能をデバイス上で直接実行できるため、ユーザーのプライバシーを保護できます。


Google ウォレット: リニューアル

カンファレンスで Google Wallet が言及されると、聴衆から驚​​きの声が上がりました。 Google Wallet の再開により、非常にタイムリーな機能がいくつか追加されました。支払いカードだけでなく、パス、ポイントプログラムのメンバーシップ、予防接種記録なども保管できます。 Google によれば、このアプリはデジタル ID の時代に合わせて設計されているという。つまり、運転免許証、銀行カード、搭乗券、チケットとして直接使用することができ、同時に、WearOSユーザーも使用できます。


画像出典: Google


Google マップ: 没入型ビュー

Google は、基本的に空から道路を眺める新しいモードをマップに追加しました。特定の都市では、道に迷う前に場所の概観を確認して地理をよりよく理解することができます。

ロンドン、サンフランシスコ、ニューヨーク、ロサンゼルス、東京が、没入型ビューで同時にデビューしました。画像出典: Google

この新機能の魅力的な点は、ドローンを飛ばして写真を撮るようなものではなく、ニューラル レンダリング テクノロジーを使用して、画像のみで作成された体験であることです。 3D マッピングと機械学習の進歩を利用して、数十億枚の航空写真と街路レベルの画像を融合し、新しい高精度の地図を作成します。

これらの画期的なテクノロジーを組み合わせることで、ユーザーは没入感のある新しい体験をすることができ、これまでにない方法で場所を探索できるようになります。たとえば、ユーザーが家族と一緒にウェストミンスターを訪れる計画を立てているとします。ユーザーは、この臨場感あふれるビューを携帯電話の Google マップから直接利用できるようになり、観光名所を移動したり、周辺の交通状況や娯楽施設などを確認したりすることもできます。

Google Cloud Immersive Stream を使用すると、ほぼすべてのスマートフォンでこの体験が可能になります。この機能は、今年後半に世界中の一部の都市の Google マップで利用可能になる予定です。


プライバシーとセキュリティ: ユーザーデータの収集と使用を削減

セキュリティの面では、Google はユーザーのプライバシーに関する問題で常に批判されてきました。

Google もパスワードのない未来に向けて取り組んでいます。これにより、2 段階認証がすべてのユーザーのデフォルトになるだけでなく、複数のシステムを使用する認証システムが作成され、ユーザーは何百ものパスワードを覚える必要がなくなります。

Google は Android および Chrome ユーザー向けに仮想カードを導入します。これにより、オンラインで商品を購入するときに仮想クレジットカード番号が生成されます。これにより、小売業者は番号を隠すことができ、詐欺や個人情報の盗難のリスクを軽減できます。

Googleはまた、難読化されたデータを使用してユーザーを匿名化するシステム「Protected Compute」も発表した。人工知能とクラウド コンピューティングの使用により、データが処理される場所と方法が変わります。また、Googleは、Googleを含む企業がユーザーの個人データを過度に使用しないように、個人が使用するデータの量を最小限に抑え、企業がアクセスを制限するために収集するデータを減らし、削除するデータを増やすとしている。 Googleはまた、「保護されたコンピューティング」というコンセプトに加え、データを他の場所に送信するのではなく、デバイス上でより多くの処理が行えるよう、デフォルトで製品に追加のセキュリティ機能を実装することにも注力していると述べた。

一方、Google のより広範なセキュリティとプライバシーに関する発表には、「マイ広告センター」インターフェースの計画も含まれており、ユーザーはこのインターフェースで、興味のあるさまざまなトピックから選択して表示される広告の種類をカスタマイズしたり、特定のトピックに関する広告の表示回数を減らしたりすることができます。


画像出典: Google


最後に

Google I/O カンファレンスは、モバイル インターネット技術と製品の壮大な展望と言えるでしょう。簡単にまとめると:

検索に関して、Google は「あらゆる方法、あらゆる場所の検索を再考する」というビジョンを提唱しています。デジタル時代では、マルチサーチやシーン探索などの新しい機能が導入されています。

モバイル開発システム: 以前のバージョンと比較して、Andriod13 の新しいテスト バージョンは、エコシステムの完成度とデバイス間の連携に重点を置いています。

人工知能: Google は常に AI をサービスや製品を強化するための重要なエンジンとみなしており、会話型 AI や NLP などの技術分野に重点を置いてきました。

XR 開発:「現実世界をベースにしながらも現実から切り離さずに作成、設計する」というコンセプトは非常に明確です。没入感を生み出す Google マップから Google Glass V2 まで、メタバースの台頭後の新しい製品の探求と試みです。

セキュリティ: データ処理をローカルで完了しようとしていることや、「保護されたコンピューティング」システムや「マイ広告センター」を立ち上げていることから、Google がユーザーのプライバシー データを非常に重視していることがわかります。

技術の枠を超えてGoogleを見ると、ベテランのインターネットプレーヤーとして、Googleは徐々に「検索ボックス」から抜け出し、さまざまなセンサーデバイスからのデータを活用してユーザーを「理解」し「喜ばせる」ようになっています。もはや「使いやすい」製品を作ることに限定されず、優れた製品がユーザーを中心にどのようにより良いコラボレーションを実現できるかに重点を置いています。

「インターネットの理解」から「ユーザーの理解」へ、これが今日のインターネット後半においてすべての企業が直面する命題なのではないかと著者は考えています。

<<:  Slik-wrangler、機械学習と人工知能のデータ前処理とモデリングのためのツール

>>:  ライブ放送週レビュー日記1日目: 価値の再形成の力についての洞察、機会と課題が目の前にあります

ブログ    
ブログ    
ブログ    

推薦する

SurfelGAN でメタバースを作成する車の脳を訓練するためにシムシティを立ち上げるお金がないからですか?

自動運転はディープラーニングの重要な応用分野です。長年にわたる蓄積の結果、現在では科学研究者が AI...

...

ビッグデータに責任を負わせないでください。スモールデータをうまく活用する方が効果的かもしれません。

誰もがビッグ データについて語っていますが、大規模なデータ セットを処理するにはより多くのストレージ...

ガートナー:2025年までにデータセンターの半数がAI対応ロボットを導入

ガートナーは11月11日、2025年までにデータセンターの半数が人工知能と機械学習機能を備えた高度な...

...

ベンジオとヒントンの絶え間ない探求:ディープラーニングアルゴリズムが脳の学習方法を明らかにする

[[384610]] 「脳の学習メカニズムや学習方法の一部を解明できれば、人工知能はさらに進歩できる...

...

Amazon のニューラル ネットワークに関する書籍トップ 10

近年、データサイエンスとデータマイニングの人気が高まっています。ニューラルネットワークとディープラー...

2019 年に注目すべき 11 の JavaScript 機械学習ライブラリ

ほとんどの機械学習は Python などの言語で行われますが、フロントエンドとバックエンドの両方にお...

人工知能とモノのインターネット:完璧な組み合わせ

IoT デバイスのデータ生成の基本的な能力と、さまざまなデバイスのインテリジェントな動作をシミュレー...

ガートナー、中国企業向け人工知能トレンド ウェーブ 3.0 を発表

2023 年 6 月 13 日 – 先日開催された 2023 年 Greater China Exe...

95 年以降の DAMO アカデミーのインターン生がマイクロソフトに勝ち、最も難しい NLP タスクの世界記録を更新

アリババAIは、常識QA分野の権威あるデータセットであるCommonsenseQAで新たな世界記録を...

小さなロバが勤務中です!アリババの物流ロボットが11月11日に浙江大学菜鳥駅で荷物を配達する契約を締結

誕生から2か月も経たないうちに、アリババの物流ロボット「小曼路」が稼働を開始した。 10月30日、小...

...