音声インターフェース:私たちはインタラクションの次の時代の瀬戸際にいる

音声インターフェース:私たちはインタラクションの次の時代の瀬戸際にいる

[[185877]]

コンピュータ処理、音声認識、モバイル通信、クラウドコンピューティング、ニューラルネットワークなどの技術が成熟するにつれて、音声インターフェース技術は飛躍的な進歩を遂げ、仮想音声アシスタントサービスの開発は変革期に入りました。

あなたはこの話を聞いたことがあるかもしれません。 1979 年、若き日のスティーブ・ジョブズはカリフォルニア州パロアルトのゼロックス PARC を訪れ、PARC が開発中だったコンピュータ グラフィカル ユーザー インターフェイスを目にしました。 PARC のエンジニアは、プロトタイプのマウスを使用してコンピューターを操作し、メニューをプルダウンしたり、重なり合ったコンピューターのウィンドウをクリックしたりしました。デモンストレーションを通して、ジョブズは物事が以前とはまったく異なる方法で動作するのを目にした。ジョブズは後にこう語っている。「10分も経たないうちに、すべてのコンピューターがいつかはこのように動作するようになるだろうと私には明らかになった。」

伝説によれば、ジョブズ氏はアップルのチームを率いて PARC のグラフィカル ユーザー インターフェイスをコピーしたそうです。その後の約 40 年間で、最初の Macintosh から最大の iPhone に至るまで、パーソナル コンピュータのテクノロジーは前例のないペースで進歩し始めました。コンピュータのグラフィカル ユーザー インターフェイスは、コマンド ラインやテキスト インターフェイスの欠点を克服し、より多くの一般の人々をコンピュータの世界に引き込み、より多くの人がコンピュータを使用できるようにします。必要なスキルは、マウスをポイント、クリック、またはドラッグすることだけです。

そう遠くない将来、私たちは PARC によって作成されたグラフィカル ユーザー インターフェイスと、誤った決定によって逃したパーソナル コンピュータ開発の黄金時代を嘆き続けることになるでしょう。しかし、ジョブズが PARC を訪問した当時、別の独立したチームが、人間とコンピューターのインタラクションのまったく新しいモデル、今日では会話型ユーザー インターフェイスと呼ばれているものの開発に取り組んでいました。これらの科学者たちは、数十年後にはコンピューターが非常に強力になり、ユーザーにコンピューター操作に関するすべてのコマンドを覚えてもらうことがまったく不可能になる世界を思い描いていました。科学者たちは、ユーザーが逆方向に作業し、インターフェースが通常の人間の言語である、変化した方法でコンピューターと共同作業を行うようになると想像しています。

会話型ユーザーインターフェースに取り組んでいるチームの中には、ロン・カプランという科学者がいました。彼は、あごひげを生やし、薄毛になっている、ずんぐりとした外見だが物腰柔らかな男性です。カプラン氏は言語学者、心理学者、コンピューター専門家であり、有名な言語学者ノーム・チョムスキーの理論を人間とコンピューターの相互作用言語の再構築に応用しています。カプラン氏は、1970 年代には彼のチームが開発した会話型ユーザー インターフェイスがまだ実用化には程遠いものであったと指摘しました。彼らは、ユーザーが標準英語でフライトを予約できる会話型ユーザーシステムを開発することに成功しました。しかし、この技術は大規模な体系的な作業には利用できないため、普及させることができません。カプラン氏は「当時、この技術はユーザー1人あたり約100万ドルと高価すぎた」と語った。実際、この技術には、より高速な処理速度、よりスマートで効率的な分散処理コンピュータが必要だ。カプラン氏は当時、15年かかると見積もっていた。

カプラン氏は現在、「40年経って、ようやく準備が整いました」と語る。

カプラン氏は現在、音声認識ソフトウェア会社である Nuance Communications の上級科学者兼副社長を務めている。同社は世界最大級の音声インターフェース企業の一つです。同社はフォードの車載音声システム「Sync」を開発し、アップルのSiriの開発にも重要な役割を果たした。さまざまな業界と良好な協力関係を築いている。しかし最近、Nuance は音声インターフェース市場に参入する企業が急増しているのを目にしています。Amazon や Intel から Microsoft や Google まで、ほぼすべての大手テクノロジー企業が会話型ユーザーインターフェースに取り組んでおり、数十のスタートアップ企業もそれに取り組んでいます。私たちは音声インターフェース技術の革命の真っ只中にあります。これらの企業は、近い将来、ユーザーはまるで友人と話しているかのようにデバイスを操作できるようになると考えています。ユーザーのデバイスは、ユーザーが何を言っているのか、何を意味しているのかを聞き取ることができます。

現代社会の技術の発展に驚かされるかもしれませんが、これらの新しいツールとインターフェースはデジタルライフをさらに広げ、セキュリティ、親しみやすさ、使いやすさの面でグラフィカル ユーザー インターフェースの欠点を克服します。自然言語に近い会話型インターフェースにより、ユーザーとテクノロジーの関係がさらに狭まり、より親密でフレンドリー、そしてパーソナライズされたものになります。

この技術の大きな変化はシリコンバレーだけでなく、一般大衆にも利益をもたらすでしょう。スティーブ・ジョブズは 1979 年にグラフィカル ユーザー インターフェイスの重要性を認識し、それがコンピュータ市場を拡大する重要な方法であることを知っていました。しかし、グラフィカル ユーザー インターフェイスがあっても、依然として大勢のユーザーがサイバースペースにアクセスできない状態が続いています。それでも、ユーザーはコンピュータ言語を学習する必要があります。そして今、音声技術の発達により、コンピューターは最終的に人間と直接コミュニケーションする方法を学ぶことになるでしょう。人類は継続的な学習と改善を通じて、科学技術の世界へとつながるバベルの塔を開きます。

しかし、音声技術は長年存在しているものの、まだ十分に成熟していないことも明確にしておく必要があります。もちろん、現在の電話自動応答システムは非常に優れているという例を挙げることができます(支払いのために電話をかけるときに、「支払う」と言うことで対応する機能を呼び出すことができます)。実際、現在の音声インターフェースは固定言語に依存しており、場合によっては自然言語機能が欠けています。たとえば、Google Now にニューヨーク市の人口を尋ねると、流暢に答えてくれます。また、エンパイア ステート ビルの場所を尋ねると、同じように返答してくれます。しかし、エンパイア・ステート・ビルを含めてニューヨーク市に何人の人が住んでいるかを尋ねても、答えることはできない。同じことは、Google 検索を呼び出すのを主な機能とする Apple の音声アシスタント Siri にも当てはまります。現在の音声インターフェースは、映画で描写されているシーンとは依然として大きく異なります。

しかし、シリコンバレーを歩き回り、音声インターフェースを取り巻くテクノロジーについて人々と話をすると、彼らの反応は同じです。今は状況が変わったのです。

6月上旬のある日、音声認識会社サウンドハウンドのCEO、キーヴァン・モハジェル氏が、同社が10年近くかけて開発してきたアプリのプロトタイプを私に見せてくれた。 SoundHoundは以前、音声認識で人気音楽を検索できるアプリをリリースした。ユーザーが携帯電話に向かって歌をハミングすると、アプリはハミングされている曲名を認識して検索することができます。結局のところ、このアプリは、世界で最も先進的な音声ベースの人工知能技術を開発するというモハジェル氏の夢のほんの一部に過ぎない。

モハイヤー氏が私に見せてくれたアプリのプロトタイプは「Hound」と呼ばれています。モハジャー氏はNexus 5スマートフォンを掲げ、マイクのアイコンをタップしてアプリを開き、ハウンド氏に質問を始めた。それはベルリンの現地時間や日本の人口といった簡単な質問から始まり、アプリは正しい答えを出しました。するとモハイヤー氏は話題を変えて、「それで、彼らの間の距離はどれくらいですか?」と尋ねた。

ハウンドは前の会話を理解し、すぐに「約5,536マイル」と答えました。

そんな疑問が次々と湧いてきたが、ハウンドはそれらすべてに流暢に答えた。モハイヤー氏はハウンド氏に、必要な金利と条件に基づいて100万ドルのローンの月々の住宅ローン支払額を計算するよう依頼し、ハウンド氏はすぐに計算して4,270.84ドルになった。

モハジェル氏はさらに、「スペースニードルがある国の首都の人口はどれくらいですか?」と質問した。

ハウンドは、モハエルがワシントンの人口について尋ねていることを指摘し、すぐに答えた。 「日本と中国の人口はどれくらいですか?首都はどこにありますか?国土の面積は何平方マイルですか?何平方キロメートルですか?インドには何人の人が住んでいますか?ドイツ、イタリア、フランスの市外局番は何ですか?」モハジャールは一連の質問をし、ハウンドはそれらすべてに正しい答えを出した。

Hound はまだベータ版ですが、これまでで最も高速かつ強力な音声認識システムかもしれません。音声認識と自然言語処理を同時に実行できるため、現在の技術と市場の需要を満たします。実際、さまざまな音声認識システムが急速に発展するのは時間の問題です。

結局のところ、現在、音声インターフェース技術の基本技術、カプラン氏が「ゲーティング技術」と呼ぶものは成熟しており、コストも許容できるレベルになっています。これはテクノロジーの融合の典型的な例です。コンピューター処理、音声認識、モバイル通信、クラウド コンピューティング、ニューラル ネットワークなどのテクノロジーがすべて成熟し、許容できるコストに達したため、会話型ユーザー インターフェイスが商業的に実現可能になりました。

さらに、会話型ユーザー インターフェイスの開発を推進するのは、関連テクノロジの成熟度だけではありません。客観的な市場の需要も、その開発を推進する重要な要素です。家庭内の照明や煙探知機など、ディスプレイのないデバイスがインターネットに接続されるケースが増えるにつれ、ボタンやメニュー、アイコンを使わずにこれらのデバイスと対話できる現実的な方法も必要になります。

一方、グラフィカル ユーザー インターフェイスは、その自然な限界に達しています。プログラムにはますます多くの機能が追加され、グラフィカル ユーザー インターフェイスのメニューやアイコン オプションはますます複雑になっています。 Photoshop や Excel は強力ですが、メニュー項目が多数あったり、さまざまなショートカット キーの使い方を覚えておく必要があったりすることを想像できます。写真をトリミングする場合でも、カラフルなツールバーから適切なオプションを見つける必要があります。カプラン氏は、「グラフィカル・ユーザー・インターフェースは限界に達しており、今や過負荷状態に陥っている」と述べた。

これは、複雑なインターフェース ウィンドウ、ツールバー、メニュー オプションに圧倒されたときに救いの手を差し伸べ、ユーザーとデバイスの間に便利で効率的な接続を確立する、これから登場する仮想音声アシスタント市場です。

私たちとバーチャルアシスタントの関係はまだ親密ではないかもしれませんが、それはすぐに変わります。この秋、新しい一連のスマートフォンが発売され、対応する会話型ユーザーインターフェースの開発はすぐに飛躍的に進むでしょう。 iOS 9、Andriod 6、または Windows 10 にアップグレードすると、組み込みアプリケーションの使用頻度が減り、Apple の Siri、Google の Google Now、Microsoft の Cortana の使用頻度が高くなることがわかります。近い将来、数十億人の Facebook ユーザーがチャット ウィンドウを開き、インテリジェントな音声アシスタントを通じてさまざまな機能を呼び出すことができるようになります。音声インターフェースは補助的な手段ではなく、主流かつ第一の選択肢になるでしょう。場合によっては、それがユーザーにとって唯一の選択肢となることもあります。たとえば、Apple の HomeKit システムでは、すべてのデバイスの電源がオフになっていることを確認する唯一の方法は、Apple の音声アシスタントに「おやすみ、Siri」と言うことです。

これらの仮想音声アシスタントを開発する本来の目的は、複雑さを簡素化することです。今日のユーザーにとって、頻繁に使用するドロップダウン メニューの操作は複雑すぎる上、関数の呼び出しには次の手順が必要となり、プロセスが煩雑になります。対照的に、仮想音声アシスタントは携帯電話のすべてのプログラムとすべての機能を認識しており、話すだけでこれらの機能を呼び出すことができます。そして時間が経つにつれて、この AI はすべてを知るようになります。

音声テクノロジーはタッチスクリーン、さらにはマウスやキーボードを完全に置き換えるものではないことに注意する必要があります。デスクトップを使用する必要がある場合は、これらの人間とコンピューターの対話方法を必ず維持します。多くの場合、仮想音声アシスタントに「トリミング ツールはどこですか?」などの機能にアクセスする方法を尋ねることになります。

ただし、特定のグループの人々にとっては、会話型ユーザー インターフェイス テクノロジの開発により、グラフィカル ユーザー インターフェイスの使用が大幅に置き換えられることになります。たとえば、若者の中にはキーボードではなくマイクを使ってテキストを入力する人もいます。 「彼らは単にタイピングをしないのです」と、音声メッセージング アプリ Cord の創設者兼 CEO である Thomas Gayno 氏は言う。そして、さらに多くの人々にとって、グラフィカル ユーザー インターフェイスは単純に使用に適していないのだ。視覚障害のある人や高齢者は、グラフィカル ユーザー インターフェイスの前でこの障害の影響を受けます。したがって、現代のコンピュータ インターフェースを「直感的」と呼ぶのは正確ではありません。

クリス・モーリーはこれを直接知っています。 2010年の夏、この24歳の起業家は博士号取得を目指していたが、学校を中退し、自分のビジネスを立ち上げた。しかし、長時間夜更かしを続けた結果、視力が徐々に低下していった。医師は、視力が徐々に低下し、完全に失明することもあるシュタルガルト病と診断した。

技術者であるマレー氏は、コンピューターの画面が見えない状況にどう対処するかを考えなければなりませんでした。しかし、米国全土の2,000万人の視覚障害者にとっては、スクリーンリーダー以外の選択肢はありません。

スクリーン リーダーを使用するには、ユーザーはキーボードを使用してカーソルを移動し、読みたい画面テキストを選択し、それを長い URL に変換して、機械語で読み上げる必要があります。関連機器には数千ドルの費用がかかり、数十時間のトレーニングも必要になります。デジタル環境が複雑になるにつれて、スクリーン リーダーの使い勝手はますます悪くなります。 「グーグル検索を開くだけでも、どれだけ多くの手順が必要なのかと思うと恐ろしい」とマレー氏は言う。

[[185878]]

マレーさんの視力が衰え始めたとき、彼は何が起こっているのかを知るために頻繁にブラインドツイッターを訪れました。モリーは、視覚障害者のためのテクノロジーが切実に必要とされていることを理解し始めました。彼は、特定のユーザーにとって音声インターフェースの方が便利であることに気づき、ほぼ同時に、関連する音声テクノロジーがシリコンバレー全体で普及しました。

そこで、モリーは視覚障害者のための技術の開発に着手しました。彼は音声インターフェース技術を開発するためにConversant Labsという会社を設立しました。同社の最初の製品は、SayShoppingというiPhoneアプリで、これによりTarget.comから音声だけで商品を購入することが可能になった。しかし、マレー氏はさらに大きな構想を描いている。同社は今年後半に音声インターフェース フレームワークをリリースし、iOS アプリ開発者向けの会話型インターフェースを提供する予定だ。マレー氏はまた、頭の動きでコマンドを発行できる、音声技術に完全に基づいたコンピューターアプリケーション環境の開発も望んでいる。 「これらの実装はすべて可能であり、作成する必要があるだけだ」とマレー氏は語った。

2014年秋、AmazonはEchoという新製品をリリースしました。このスマートコントロールデバイスにはAlexaと呼ばれる仮想音声アシスタントが組み込まれており、そのスローガンは「ウェイクアップワード」です。 Echo は遠距離音声認識技術を使用しており、騒がしい部屋でも正確に音声を認識できます。また、モニタリング機能も搭載しており、自宅に居ながらいつでも話しかけることが可能です。

Alexa を使い始めた当初は、天気を教えてくれたり、基本的な質問に答えてくれたり、買い物リストを表示してくれたり、スマートフォンで音楽を再生してくれたりしましたが、それ以外にできることはあまりありませんでした。しかし、時が経つにつれて、Alexa はより賢くなり、より良くなりました。私の声を学習し、ジョークを言い、複数のタイマーを同時に実行できるようになりました。ベータ版のリリースから7か月後の2015年にようやく一般向けバージョンがリリースされ、Alexaの使い勝手はますます向上しました。私はそれを理解し、それは私を理解します。

これは会話型テクノロジーに関するより深い真実です。音声アシスタントと深く対話して初めて、その機能に気づくのです。業界の多くの企業がこのことを認識しており、音声アシスタントのパーソナライゼーションと適応性のバランスを取り、より好まれ受け入れられやすいものにするために懸命に取り組んでいます。たとえば、マイクロソフトが音声アシスタント Cortana を開発していたとき、その名前はゲーム Halo の重要なキャラクターから取られました。 「Cortana は機知と粘り強さを表しています」と Cortana エンジニアリング チームの責任者である Mike Calcagno 氏は述べています。確かに、製品の初期段階では、信頼性やメリットが低くても注目を集めるでしょう。

このアプローチには戦略的な考慮事項もあります。 Microsoft、Nuance、その他の企業の調査によると、音声アシスタントが普及し、ユーザーの習慣、環境、好み、生活を理解するようになると、音声アシスタントは欠かせないものになるという。すべてのアプリケーションやデバイスがこのような人工知能を通じて制御されるのは当然のことです。

この目的のために、Amazon、Google、Microsoft、Nuance、SoundHound のいずれの企業も、会話型プラットフォーム技術の研究開発に取り組んでいます。これらの企業は、ユーザーが自分を最もよく理解してくれる音声アシスタントを選択することを知っています。仮想音声アシスタントの準備をしましょう。さらに重要なのは、一度どれか一つを選んだら、簡単に手放さないことです。

<<:  Swift モバイル ゲーム開発に適用される幅優先探索アルゴリズム

>>:  音声認識が検索ボックスに取って代わり、人工知能が3つの主要な応用分野で主導権を握る

ブログ    

推薦する

...

研究者:AIモデルの「推論」はより多くの電力を消費し、業界の電力消費は2027年に「オランダに匹敵する」ようになる

今週10月13日、Cellの姉妹誌Jouleは「人工知能の増大するエネルギーフットプリント」と題する...

15歳の少女が農場の収穫機にヒントを得てピンポン球を拾うロボットを発明

最近、上海の15歳の中学生が卓球ボールを拾うロボットを発明した。体育館の床に散らばった卓球ボールを自...

実践的なスキル: システムレベルからディープラーニングコンピューティングを最適化するにはどうすればよいでしょうか?

画像、音声認識、自然言語処理、強化学習などの多くの技術分野において、ディープラーニングは非常に効果的...

プログラマーの面接でよく聞かれる質問: スケジュールされたタスク スケジューラを設計し、どのようなアルゴリズムとデータ構造を使用するか

学生時代、私は Huya の面接を受けたことがあります。今でもはっきりと覚えている面接の質問がありま...

ゲーム依存症対策は年々厳しくなり、顔認証対策は厳しすぎるとの報道も

[[415155]]未成年者のゲームプレイの問題に関しては、依存症防止システムが厳しすぎると不満を言...

ニューラルネットワークと人間の思考の深い関係

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

エッジインテリジェンス: AIの次の波

人工知能と機械学習 (ML) の採用が増加するにつれて、計算目的でアルゴリズムの形で大量のデータを処...

間隔適応型ルックアップテーブルに基づくリアルタイム画像強調法

最近、アリババ・タオバオ・テクノロジーと上海交通大学画像通信・ネットワーク工学研究所(IGI)による...

顔認識はどのような技術サポートに依存していますか?個人のプライバシーが漏洩するでしょうか?

[51CTO.com からのオリジナル記事] 顔認識技術は新しいものではありません。多くの人が携帯...

...

テクノロジー大手が自動運転市場への参入を急いでいる背景に、あなたが知らないことは何でしょうか?

ファーウェイは最近、「自動運転ネットワークソリューション白書」を発表しました。これは、将来のネットワ...

...

GPT-4はあなたよりも質問をするのが得意です。大きなモデルを繰り返し使用して、人間との対話の障壁を打ち破りましょう。

人工知能の分野における最新の開発では、人工的に生成されたプロンプトの品質が、大規模言語モデル (LL...

音声認識におけるCNNの応用

序文音声認識の現在の開発状況をまとめると、DNN、RNN/LSTM、CNN が音声認識における主流の...