インテリジェントな仮想アシスタントが2022年に生産性を2倍にする方法

翻訳者 | 張野貴

校正 | 孫淑娟良策

インテリジェント仮想アシスタント市場の洞察

インテリジェントバーチャルアシスタント (IVA) は、インテリジェントパーソナルアシスタント (IPA) とも呼ばれ、顧客のメタデータ、以前の会話、ナレッジベース、地理位置情報、その他のモジュールデータベースやプラグインなどの環境から情報を抽出して、パーソナライズされた応答を生成する AI 駆動型エージェントです。 Mordor Intelligenceによると、インテリジェント仮想アシスタント市場は2020年代に急速に成長し、2026年には62億7000万ドルに達すると予想されています。

AI アシスタントテクノロジーは多くの点で従来のチャットボットに似ていますが、次世代の分析、機械学習、AR/VR、データサイエンスを統合しています。従来のチャットボットはマルコフ連鎖やその他の同様のプロセスに基づいて応答要求を処理できますが、その静的応答機能はインテリジェントな仮想アシスタントの動的な洞察に匹敵するものではありません。

最もよく知られている仮想アシスタントの 1 つは、消費者向けのパーソナルアシスタント製品である Apple の Siri です。その他のインテリジェント仮想アシスタントには、Amazon の Alexa、Microsoft の Cortana、Google の Google Assistant などがあります。 Siri などの仮想アシスタントは、音声プロンプトを通じて顧客が簡単にコマンドを実行できるようにし、スマートフォンでのアラームの設定、テキスト読み上げ技術を使用した電子メールの読み上げ、音楽の再生や検索、テキストメッセージの送信などのタスクを自動化します。スマートフォンにおけるインテリジェントな仮想アシスタントの普及により、自動車メーカーによる採用も広まりました。

アジア太平洋地域は、ヘルスケア、テクノロジー、金融の各分野で著しい成長が見込まれる、インテリジェントな仮想アシスタントに関して注目すべき重要な市場です。この業界の大手企業としては、Apple、Inbenta Technologies、IBM、Avaamo、Sonos などが挙げられます。

IVA テクノロジーのユーザーは、ヘルスケア、通信、旅行・ホスピタリティ、小売、BFSI の各分野にわたります。消費者向け製品には、スマートスピーカー、スマートフォン、自動車、商用車、家庭用コンピューター、ホームオートメーション家電などが含まれます。

IVA と IPA が依存する基盤技術には、機械学習、認知コンピューティング、テキスト読み取り、音声認識、コンピュータービジョン、AR などがあります。これについては後で詳しく説明します。

企業が AI アシスタントを開発するのはなぜでしょうか?

Apple ユーザーであれば、おそらく Siri のない生活は想像できないでしょう。 Amazon Alexa、Google Assistant、Samsung Bixbyなど、大手ブランドのほとんどはAIアシスタントの開発に投資しています。では、なぜ企業はこのようなことをするのでしょうか?

AI を使用してこのようなソリューションを作成する主な利点は、AI が大量のデータを効率的かつ迅速に処理し、洞察を生成し、インテリジェントな推奨事項を提供できることです。音声キャプチャと音声認識を搭載した AI アシスタントを使用すると、カレンダーへのイベントの追加、リマインダーの設定、毎月の支出の追跡など、さまざまな日常的なタスクを簡単に実行できます。 Statistaによると、2024年までに世界中で80億台以上のデジタル音声アシスタントが使用されるようになると予想されており、これは世界の人口とほぼ同数です。

ビジネスに仮想アシスタントを構築する主な利点は次のとおりです。

顧客サポートサービスを改善し、ライブエージェントへの通話とサービスリクエストの数を削減します。 AI アシスタントを使用すると、顧客とやり取りするためのビジネスプロセスを自動化できます。これにより、従業員は自動的に処理できるリクエストに時間を浪費するのではなく、より複雑なタスクに集中できるようになります。
主要データ収集の利便性。従来のカスタマーサービス通話やチャットを通じて収集された顧客体験データでは、カスタマーサービススペシャリストが大量の電話通話を通じて収集および記録した情報をアナリストが整理する必要があります。 IVA を使用すると、顧客サービス担当者の詳細なメモに頼ることなく、顧客のリクエストと関連情報を即座にアーカイブして分類し、分析することができます。
パーソナライズされたユーザーエクスペリエンス。 AIアシスタントは、各ユーザーのニーズに基づいて高品質のパーソナライズされたサービスを提供できます。たとえば、インテリジェントなパーソナルアシスタントは、ユーザーの名前や好みを記憶できます。これにより、ユーザーエンゲージメントが向上し、顧客満足度とロイヤルティが向上します。

企業が顧客サポートと、レゴブロックのような企業のツールチェーンの複雑な部分を統合できることは、インテリジェントな仮想アシスタントの重要な利点です。二次開発を通じて、仮想アシスタントはあらゆるデータベースやリソースに接続して重要な情報を提供し、あらゆるレベルでワークフローを最適化できます。

AIバーチャルアシスタントの種類

AI 仮想アシスタントには、チャットボット、音声アシスタント、AI アバター、ドメイン固有の仮想アシスタントが含まれます。

チャットボットは誕生以来、電子商取引分野の主力となっていますが、現代のチャットボットは人工知能を搭載しており、静的な一連のイベントを通じて顧客のニーズに応えるのではなく、顧客の問い合わせについて考えることができます。
音声アシスタントは、よく知られている Siri や Google アシスタントなどの音声認識と自然言語処理を使用して音声リクエストに応答します。
AI アバターは人間を模倣した 3D モデルであり、エンターテイメントアプリケーションで使用されたり、仮想顧客サポートのやり取りに人間味を加えるために使用されます。 Nvidia などの企業の最先端技術により、ほぼ実物そっくりの人間の画像をリアルタイムで生成できます。
ドメイン固有の仮想アシスタントは、旅行、金融、エンジニアリング、サイバーセキュリティなど、高パフォーマンスに最適化され、厳しい要件を持つ特定の業界向けに設計された、高度に専門化された AI 仮想アシスタント実装です。

さらに、特定のタスク用に作成された仮想アシスタントテクノロジーも見つかります。例えば、人工知能と3DモデリングをベースとしたATP（Avatar to Person）技術により、障害を持つ人々が「仮想顔再構成」や「音声生成シミュレーション」などのタスクを実行し、自由なオンラインコミュニケーションを実現することが可能となります。

AIアシスタントを支えるテクノロジー

Siri のようなパーソナル仮想アシスタントを作成したい場合、どのようにすればよいでしょうか? 最も簡単な方法は、Siri をアプリに直接統合することです。 Siri に加えて、Cortana や Google Assistant も広く統合され、開発者に使用されています。 2016 年に、Apple は Siri SDK をリリースしました。この開発キットを使用すると、プログラマーは独自のアプリケーションの機能を Siri が実行できるタスクに統合できます。 SiriSDK は、Intent をユーザーインテントのラベルとして使用し、インテントをカスタムクラスおよび属性に関連付けます。

既存の AI アシスタントオプションに依存したくない場合は、独自のソリューションを構築するために AI エンジニアの専門チームが必要になります。インテリジェントな仮想アシスタントの背後にある主要な AI テクノロジーを詳しく見てみましょう。

音声テキスト変換とテキスト音声変換

インテリジェントな仮想アシスタントについて言えば、少なくとも音声テキスト変換 (STT) 機能とテキスト音声変換 (TTS) 機能が必要です。

音声テキスト変換 (STT) の基本原理は、人間の音声をデジタル信号に変換することです。話すと、空気中に一連の振動が生じます。ソフトウェアは、アナログ-デジタルコンバーター (ACD) を使用してそれらをデジタル信号に変換し、音を抽出してセグメント化し、既存の音素と照合します。音素とは、異なる単語を区別できる言語の最小の音の単位です。システムは複雑な数学モデルに基づいてこれらの音素を個々の単語やフレーズと比較し、ユーザーが話した内容のテキストを作成します。

テキスト読み上げ (TTS) はその逆を行い、テキストを音声出力に変換します。 TTS は、機械学習を使用してテキストを人間の音声に変換するコンピューター生成テクノロジーです。このシステムは、まずテキストを単語に変換し、次にそれを音声に書き起こし、最後に書き起こしを音声に変換するという 3 つのステップを踏みます。

仮想アシスタント技術における音声テキスト変換 (STT) とテキスト音声変換 (TTS) の役割は、ユーザーとアプリケーション間のスムーズで効率的なコミュニケーションを確保することです。静的コマンドを使用する基本的な音声アシスタントを、使用可能な AI アシスタントに変えるには、プログラムがスマートタグとヒューリスティックを通じてユーザーの要求を解釈できるようにすることも必要です。

コンピュータビジョン

コンピュータービジョン (CV) は、デジタル画像やビデオなどの視覚入力から意味のある情報を抽出できる人工知能テクノロジーです。コンピュータービジョンは、ビジュアル仮想アシスタントを作成する上で不可欠な要素です。これらのアシスタントは音声だけでなく、開発者が作成したビデオにも応答できるため、ユーザーエクスペリエンスが大幅に向上します。

CV により、システムはコミュニケーションにとって非常に重要なボディランゲージを認識できるようになります。ビジュアル仮想アシスタントはカメラからデータを収集し、リアルタイムの顔検出を使用して誰かが画面を見ている時間をキャプチャし、システムの残りの部分を駆動してユーザーの音声をテキストに変換します。

CV は、ユーザーの発話内容と顔や口の動きを比較することで、音声認識の精度を大幅に向上させることもできます。

騒音制御

ノイズ制御は、音声アシスタントの精度にとってもう一つの重要な機能です。多くのスマートフォンにはソフトウェアベースのノイズ制御および抑制機能が搭載されていますが、これがすべての顧客に機能するとは期待できません。オンボードのノイズ抑制ソフトウェアの不足を補うために、最高級の Bluetooth ヘッドフォンにはハードウェアノイズ抑制機能が搭載されていますが、だからといって AI アシスタントが騒がしい電車の中で顧客の言っていることを正確に検出できるという保証はありません。統合されたノイズ制御パッケージを使用すると、音声クエリを誤って解釈するリスクを最小限に抑えることができます。

音声圧縮

顧客のローカルハードドライブを音声データでいっぱいにするつもりがない限り、AI アシスタントは処理のために音声情報を一時的に保存する必要があります。したがって、音声圧縮は重要ですが、開発者は注意を払う必要があります。これは、オーディオファイルが非常に小さく圧縮され、忠実度が低くなり、処理中に話された内容を復元することが困難または不可能になるためです。圧縮技術は急速に発展しており、音声アシスタント用のオーディオコーデックと圧縮ソリューションについても、さらに詳細な研究が必要です。

自然言語処理

AI アシスタントは受信した音声データを処理および解釈し、要求されたコマンドを実行する必要がありますが、自然言語処理 (NLP) は音声認識プロセスを簡素化します。多くの AI ツールキットは数え切れないほどの時間の音声サンプルで事前トレーニングされていますが、ユースケースに合わせて精度を調整するには十分な顧客データが必要です。 AI アシスタントが音声で応答したい場合は、リアルで明瞭な音声を生成できる Google Cloud のような一流の音声合成ソリューションが必要になります。

しかし、音声処理だけでは、人の実際の意図を推測し、通常の会話を維持するには不十分です。このリクエストを正しく解釈するには、自然言語理解が必要です。

自然言語理解

自然言語理解 (NLU) は自然言語処理とは異なるアプローチであり、ほとんどのコンピューターサイエンティストやデータサイエンティストによって NLP の分野と見なされています。 NLP アプローチでは、コマンド処理のために自然言語を解析、トークン化、標準化された構造に正規化しますが、NLU は自然言語を正規化せずに解釈し、コンテキストを認識することでクエリから意味を導き出します。つまり、NLP は文法や構造を処理し、ユーザーによるスペルミスを補正しますが、NLU はリクエストの背後にある実際の意図をチェックします。

自然言語生成

自然言語生成 (NLG) は自然言語出力を生成します。このテクノロジーにより、ユーザーは仮想アシスタントやチャットボットから人間のような応答を受け取ることができます。 NLG に使用されるモデルとテクニックはプロジェクトの目標と開発アプローチによって異なりますが、最も単純なアプローチはテンプレートです。テンプレートには事前に定義された構造があり、少量のデータのみを入力する必要があります。入力データは、スプレッドシート内のデータ行、データベース内のレコードなどになります。

もう 1 つのアプローチは動的 NLG です。これにより、開発者は特別なケースごとにコードを記述する必要がなくなり、システムが独自に反応できるようになります。これは、機械学習アルゴリズムに依存する、より高度なアプローチです。

ディープラーニング

テキストに基づいて応答するチャットボットは、音声アシスタントよりもはるかにシンプルです。音声変換のためにテキストを解釈する必要がないため、チャットボットを構築するときにそれほど多くのツールは必要ありません。 GPT-3 などの次世代テキスト生成テクノロジーは、基本的な要求への応答だけでなく、「シード」からニュース記事全体を生成することもできます。ディープラーニングによりこれが可能になります。

ディープラーニングアルゴリズムを搭載した仮想アシスタントとチャットボットは、独自のデータと人々の会話から学習し、顧客とサポートエージェント間のやり取りを調べ、一致するメッセージと応答を作成し、ユーザーのスペルミスや文法エラーを修正することができます。

拡張現実

拡張現実 (AR) を使用すると、3D オブジェクトを現実世界に重ねて、没入感のある体験を実現できます。 AR ベースのモバイルチャットボットと AR アバターは、このテクノロジーを活用した優れた例です。たとえば、Arcade はイーストロンドンの Ragged School 博物館向けに、Miss Perkins という名前のモバイル AR アバターチャットボットを作成しました。アシスタントは、博物館の訪問者にガイドを提供し、クイズを提供して、インタラクティブなユーザーエクスペリエンスを強化します。

インテリジェントなモバイル AR チャットボットのもう 1 つの例は、ウィーン技術博物館のチャットボットです。このチャットボットの機能には、テキスト、画像、ビデオ、オーディオ形式でのツアー案内や、特定のアイテムに関するユーザーの質問への回答などがあります。

メタバースと VR テクノロジーの台頭により、当然のことながら仮想アシスタント、つまり 3D AI アバターが誕生しました。人工知能と組み合わせることで、AR 仮想アシスタントは既存の AR ツールの限界を打ち破り、より実用的になります。たとえば、ディープラーニングにより、インテリジェントな仮想アシスタントはユーザーの行動をリアルタイムでキャプチャし、ニューラルネットワークの自律トレーニングを実行し、仮想アシスタントのパフォーマンスを向上させることができます。

生成的敵対ネットワーク

ニューラルネットワークを使用したアルゴリズムアーキテクチャとして、Generative Adversarial Networks (GAN) は、データを合成する新しい方法を生み出しました。 GAN は、認識装置に送られる実際の画像サンプルと、AI アバターや 3D アシスタント用のリアルな 3D 顔を生成するジェネレーターで構成されています。

GAN テクノロジーは、リアルなキャラクターを作成するために多くのビデオゲームや製品で使用されてきました。 GAN は、静止画像をフルデプス 3D 画像に変換するためにも使用できます。おそらく、これまでで最も先進的な AI アバター統合ツールは、リアルでリアルタイムの対面会話を可能にする Nvidia の Omniverse Avatar Project Maxine です。

感情的知性

AI アバターや 3D 仮想アシスタントの場合、重要なのは声ではなく、ボディランゲージと人間の感情です。 AI を活用した感情知能 (EI) の助けを借りて、インテリジェントなパーソナルアシスタントは、コミュニケーション中にユーザーの非言語的行動をリアルタイムで追跡し、それに応じて応答することができます。 Emotion AI で顔の表情、ボディランゲージ、音声を追跡して人間の感情を監視することで、より迅速な対応が可能になります。

Emotion AI の中核となるのは、コンピュータービジョンと機械学習アルゴリズムです。標準的なウェブカメラまたはスマートフォンのカメラを使用して顔を撮影し、コンピュータービジョンアルゴリズムを使用して人の顔の主要な特徴点を識別し、動きを追跡して感情を解釈します。次に、システムは収集したデータをテンプレート画像のライブラリと比較し、顔の表情の組み合わせに基づいてその人の感情を判断します。 Affectiva や Kairos などのソリューションは、幸福、悲しみ、怒り、軽蔑、嫌悪、恐怖、驚きといった感情を測定できます。

会話から感情を認識することもできます。一部のソフトウェアは、人が何を言うかだけでなく、どのように言うかも分析できます。このソフトウェアは、音程、音量、リズムの変化を識別するのに役立つパラ言語的特徴を抽出し、それを人間の感情として解釈します。

仮想AIアシスタント技術の課題と将来

仮想アシスタント技術の応用には、間違いなくいくつかの課題が伴うでしょう。 AI 支援技術の将来に関する大きな懸念は、データの保存と使用に関する法律です。 AI トレーニングのための顧客データの無制限の使用は、世界中のデータセキュリティ法の変更の影響を受けやすくなります。 Meta（旧Facebook）などの企業の物議を醸すデータポリシーは、大々的に報道された内部告発スキャンダルを受けて、企業の権限の濫用やプライバシー問題に関する懸念を引き起こしている。

したがって、AI アシスタントアプリケーションを開発する際には、欧州連合が制定した一般データ保護規則 (GDPR) などのプライバシーとデータ保護の要件を考慮することが重要です。アプリが完全に準拠していることを確認する必要があります。

治安機関による安全保護の問題もあります。エンドツーエンドの暗号化、二要素認証、生体認証などのセキュリティメカニズムは、AI アシスタントアプリケーションを保護するための最良の方法の一部です。さらに、経験豊富な AI エンジニアのチームが、機械学習アルゴリズムを活用したカスタマイズされたセキュリティシステムの開発をお手伝いします。

課題はあるものの、AI アシスタントテクノロジーの将来は明るいようです。テクノロジーの進歩により、よりスマートな仮想アシスタントの開発も促進されています。 NLP プロセスが進化し続けると、仮想アシスタントはより複雑なタスクを実行できるようになります。特に、インテリジェントな仮想アシスタントは、自己学習アルゴリズムに基づいて積極的な提案を行うことができるようになり、ユーザーにとってより役立つものになります。

メタバースの開発は、人工知能仮想アシスタントとも密接に関連しています。 AI アバターは、3D の世界でユーザーのアイデンティティを表現する最良の方法であり、AI によって画像がよりリアルになります。体の動きに関する研究に基づいて、このモデルはヘッドセットとコントローラーの位置に基づいて肩と肘の位置を学習し、正確に予測することができます。