翻訳者 | 張野貴 校正 | 孫淑娟 良策 インテリジェント仮想アシスタント市場の洞察インテリジェント バーチャル アシスタント (IVA) は、インテリジェント パーソナル アシスタント (IPA) とも呼ばれ、顧客のメタデータ、以前の会話、ナレッジ ベース、地理位置情報、その他のモジュール データベースやプラグインなどの環境から情報を抽出して、パーソナライズされた応答を生成する AI 駆動型エージェントです。 Mordor Intelligenceによると、インテリジェント仮想アシスタント市場は2020年代に急速に成長し、2026年には62億7000万ドルに達すると予想されています。 AI アシスタント テクノロジーは多くの点で従来のチャットボットに似ていますが、次世代の分析、機械学習、AR/VR、データ サイエンスを統合しています。従来のチャットボットはマルコフ連鎖やその他の同様のプロセスに基づいて応答要求を処理できますが、その静的応答機能はインテリジェントな仮想アシスタントの動的な洞察に匹敵するものではありません。 最もよく知られている仮想アシスタントの 1 つは、消費者向けのパーソナル アシスタント製品である Apple の Siri です。その他のインテリジェント仮想アシスタントには、Amazon の Alexa、Microsoft の Cortana、Google の Google Assistant などがあります。 Siri などの仮想アシスタントは、音声プロンプトを通じて顧客が簡単にコマンドを実行できるようにし、スマートフォンでのアラームの設定、テキスト読み上げ技術を使用した電子メールの読み上げ、音楽の再生や検索、テキスト メッセージの送信などのタスクを自動化します。スマートフォンにおけるインテリジェントな仮想アシスタントの普及により、自動車メーカーによる採用も広まりました。 アジア太平洋地域は、ヘルスケア、テクノロジー、金融の各分野で著しい成長が見込まれる、インテリジェントな仮想アシスタントに関して注目すべき重要な市場です。この業界の大手企業としては、Apple、Inbenta Technologies、IBM、Avaamo、Sonos などが挙げられます。 IVA テクノロジーのユーザーは、ヘルスケア、通信、旅行・ホスピタリティ、小売、BFSI の各分野にわたります。消費者向け製品には、スマートスピーカー、スマートフォン、自動車、商用車、家庭用コンピューター、ホームオートメーション家電などが含まれます。 IVA と IPA が依存する基盤技術には、機械学習、認知コンピューティング、テキスト読み取り、音声認識、コンピューター ビジョン、AR などがあります。これについては後で詳しく説明します。 企業が AI アシスタントを開発するのはなぜでしょうか?Apple ユーザーであれば、おそらく Siri のない生活は想像できないでしょう。 Amazon Alexa、Google Assistant、Samsung Bixbyなど、大手ブランドのほとんどはAIアシスタントの開発に投資しています。では、なぜ企業はこのようなことをするのでしょうか? AI を使用してこのようなソリューションを作成する主な利点は、AI が大量のデータを効率的かつ迅速に処理し、洞察を生成し、インテリジェントな推奨事項を提供できることです。音声キャプチャと音声認識を搭載した AI アシスタントを使用すると、カレンダーへのイベントの追加、リマインダーの設定、毎月の支出の追跡など、さまざまな日常的なタスクを簡単に実行できます。 Statistaによると、2024年までに世界中で80億台以上のデジタル音声アシスタントが使用されるようになると予想されており、これは世界の人口とほぼ同数です。 ビジネスに仮想アシスタントを構築する主な利点は次のとおりです。
企業が顧客サポートと、レゴブロックのような企業のツールチェーンの複雑な部分を統合できることは、インテリジェントな仮想アシスタントの重要な利点です。二次開発を通じて、仮想アシスタントはあらゆるデータベースやリソースに接続して重要な情報を提供し、あらゆるレベルでワークフローを最適化できます。 AIバーチャルアシスタントの種類AI 仮想アシスタントには、チャットボット、音声アシスタント、AI アバター、ドメイン固有の仮想アシスタントが含まれます。
さらに、特定のタスク用に作成された仮想アシスタント テクノロジーも見つかります。例えば、人工知能と3DモデリングをベースとしたATP(Avatar to Person)技術により、障害を持つ人々が「仮想顔再構成」や「音声生成シミュレーション」などのタスクを実行し、自由なオンラインコミュニケーションを実現することが可能となります。 AIアシスタントを支えるテクノロジーSiri のようなパーソナル仮想アシスタントを作成したい場合、どのようにすればよいでしょうか? 最も簡単な方法は、Siri をアプリに直接統合することです。 Siri に加えて、Cortana や Google Assistant も広く統合され、開発者に使用されています。 2016 年に、Apple は Siri SDK をリリースしました。この開発キットを使用すると、プログラマーは独自のアプリケーションの機能を Siri が実行できるタスクに統合できます。 SiriSDK は、Intent をユーザー インテントのラベルとして使用し、インテントをカスタム クラスおよび属性に関連付けます。 既存の AI アシスタント オプションに依存したくない場合は、独自のソリューションを構築するために AI エンジニアの専門チームが必要になります。インテリジェントな仮想アシスタントの背後にある主要な AI テクノロジーを詳しく見てみましょう。 音声テキスト変換とテキスト音声変換インテリジェントな仮想アシスタントについて言えば、少なくとも音声テキスト変換 (STT) 機能とテキスト音声変換 (TTS) 機能が必要です。 音声テキスト変換 (STT) の基本原理は、人間の音声をデジタル信号に変換することです。話すと、空気中に一連の振動が生じます。ソフトウェアは、アナログ-デジタル コンバーター (ACD) を使用してそれらをデジタル信号に変換し、音を抽出してセグメント化し、既存の音素と照合します。音素とは、異なる単語を区別できる言語の最小の音の単位です。システムは複雑な数学モデルに基づいてこれらの音素を個々の単語やフレーズと比較し、ユーザーが話した内容のテキストを作成します。 テキスト読み上げ (TTS) はその逆を行い、テキストを音声出力に変換します。 TTS は、機械学習を使用してテキストを人間の音声に変換するコンピューター生成テクノロジーです。このシステムは、まずテキストを単語に変換し、次にそれを音声に書き起こし、最後に書き起こしを音声に変換するという 3 つのステップを踏みます。 仮想アシスタント技術における音声テキスト変換 (STT) とテキスト音声変換 (TTS) の役割は、ユーザーとアプリケーション間のスムーズで効率的なコミュニケーションを確保することです。静的コマンドを使用する基本的な音声アシスタントを、使用可能な AI アシスタントに変えるには、プログラムがスマート タグとヒューリスティックを通じてユーザーの要求を解釈できるようにすることも必要です。 コンピュータビジョンコンピューター ビジョン (CV) は、デジタル画像やビデオなどの視覚入力から意味のある情報を抽出できる人工知能テクノロジーです。コンピューター ビジョンは、ビジュアル仮想アシスタントを作成する上で不可欠な要素です。これらのアシスタントは音声だけでなく、開発者が作成したビデオにも応答できるため、ユーザー エクスペリエンスが大幅に向上します。 CV により、システムはコミュニケーションにとって非常に重要なボディランゲージを認識できるようになります。ビジュアル仮想アシスタントはカメラからデータを収集し、リアルタイムの顔検出を使用して誰かが画面を見ている時間をキャプチャし、システムの残りの部分を駆動してユーザーの音声をテキストに変換します。 CV は、ユーザーの発話内容と顔や口の動きを比較することで、音声認識の精度を大幅に向上させることもできます。 騒音制御ノイズ制御は、音声アシスタントの精度にとってもう一つの重要な機能です。多くのスマートフォンにはソフトウェアベースのノイズ制御および抑制機能が搭載されていますが、これがすべての顧客に機能するとは期待できません。オンボードのノイズ抑制ソフトウェアの不足を補うために、最高級の Bluetooth ヘッドフォンにはハードウェア ノイズ抑制機能が搭載されていますが、だからといって AI アシスタントが騒がしい電車の中で顧客の言っていることを正確に検出できるという保証はありません。統合されたノイズ制御パッケージを使用すると、音声クエリを誤って解釈するリスクを最小限に抑えることができます。 音声圧縮顧客のローカル ハード ドライブを音声データでいっぱいにするつもりがない限り、AI アシスタントは処理のために音声情報を一時的に保存する必要があります。したがって、音声圧縮は重要ですが、開発者は注意を払う必要があります。これは、オーディオ ファイルが非常に小さく圧縮され、忠実度が低くなり、処理中に話された内容を復元することが困難または不可能になるためです。圧縮技術は急速に発展しており、音声アシスタント用のオーディオ コーデックと圧縮ソリューションについても、さらに詳細な研究が必要です。 自然言語処理AI アシスタントは受信した音声データを処理および解釈し、要求されたコマンドを実行する必要がありますが、自然言語処理 (NLP) は音声認識プロセスを簡素化します。多くの AI ツールキットは数え切れないほどの時間の音声サンプルで事前トレーニングされていますが、ユースケースに合わせて精度を調整するには十分な顧客データが必要です。 AI アシスタントが音声で応答したい場合は、リアルで明瞭な音声を生成できる Google Cloud のような一流の音声合成ソリューションが必要になります。 しかし、音声処理だけでは、人の実際の意図を推測し、通常の会話を維持するには不十分です。このリクエストを正しく解釈するには、自然言語理解が必要です。 自然言語理解自然言語理解 (NLU) は自然言語処理とは異なるアプローチであり、ほとんどのコンピューター サイエンティストやデータ サイエンティストによって NLP の分野と見なされています。 NLP アプローチでは、コマンド処理のために自然言語を解析、トークン化、標準化された構造に正規化しますが、NLU は自然言語を正規化せずに解釈し、コンテキストを認識することでクエリから意味を導き出します。つまり、NLP は文法や構造を処理し、ユーザーによるスペルミスを補正しますが、NLU はリクエストの背後にある実際の意図をチェックします。 自然言語生成自然言語生成 (NLG) は自然言語出力を生成します。このテクノロジーにより、ユーザーは仮想アシスタントやチャットボットから人間のような応答を受け取ることができます。 NLG に使用されるモデルとテクニックはプロジェクトの目標と開発アプローチによって異なりますが、最も単純なアプローチはテンプレートです。テンプレートには事前に定義された構造があり、少量のデータのみを入力する必要があります。入力データは、スプレッドシート内のデータ行、データベース内のレコードなどになります。 もう 1 つのアプローチは動的 NLG です。これにより、開発者は特別なケースごとにコードを記述する必要がなくなり、システムが独自に反応できるようになります。これは、機械学習アルゴリズムに依存する、より高度なアプローチです。 ディープラーニングテキストに基づいて応答するチャットボットは、音声アシスタントよりもはるかにシンプルです。音声変換のためにテキストを解釈する必要がないため、チャットボットを構築するときにそれほど多くのツールは必要ありません。 GPT-3 などの次世代テキスト生成テクノロジーは、基本的な要求への応答だけでなく、「シード」からニュース記事全体を生成することもできます。 ディープラーニングによりこれが可能になります。 ディープラーニング アルゴリズムを搭載した仮想アシスタントとチャットボットは、独自のデータと人々の会話から学習し、顧客とサポート エージェント間のやり取りを調べ、一致するメッセージと応答を作成し、ユーザーのスペルミスや文法エラーを修正することができます。 拡張現実拡張現実 (AR) を使用すると、3D オブジェクトを現実世界に重ねて、没入感のある体験を実現できます。 AR ベースのモバイル チャットボットと AR アバターは、このテクノロジーを活用した優れた例です。たとえば、Arcade はイーストロンドンの Ragged School 博物館向けに、Miss Perkins という名前のモバイル AR アバター チャットボットを作成しました。アシスタントは、博物館の訪問者にガイドを提供し、クイズを提供して、インタラクティブなユーザー エクスペリエンスを強化します。 インテリジェントなモバイル AR チャットボットのもう 1 つの例は、ウィーン技術博物館のチャットボットです。このチャットボットの機能には、テキスト、画像、ビデオ、オーディオ形式でのツアー案内や、特定のアイテムに関するユーザーの質問への回答などがあります。 メタバースと VR テクノロジーの台頭により、当然のことながら仮想アシスタント、つまり 3D AI アバターが誕生しました。人工知能と組み合わせることで、AR 仮想アシスタントは既存の AR ツールの限界を打ち破り、より実用的になります。たとえば、ディープラーニングにより、インテリジェントな仮想アシスタントはユーザーの行動をリアルタイムでキャプチャし、ニューラル ネットワークの自律トレーニングを実行し、仮想アシスタントのパフォーマンスを向上させることができます。 生成的敵対ネットワークニューラル ネットワークを使用したアルゴリズム アーキテクチャとして、Generative Adversarial Networks (GAN) は、データを合成する新しい方法を生み出しました。 GAN は、認識装置に送られる実際の画像サンプルと、AI アバターや 3D アシスタント用のリアルな 3D 顔を生成するジェネレーターで構成されています。 GAN テクノロジーは、リアルなキャラクターを作成するために多くのビデオ ゲームや製品で使用されてきました。 GAN は、静止画像をフルデプス 3D 画像に変換するためにも使用できます。おそらく、これまでで最も先進的な AI アバター統合ツールは、リアルでリアルタイムの対面会話を可能にする Nvidia の Omniverse Avatar Project Maxine です。 感情的知性AI アバターや 3D 仮想アシスタントの場合、重要なのは声ではなく、ボディランゲージと人間の感情です。 AI を活用した感情知能 (EI) の助けを借りて、インテリジェントなパーソナル アシスタントは、コミュニケーション中にユーザーの非言語的行動をリアルタイムで追跡し、それに応じて応答することができます。 Emotion AI で顔の表情、ボディランゲージ、音声を追跡して人間の感情を監視することで、より迅速な対応が可能になります。 Emotion AI の中核となるのは、コンピューター ビジョンと機械学習アルゴリズムです。標準的なウェブカメラまたはスマートフォンのカメラを使用して顔を撮影し、コンピューター ビジョン アルゴリズムを使用して人の顔の主要な特徴点を識別し、動きを追跡して感情を解釈します。次に、システムは収集したデータをテンプレート画像のライブラリと比較し、顔の表情の組み合わせに基づいてその人の感情を判断します。 Affectiva や Kairos などのソリューションは、幸福、悲しみ、怒り、軽蔑、嫌悪、恐怖、驚きといった感情を測定できます。 会話から感情を認識することもできます。一部のソフトウェアは、人が何を言うかだけでなく、どのように言うかも分析できます。このソフトウェアは、音程、音量、リズムの変化を識別するのに役立つパラ言語的特徴を抽出し、それを人間の感情として解釈します。 仮想AIアシスタント技術の課題と将来仮想アシスタント技術の応用には、間違いなくいくつかの課題が伴うでしょう。 AI 支援技術の将来に関する大きな懸念は、データの保存と使用に関する法律です。 AI トレーニングのための顧客データの無制限の使用は、世界中のデータ セキュリティ法の変更の影響を受けやすくなります。 Meta(旧Facebook)などの企業の物議を醸すデータポリシーは、大々的に報道された内部告発スキャンダルを受けて、企業の権限の濫用やプライバシー問題に関する懸念を引き起こしている。 したがって、AI アシスタント アプリケーションを開発する際には、欧州連合が制定した一般データ保護規則 (GDPR) などのプライバシーとデータ保護の要件を考慮することが重要です。アプリが完全に準拠していることを確認する必要があります。 治安機関による安全保護の問題もあります。エンドツーエンドの暗号化、二要素認証、生体認証などのセキュリティ メカニズムは、AI アシスタント アプリケーションを保護するための最良の方法の一部です。さらに、経験豊富な AI エンジニアのチームが、機械学習アルゴリズムを活用したカスタマイズされたセキュリティ システムの開発をお手伝いします。 課題はあるものの、AI アシスタント テクノロジーの将来は明るいようです。テクノロジーの進歩により、よりスマートな仮想アシスタントの開発も促進されています。 NLP プロセスが進化し続けると、仮想アシスタントはより複雑なタスクを実行できるようになります。特に、インテリジェントな仮想アシスタントは、自己学習アルゴリズムに基づいて積極的な提案を行うことができるようになり、ユーザーにとってより役立つものになります。 メタバースの開発は、人工知能仮想アシスタントとも密接に関連しています。 AI アバターは、3D の世界でユーザーのアイデンティティを表現する最良の方法であり、AI によって画像がよりリアルになります。体の動きに関する研究に基づいて、このモデルはヘッドセットとコントローラーの位置に基づいて肩と肘の位置を学習し、正確に予測することができます。 翻訳者紹介51CTOコミュニティの編集者である張野貴氏は、長年にわたり企業の情報化構築に従事しており、情報統合、データガバナンス、人工知能の応用に尽力しています。主にサービスの標準化とソフトウェアプロセスの改善に焦点を当て、企業の効率と価値の革新の向上を支援しています。 原題: 2022 年にマシン生成仮想アシスタントが生産性を 10 倍にする方法、著者: Evgeniy Krasnokutsky |
<<: 6144個のTPU、5400億個のパラメータ、バグ修正、ジョーク解釈など、GoogleはPathwaysを使用して大規模なモデルをトレーニングしました
>>: Python 用 OpenCV について Dlib を使って顔検出を実装する
執筆者 | 王 瑞平校正 | Yun Zhao最近また「100均戦争」が始まってます…一輪の花が春を...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
自然言語処理や画像分類から翻訳など、ほとんどの機械学習タスクは、モデル内のパラメータやハイパーパラメ...
1. 機械学習の定義機械学習はコンピュータサイエンスのサブフィールドであり、人工知能の分野および実装...
実際のアプリケーションでは、顔認識は認識精度に対する要求が高いだけでなく、高い効率も求められます。特...
10月24日、DeePhi Technologyの2017年新製品発表会が北京の朗園にあるVinta...
基礎知識がない人でも機械学習に切り替えることは可能ですか?機械学習には一定の数学的基礎が必要であり、...
本日、Yushu Technology は、中国で正式に一般に公開される初の四足歩行ロボットとなる四...
[[435016]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
PlaidML と呼ばれるこのツールを使用すると、NVIDIA、AMD、または Intel のグラフ...
【51CTO.comオリジナル記事】 1. 背景紹介---VODソース配信の問題点オンデマンドビデオ...
2011年、Google DeepMindの共同創設者であるシェーン・レッグは、2028年までにAI...
2023年6月、Ant Groupはデータベース分野の大規模モデルフレームワークであるDB-GPT...