【専門家がここにいるエピソード6】インタラクションのための人工知能

[51CTO.comからのオリジナル記事] 今回のライブ番組「ビッグネームがやってくる」のゲストは、百度DuerOSチーフエバンジェリストの曹宏偉氏です。曹氏は「インタラクションのための人工知能」をテーマに講演し、主に音声インタラクションで使用されるASR、NLU、NLG、TTSなどのAI技術と、これらの細分化された技術に基づいて構築された対話型人工知能オペレーティングシステムDuerOSについて説明しました。この講演を通じて、誰もがインテリジェント音声インタラクションプラットフォーム上でアプリケーションを開発する方法を基本的に習得し、さらにインテリジェント音声が私たちの生活にどのように役立つかを体験することができます。

音声により人間とコンピュータのやり取りがより便利になる

インタラクションとは何ですか?相互作用とは、A と B の間の一連の動作と行動を指し、これは「真は陰と陽を分け、それらは互いに相互作用する」という『経世易経真』に由来しています。

では、人間とコンピュータの相互作用とは何でしょうか?ヒューマンコンピュータインタラクションは、システムとユーザー間のインタラクティブな関係を研究する分野です。システムには、さまざまな機械やコンピュータ化されたシステム、ソフトウェアが含まれます。ヒューマンコンピュータインタラクションは、人間がコンピュータと対話する方法と、人間が新しい方法でコンピュータと対話できるようにする設計手法の両方を含む、ユーザーとコンピュータ間のインターフェイスに焦点を当てています。人間とコンピュータの相互作用と人間とコンピュータのインターフェースは、密接に関連しているが異なる概念です。

コンピュータ時代における人間とコンピュータの相互作用の発展は次の図に示されています。

キーボード + マウスからタッチスクリーン、そして音声によるインタラクションまで、人間とコンピューターのインタラクションは、機械指向の人間とコンピューターのインタラクションからユーザー指向のインタラクションへと常に進化しています。音声は非常に低コストのコミュニケーション手段およびツールであり、私たちに大きな利便性をもたらします。

音声対話の利点は、まず、1 分あたり 120 ～ 150 語の速度です。 2 つ目は、手を自由にすることです。料理をしながら、音声でいくつかの必要なタスクを完了できます。 3つ目は直感です。言語は人間が授かった賜物であり、人間にとって自然なコミュニケーション手段です。 4 番目は共感です。声にはトーン、音量、イントネーション、スピードなどがあり、これらの特性は多くの情報を伝達します。

音声インタラクションは人工知能技術と切り離せないものです。音声インタラクションに関係する人工知能技術は次の図に示されています。

現在、インテリジェントな音声インタラクションが私たちに役立っています。その背後には、音声ウェイクアップから自動音声認識、自然言語理解まで、一連のテクノロジーとプロセスがあり、最終的には自然言語生成と音声合成テクノロジーによってフィードバックが形成されます。プロセス全体の背後には、対話管理、ディープラーニング、DNN、CNN、NLP、TTSなど、それをサポートする多くの細分化されたAIテクノロジーがあります。

このように幅広い AI テクノロジーを前に、私たちはそれをどのように仕事や生活に応用できるのでしょうか?これは、コンピューターを入手した後の使い方と似ています。コンピュータ上のオペレーティングシステムとその API は、プログラマーにコンピュータの世界への扉を開きます。インテリジェントなインタラクションを指向する AI システムの場合、人工知能インタラクティブアプリケーションを便利かつ効率的に構築するために、同様のオペレーティングシステムも必要です。

音声対話のためのDuerOSオペレーティングシステム

Baidu の DuerOS は、音声インタラクション用の会話型 AI オペレーティングシステムです。音声インタラクションの全プロセスをカバーすると同時に、次の図に示すように、SDK、ツール、プログラミングインターフェイス、デバイスなどのオープン機能プラットフォームも提供します。

DuerOS オペレーティングシステムには、スマートデバイスオープンプラットフォーム (アプリケーション層)、ダイアログコアシステム (コア層)、スキルオープンプラットフォーム (機能層) の 3 つのレベルがあります。次に、DuerOS ベースのスマート音声デバイス、スマート音声デバイスの動作原理、スマート音声インタラクションのインタラクションプロセス、およびスマート音声アプリケーションの開発プロセスの観点から、DuerOS オペレーティングシステムをさらに理解します。

オペレーティングシステムを理解するには、利用可能な音声デバイスを確認する必要があります。これらのデバイスに基づいてのみ、特定のアプリケーションを開くことができます。DuerOS には多くのインテリジェント音声デバイスがあります。Xiaodu シリーズ製品の一部を次の図に示します。

[[283221]]

DuerOS は、スピーカー、テレビ、冷蔵庫、携帯電話、ロボット、自動車、ウェアラブル、おもちゃなど、さまざまなシナリオやデバイスで広く使用されています。これらのスマート音声デバイスの動作原理は何ですか?

従来のデバイスと比較して、インテリジェント音声デバイスは対話型で、音声とタッチスクリーン入力を使用します。TTS、マイク、信号処理などの手段を使用して、ローカル機能をクラウドに転送します。次に、クラウドASR、TTS、NLU、NLGなどの特定のAIテクノロジーを使用して、インテリジェント音声を実装します。最後に、ビジネスエンジン、ビジネスリソース、スキルサービスを統合します。このようにして、次の図に示すように、一連のサービスを音声で完了できます。

スキルオープンプラットフォームには、基盤となる基本機能、BOT-SDK、構成サービス、プロトコルオープン、プラットフォームオープン、周辺ツールなど、多くのレベルが含まれます。以下では、インテリジェント音声インタラクションアプリケーションのインタラクションプロセスを紹介します。

ここでは、天気について尋ねる意図を例に挙げます。ユーザーが音声コマンドを発行すると、スマートスピーカーはユーザーのウェイクアップワードをローカルで認識し、スピーカーを通じて音声をDuerOSプラットフォームに送信します。DuerOSプラットフォームは音声認識、意味理解を実行し、構造化データをスキルサーバーに送信します。スキルサーバーはリクエストを処理し、テキストまたは視覚的な結果をDuerOSプラットフォームに返します。DuerOSプラットフォームがそれを受信すると、TTSサーバーは返されたテキストを処理し、ブロードキャストストリームをスマートスピーカーに送信します。画面付きのスピーカーの場合は、視覚的な結果をデバイスに表示することもできます。

では、DuerOS でインテリジェントな音声対話アプリケーションをどのように開発するのでしょうか?

インテリジェント音声インタラクションアプリケーションの開発プロセスは、一般的に、登録、スキル作成、インタラクションモデルの確立、コードの展開、デバッグと検証、商用利用のためのスキルの起動という 6 つのステップに分かれています。以下は、具体的なステップを図解したものです。

最初のステップは、https://dueros.baidu.com/dbp にアクセスし、DuerOS 開発者として登録することです。

2 番目のステップであるスキルの作成は、Android または iOS でのアプリの作成に似ています。

スキルコンソールに入り、「最初から始める」を選択してカスタムスキルを作成します。スキル名は2〜50文字、コール名は2〜15文字です。コール名はスキルサービスへの入り口、オープン+コール名です。珍しい単語を使用したり、中国語と英語を混ぜたり、数字と漢字を混ぜたりすることはお勧めしません。スキルが作成されると、スキル ID が生成されます。これは、DuerOS システム内のスキルサービスの一意の識別子です。

3 番目のステップは、インタラクションモデルを確立することです。これは、スマート音声アプリケーションとアプリ、ミニプログラム、Web アプリケーションなどとの最大の違いになる可能性があります。

ここでは、ユーザーによる問い合わせの核となる部分をインテントと呼び、インタラクションモデルの構築は複数のユーザーインテントを作成するプロセスです。意図の識別子は、特定のイベントの番号に相当します。インタラクションモデルの確立は、実際にはインターフェース指向の設計アプローチです。インタラクションの意図を明確にすることで、スキルサービスの機能がある程度決まります。

4 番目のステップは、コードを記述してデプロイすることです。

DuerOS は、Baidu Cloud サービスの効率的かつ安全な無料使用を提供します。オープンプラットフォームのオンラインエディターは、Python と Node の言語サポートを提供します。コーディングは主に、インタラクションモデルでのインテントのマッチングと処理に関するものです。オンラインエディターのコードは、Baidu Cloud の FaaS サーバーレスアーキテクチャの特定のアプリケーションである Baidu Cloud の CFC に自動的にデプロイされます。もちろん、スキルコードはJavaやPHPなど他の言語でも記述でき、自社サーバーや他のクラウドサービス上に展開することも可能です。

5 番目のステップは、スキルサービスをテストして検証することです。

DuerOS オープンプラットフォームは、シミュレーターと実機デバッグの 2 つのテスト方法を提供します。実機でデバッグする場合は、スキル開発アカウントとデバイスのログインアカウントが一致していることを確認してください。デバイスに「スキルデバッグモードをオンにする」と伝えると、「スキルデバッグモード」機能がオンになります。同時にサポートされるスキルテストは 1 つだけであることに注意してください。

第 6 部: スキルアプリケーションの商用化。

同様に、リリースとオンラインリリースのプロセスは、Android マーケットや Apple ストアでのアプリのリリースに似ています。この時点で、DuerOS オープンプラットフォームに基づいて、ユーザーのニーズを満たすさまざまなインテリジェント音声インタラクションアプリケーションを開発できます。同時に、DuerOS は、インテリジェントな音声対話アプリケーションのゼロプログラミング実装も提供します。私たちの生活にさらなる便利さと楽しさをもたらすアプリケーションは数多くあります。

インテリジェントな音声対話サービスに基づく一日

朝はスピーカーで起こし、DuerOS搭載のカーナビで出勤し、Xiaodu Assistantでその日の仕事を整理します。Xiaodu Assistantは仕事中に休憩を取るようリマインドし、お子様はDuerOS搭載のデバイスで電話をかけたり、テレビを見たり、物語を聞いたりすることができます。

インタラクションの形態の変化に伴い、インタラクティブ技術は今日のインテリジェント音声時代へと発展しました。さまざまな人工知能技術をインテリジェント音声サービスに直接適用できます。NLUやNLGなどの特定のAI技術に深く注意を払う必要はありません。DuerOSなどの会話型AIオープンプラットフォームを使用する限り、音声インタラクションのさまざまなサービスを完成させることができます。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: ソフトウェア開発は最終的に時代遅れになるのでしょうか?

>>: 将来、人工知能は冷酷な大量虐殺者になるのでしょうか?