UNITのハイライト - 対話システムの技術的原理を素早く習得

[[254684]]

人工知能時代の対話的特徴は、「対話」という一言に集約されます。音声であれテキストであれ、人間にとって最も自然な対話方法を使って機械に指示を送り、機械と対話します。もちろん、人間とコンピュータの対話システムは、従来のコンピュータの時代にすでに登場していました。人工知能の時代、特にさまざまな機械学習技術、特にディープラーニング技術の出現によって、システムの実用性は質的な飛躍を遂げました。

対話システムには多くの種類があり、さまざまな方法で分類できます。対話システムは、目的に応じてタスクベース、質問応答、チャットベースの3つに分けられ、シナリオに応じてクローズドドメインとオープンドメインの2つに分けられ、使用方法に応じて検索ベースと生成ベースの2つに分けられます。 UINT プラットフォームは、誰でも簡単にタスクベースのマルチラウンド対話システムを構築するのに役立ちます。私たちはタスクベースのマルチラウンド対話システムに焦点を当てています。

タスクベースの人間とコンピュータの対話システム

会話中にロボットが実行する必要がある操作は、音声言語理解、対話管理、コマンド実行、言語生成の 4 つのプロセスに分かれています。対話システムの基本的な動作プロセスを次の図に示します。

まず、対話システムはユーザーの自然言語要求を理解し、次にユーザーが入力したクエリに基づいて口頭理解と対話管理を実行し、言語を生成するか指示を実行するかを決定し、最後にシステム応答を返す必要があります。その中でも、コアモジュールは音声言語理解と対話管理です。

口頭理解

音声言語理解の機能は、情報クエリや指示実行に対するユーザー要求に含まれる意味情報を理解することです。この作業の難しさは、自然言語の曖昧さ、表現方法の多様性、口語的な物語スタイルにあります。では、口頭理解課題の難しさはどうやって克服するのでしょうか?

UNIT プラットフォームは、意味分析に基づく音声言語理解モードと意味マッチングに基づく音声言語理解モードという 2 つの標準的なソリューションモードを提供します。

意味解析に基づく音声言語理解モデルは、ユーザー要求を意味情報を含む構造化された表現に解析します。その中で最も典型的な構造化表現は、意図（ユーザーの中核的な要求を記述）+単語スロット（意図の重要な情報を記述）のパターンです。一般的に使用される方法には、知識ルールベースの方法、機械学習ベースの方法、融合戦略ベースの方法などがあります。

意味的マッチングに基づく音声言語理解モデルでは、特定の意味的フォーマット情報を解析する必要はなく、意味的マッチングの度合いが最も高い質問と回答のペアを見つける必要があります。

ダイアログ管理

対話管理の機能は、対話状態に基づいて対話戦略を実装し、それによって複数ラウンドの対話ロジックを実現することです。このタスクの難しさは、不確実な環境における状態計算と戦略選択の不確実性にあります。それに応じて、対話管理には、対話状態の追跡と対話戦略の選択という2 つの主要なタスクがあります。次の図は、対話プロセス全体における対話管理の位置付けと、状態位置と対話管理の関係を示しています。

対話状態の追跡、つまり、対話履歴に基づいて現在の対話状態を計算し、対話履歴を管理および更新します。一般的に使用される方法は、人工的なルールに基づく方法と機械学習に基づく方法です。マッピングを構築することで、会話履歴が入力され、現在の会話状態が出力されます。

対話戦略の選択、つまり、現在の対話状態に基づいて次に最も適切なアクションを選択します。一般的に使用される方法は、人工ルールに基づく方法、機械学習に基づく方法、強化学習に基づく方法です。現在のダイアログ状態が入力され、同じモデリングおよびマッピングプロセスを通じてシステム応答と命令実行が出力されます。

対話システムの構築方法

システム構築のプロセス、各プロセスで開発者が行う必要がある作業、そして UINT プラットフォームがすべての人に提供するものについて簡単に紹介します。構築プロセスは次のとおりです。

1) まず、対話システムを定義します。つまり、この対話システムにはどのような意図が含まれており、この意図の重要な情報は何ですか。

2) データリソースを充実させる。それは、必要な辞書、ラベル付けするルール、記述する必要があるテンプレートの数、ラベル付けする必要があるサンプルの数など、データリソースを収集、ラベル付け、拡張することです。

3) ダイアログロジックを構成します。このプロセスは、UINT を使用して簡単に構築できます。UINT が提供する方法で対話システムを UINT プラットフォームに構成し、強化されたデータリソースを UINT に入力し、いくつかのボタンをクリックするだけで、システムを構築してトレーニングできます。

4) モデルをトレーニングし、結果を最適化します。ダイアログ効果は UNIT プラットフォームで調整できます。その後、小さなサイクルプロセスを継続的に繰り返すことができます。オンライン化後、多数のユーザーが会話型ロボットを使用し、より多くのデータサンプルを提供しました。これらのサンプルを入手した後、サンプルによって生成されたエラーやその他の状況を分析し、システムを改善するためのリソースをさらに充実させ、結果を継続的に改善しました。

この構築プロセス中、UNIT プラットフォームは多くの機能を提供し、開発者の開発コストを削減します。

プリセットスキル: ユーザーのニーズを分析し、対話システムを定義する際に、UNIT プラットフォームは複数のシナリオのプリセットスキルとリソースが豊富なスキルを直接起動します。開発者は、データを拡充したりモデルをトレーニングしたりすることなく、ワンクリックでこれらのスキルを取得できます。
システム単語スロット: UNIT プラットフォームにプリセットされた単語スロットには、名前、地名、時間、場所など、22 の主要なカテゴリの単語スロット辞書値が含まれます。開発者は、名前リスト、地名リスト、時間などの情報を充実させることなく、再利用を直接確認できます。
テンプレート構成: UNIT は、科学的対話理解テンプレートのコンパイルメカニズムを提供し、これにより対話の一般化効果を迅速に実現できます。
推奨サンプル: UNIT プラットフォームは、開発者のサンプル強化作業を軽減するために、多数の推奨サンプルを提供します。開発者が提供するサンプルに基づいて、類似した再利用可能なサンプルをいくつか推奨できます。
ログ分析: UINT は、データリフロー、データストレージ、データサービス処理、およびログ分析ツールのメカニズムを提供し、開発者が会話の効果を最適化できるようにします。

システム評価

評価方法は、大きく分けて 2 つのカテゴリに分類されます。

1. 単一システムの精度評価のために、単一システムの精度に関する定量的な指標データを提供する

音声言語理解の精度は対話管理の動作、ひいては対話システムの有効性に直接影響するため、音声言語理解を評価することで対話システムを評価することが可能です。指標は、精度、再現率、F 値という 3 つです。

精度 = 正しい予測の数 / 予測の総数

再現率 = 正しい予測の数 / テストセット内の予想される認識の数

2. 2 つのシステムの精度を比較するための定量的な指標データを提供します。このデータは、システムの反復中に精度を比較するために使用できます。

システム反復要件について、ベースラインシステム X と比較システム Y の利点を比較します。 2 つのシステムの定量的な比較には、次の指標が含まれます。