1. 金融テクノロジー 金融テクノロジー: これは業界ではフィンテックと呼ばれています。 Wikipedia では、金融サービスをより効率的にするためにテクノロジーを使用する企業グループで構成される経済産業と定義されています。フィンテックとは、単に「インターネット上で金融を行う」ということではなく、モバイルインターネット、クラウドコンピューティング、ビッグデータなどの技術に基づいて金融サービスや金融商品の革新と効率性の向上を実現することです。簡単に言えば、FinTech とは、人工知能、信用調査、ブロックチェーン、クラウド コンピューティング、ビッグ データ、モバイル インターネットなどの最先端技術を使用して、金融効率を向上させる業界に貢献するものとして理解されています。金融テクノロジーの波の中で、Yiren Hive は強固な技術基盤を備えているだけでなく、ワンストップのインテリジェントリスク管理サービスシステムを構築し、多くのリスク管理製品を発売しました。
2. ハニカムロボット Yiren Hive チームは 2018 年に Hive Robot を正式にリリースしました。 Honeycomb Robot は、人工知能技術分野の重要な分野であるインテリジェント音声対話ロボット製品です。ハニカムロボットには、ビッグデータ技術、クラウドコンピューティング、人工知能技術が組み込まれています。インテリジェント債権回収やインテリジェント顧客の分野で主に使用され、その機能は業界の問題点に直接対処し、企業がコンバージョン率を効果的に向上させるのに役立ちます。ハニカムロボットの主な機能は次のとおりです。
Honeycomb Robot は、包括的かつ効率的なインテリジェント音声対話ロボット製品です。エンジニアリング アーキテクチャの観点では、全体的なフレームワークはマイクロサービス フレームワークを使用して高度な分離を実現し、各サービスは分散方式で開発および展開され、単一障害点によるシステム麻痺を回避します。また、大量のデータを保存するために、システムは構造化データベースと分散非構造化データベースを組み合わせています。アルゴリズムの面では、言語認識、対話システム、音声合成などのモジュールでは、音響モデル、自然言語処理技術 (NLP)、ディープラーニングなどの人工知能技術が使用されます。次の図 1 はハニカムロボットの全体的なフレームワークを示しています。 図1: ハニカムロボットの全体構成 この記事では、主にハニカムロボットがアルゴリズムに使用している技術と手法を紹介します。機械学習、ディープラーニングなどのテクノロジーが、ハニカムロボット全体のあらゆるリンクに登場します。実際、ハニカム ロボットのプロセス全体は、音声認識 (ASR)、意味理解 (NLU)、対話管理 (DM)、音声合成 (TTS) に分けることができます。図2に示すように: 図2: ハニカムロボットの主なプロセス 電話チャネルは、ユーザーの音声をリアルタイムで ASR モジュールに送信します。ASR はユーザーの音声をテキストに認識し、次に NLU モジュールがテキストを理解してユーザーの真意を識別します。ユーザーの意図により、ユーザーとの対話が始まり、複数回の対話を使用してユーザーの意図をより明確に理解します。このとき、対話管理モジュールの対話状態管理と対話戦略の策定が必要です。最後に、ロボットはテキスト応答文の形で***フィードバックを提供します。音声合成は、フィードバックテキストを音声に変換し、ユーザーに再生します。この時点で、ロボットとユーザーの間の複数回の対話が終了し、同時に特定のビジネス目標が達成され、ユーザーが理解され、正しいサービスが提供されます。プロセス全体は密接に関連しており、前のプロセスと次のプロセスをリンクしています。次に、詳細を紹介します。 1. 自動音声認識: 音声認識は、広範囲にわたる自然言語処理技術です。音声認識の入力は、時間の経過とともに再生される一連の信号であり、出力は一連のテキストです。音声を人間と機械がリアルタイムで理解できるテキストに変換することは、人間と機械の相互作用における最初の、そして最も重要なステップです。完全な音声認識システムには通常、情報処理と特徴抽出、音響モデル、言語モデル、デコード検索の 4 つのモジュールが含まれます (図 3 を参照)。 図3: 音声認識システムの主なプロセス 音声前処理段階では、信号処理の主なタスクは、無音セグメントの除去、エイリアスされたオーディオトラックの分離、ノイズ除去、およびチャネル強化です。特徴抽出段階では、MFCC特徴抽出法とディープラーニングに基づく特徴表現法が主に使用され、音声特徴抽出が行われ、機械が認識できる数値型データが形成されます。従来の音響モデルは、主にガウス混合モデル(GMM)と隠れマルコフモデル(HMM)でしたが、ディープラーニングの成熟に伴い、ディープラーニングをベースとした音響モデル(例:HMMモデルとDNNモデルを組み合わせたDNN-HMMハイブリッドモデル、TDNNモデルとDFCNNモデル)も応用されるようになり、効果も向上しています。 ***エンドツーエンド(END2END)音声認識処理システムも研究のホットスポットです。 2. 中国語テキストの修正: 音声認識によって変換されたテキストは、その後の処理の主な情報となります。ただし、音声認識の精度は 100% ではありません。このシステムカスケードの不確実性は、システムの精度に重大な影響を及ぼします。このため、中国語のテキストエラー修正は非常に重要です。 ASR 後のテキスト修正は、主に同音異義語 (get a pair of eyes-get a pair of eyewear) と紛らわしい語 (wandering weaver girl-Cowherd and Weaver Girl) の修正に重点を置いています。 Hive Robot は、人工ルール、N グラム モデル、ピンイン類似性、同義語コロケーションを使用して、正しいピンインと背景ノイズによる誤った認識によって発生する音声認識文の主要部分の認識エラーを修正します。意味的関連のエラーについては、双方向 LSTM チェックを使用して、このタイプのあいまいな文の意味的エラーをより適切に解決します。 3. 自然言語理解(NLU): NLUは主にASRで変換されたテキストを理解するために使用され、同時にユーザーのポートレートなどのデータを組み合わせて、この時点でのユーザーの真意を探ります。このモジュールの 3 つの主な機能は、ドメイン認識、意図認識、スロット抽出です (図 4 を参照)。 図4: 意図認識の例 NLU は、テキストを機械が理解できる意味表現に正規化するプロセスです。 NLU は、セマンティック解析またはセマンティック注釈を通じて取得することも、複数の分類タスクに分解して解決することもできます。 Hive Robot の NLU 部分のコールド スタート フェーズでは、正規表現ベースのルール メソッドと教師なし学習の文類似性メソッドを使用して実装されます。データが蓄積され、ラベル付けされると、機械学習の SVM やディープラーニングの CNN や RNN などの分類アルゴリズムが、ユーザー ドメインの識別と意図の認識に使用されるようになります。スロット抽出は、一連のラベル シーケンス データを学習して新しいラベル シーケンスを予測するシーケンス ラベリング問題です。主に使用される方法は BLSTM+CRF です。意図とスロットには強い相関関係があるため、同じネットワークを使用して意図の認識とスロットの抽出を完了するようにします。 4. ダイアログ管理(DM): ユーザーのニーズは比較的複雑であり、1 回の対話ではユーザーの真意を効果的に把握することはできません。対話管理を通じてユーザーとロボットの間で複数回の対話を実施することで、ロボットは質問、説明、確認などを通じてより多くのユーザー情報を取得でき、ユーザーがニーズを明確にするのに役立ちます。対話管理の主なタスクは、ユーザーとロボット間の対話状態を維持し、知識ベースと対話して次の最適なアクションを選択することです。初期の Hive Robot は、グラフ データベースを使用して階層的かつ秩序立った音声コンテンツと関係性を保存する、アジェンダ ベースの対話管理を採用しました。このように、ユーザーとロボット間の会話全体は基本的にツリー トラバーサルであり、トピックの切り替え、ロールバック、終了のサポートが容易になります。シナリオの数が増えるにつれて、ユーザーの実際のニーズは多様化します。一部の質問の多様性により、アジェンダベースのダイアログ管理は複雑になりすぎて、管理が困難になります。そこで、アジェンダベースの対話管理とスロットベースの対話管理を組み合わせました。通常のビジネスプロセスでは、アジェンダベースの対話管理を使用しました。ビジネス上の問題を質問する場合は、スロットフィリング対話管理を採用しました。対話プロセス全体は、継続的なスロットフィリングのプロセスです。スロット全体の情報の取得は、NLU ステージの情報出力です。対話管理では、会話の管理に分散グラフ データベースを活用し、グラフ トラバーサル テクノロジを使用して次のノードを検索し、質問検索の類似性を並べ替えます。 5. テキスト読み上げ(TTS): 音声合成モジュールはハニカムロボットの重要なモジュールです。音声合成は、見つかった音声テキストを音声オーディオに変換し、電話チャネルを通じてユーザーに再生するプロセスです。音声オーディオは主に、音声とトーンという 2 つの大きな問題を解決します。明瞭な音声は、ユーザーがロボットの音声を明瞭に聞き取ることができるかどうかの問題を解決し、トーンは主にロボットを感情を持つ実際の人間に近づけるためのものです。 Hive Robot は音声合成段階でスプライシング方式を使用します。ロボットの入力テキストに応じて、言語的特徴だけでなく音響的特徴でも類似する音素を音声ライブラリで検索します。実際の業務では、スクリプトの中にはパラメータ変数を持つものもあり、ユーザー自身の情報によって変化するため、つなぎ合わせて送信することでこの問題は簡単に解決できます。音声結合方式は自然な音声であるものの、音声の録音と編集の初期段階で多くの人手が必要となり、システムの拡張性も低いという問題がありました。後期段階では、パラメータベースの音声合成システムを構築する予定です。これは、実際にはテキストを音声特徴に抽象化し、統計モデルを使用して音声特徴と音響特徴の対応を学習し、予測された音響特徴から音声を復元するプロセスです。この技術は主に統計モデルに基づいており、現段階では主流のディープラーニング モデルです。 3. 今後の展望 ハニカムロボットのチェーン全体の設計には、ビッグデータ、クラウドコンピューティング、人工知能などの多くの最先端技術が組み込まれており、特に一部の領域では完全なソリューションが存在しません。 AI テクノロジーの実践者として、Honeycomb Robotics は、より優れた実装のために次のような展望を持っています。
[この記事は51CTOコラムYixin Technology Institute、WeChatパブリックアカウント「Yixin Technology Institute(id:CE_TECH)」からのオリジナル記事です] この著者の他の記事を読むにはここをクリックしてください |
<<: MorphNetは、ニューラルネットワークをより高速、小型、効率的にするモデル最適化技術です。
[51CTO.comより] 中国共産党第19回全国代表大会で「インターネット、ビッグデータ、人工知能...
ベンチマーク プロジェクト アドレス: https://github.com/google-rese...
[[187452]]現在、人工知能はますます人気が高まっている分野となっています。普通のプログラマー...
Tech Planetによると、アリババ副社長兼DAMOアカデミー副会長のJin Rong氏は最近...
IT Homeは11月9日、GitHubが今年7月に企業や団体向けにGitHub Copilot ...
ラボガイド現在、公共の場や個人の応用場面に設置されている監視カメラの総数は1億7500万台を超えてい...
人工知能の登場以来、研究者たちはロボットに人間とゲームをさせることで機械システムの知能をテストしよう...
[[257501]] Windows 7 は 2020 年 1 月にその歴史的使命を終えるが、マイク...
ImageNet の精度は常にモデルのパフォーマンスを評価するための主要な指標であり、ディープラーニ...
自然言語処理は AI の最高峰であり、コーパス前処理は自然言語処理の基礎です。 [[336067]]...
フロントエンド インテリジェンスには、その名前が示すように、「フロントエンド」と「インテリジェンス」...
人工知能は世界第4次産業革命であり、工業、医療などの分野での応用が拡大しています。オンライン教育の普...
AI、機械学習 (ML)、5G、その他の接続サービスなどの IoT テクノロジーは 2024 年まで...