[51CTO.comからのオリジナル記事] 人工知能の急速な発展に伴い、音声インタラクションは人工知能分野の最も初期のアプリケーションの1つとして、多くのデバイスの標準機能になり始めており、ますます多くの人々の注目を集めています。 Microsoft、Apple、IBM、AISpeech、iFlytekなど国内外のメーカーは、音声インタラクション技術の新しい戦略とアルゴリズムを開発しており、人間と音声の自然なインタラクションがますます近づいているようです。 最近、51CTOが主催した2017 WOTIグローバルイノベーションテクノロジーサミットで、記者はAISpeech副社長の趙恒毅氏にインタビューする機会に恵まれ、世界のインテリジェント音声産業の発展状況、AISpeech DUI(AISpeech Dialogue User Interface)オープンプラットフォーム、およびAISpeechの今後の開発計画について詳細な意見交換を行いました。
AIS副社長 趙衡益 趙衡益氏によると、現在、Sibichenは主に車載、家庭、ロボット/ストーリーマシンなどの垂直分野における会話インタラクションに焦点を当てており、各垂直産業に応じてシナリオベースの音声技術の革新と最適化を行い、差別化された音声ソリューションを提供している。 世界のインテリジェント音声産業の現状 調査会社VoiceLabsが今年初めに発表した「2017年音声レポート」によると、音声制御スマートデバイスの販売台数は2015年と2016年に合計650万台に達し、2017年には2,450万台に達する見込みだ。 現在、国内外のほぼすべてのIT大手が人工知能の分野で積極的に展開しており、インテリジェント音声市場にも相次いで参入しており、世界のインテリジェント音声市場での競争はますます激しくなっています。海外では、アップルがイギリスの会話会社VocalIQを買収し、ケンブリッジに秘密の研究開発拠点があることを明らかにした。AISpeechの主任科学者であるYu Kai氏はケンブリッジ大学の音声学博士であり、VocalIQの創設者の一人でもあることが分かっている。IBM Watsonも英語の音声認識の分野で絶えずアップグレードし、より良い体験をもたらしている。中国では、BATがすでに人工知能の分野で包括的な手配を行っており、インテリジェント音声はその不可欠な部分となっています。専門的な音声会社として、Sibichenの垂直セグメントでの業績は非常に目を引くものです。 国内のスマート音声産業の発展について、趙衡益氏は、一方ではスマート音声産業の観点から、中国の業界全体が非常に重要な役割を果たしていると考えている。現在、中国の業界、特に音声業界の科学者の中には、黄色い肌と黒い目をした黄色人種の人がおり、中国人は業界の発展に重要な役割を果たしています。さらに、中国語は独自の研究開発ルールと特徴を持つ非常に特徴的な言語です。一方、国家の観点から見ると、わが国初の国家人工知能発展計画である「新世代人工知能発展計画」は、新世代人工知能の発展を国家戦略レベルにまで高め、国内のスマート音声産業の発展に良好な環境を提供し、中国がスマート産業をリードする機会も創出しています。 人間と機械はどうすれば会話によるやりとりをより良く実現できるでしょうか? 人工知能技術を通じて、より自然な人間とコンピュータの相互作用を実現することは、すべての企業が望んでいることです。趙衡益氏は、人間とコンピュータの相互作用は今や重要な時期に達したと述べた。モバイルインターネット技術の急速な発展により、人々はマウスとキーボードのインタラクションモードに制限されなくなり、スマート端末のタッチスクリーンのインタラクションモードを実現するようになりました。今日では、モバイルスマートデバイスの急速な発展と、スクリーンレスおよび小型化されたシナリオの開発により、自然言語によるインタラクションが必然的に主流のインタラクション手段の 1 つになるでしょう。しかし、これはまだ始まったばかりであり、Sibichen 氏は音声による対話が非常に重要な手段であると常に信じています。 趙衡益氏は次のように強調した。「音声にはコンテンツが含まれています。音声による会話を通じて、デバイスからより広い世界とつながることができます。デバイスとの良好な接続を実現したいと考えています。サービスに加えて、音声はさまざまなデバイスに接続できます。たとえば、スマートセントラルコントロールで家庭内のすべてのデバイスを制御できますが、これは非常に一般的なシナリオです。ただし、この業界ではまだ実際の接続はありません。まだ長い道のりがあります。業界の同僚は協力して、業界全体の発展を促進する必要があります。」 対話を核としたDUI開発プラットフォーム 音声によるインタラクションにより、人間とコンピュータのインタラクションが人間にとって最も自然で馴染みのある方法で行われるようになるでしょう。これが将来の知的生命にとって唯一の道です。音声業界で影響力のある企業である AISpex は、ワンストップのダイアログカスタマイズ開発プラットフォームである DUI Open Platform を立ち上げました。このプラットフォームは、同社の100人以上の技術チームである趙恒益氏によって完成され、完成までに半年以上かかりました。このプラットフォームは、専門的なスキルストア、マルチシナリオカバレッジ、ワンストップ開発、データ可視化などの利点を統合しており、一般開発者や企業ユーザーだけでなく、サードパーティのプラットフォーム企業も対象としています。音声認識、音声合成、意味理解などの基本的な技術機能を提供し、標準化されたソリューションの完全なセットをもたらし、企業が特定の製品ニーズに基づいて、より微妙なインテリジェントなインタラクションを実現するのに役立ちます。 趙衡益氏は、市場の他のプラットフォームと比較して、DUI プラットフォームの利点は、会話型カスタマイズ プラットフォームであるだけでなく、次のような点であると述べました。 まず、関連する会話をローカルでもクラウドでもカスタマイズできます。現在、音声関連のアプリケーションの多くはクラウドベースです。Sibichen DUI オープン プラットフォームは、クラウド サービスとローカル技術サービスの両方を提供します。車載アプリケーションを例にとると、DUI プラットフォームは弱い接続でも会話やアプリケーションを実現できるため、ネットワークが貧弱な環境やネットワークがない環境でも基本機能が利用可能になります。同時に、DUI プラットフォームは、音声認識、音声認識前の信号処理、音声ウェイクアップ、対話ロジックなど、多くのタスクのパラメータのカスタマイズを含むプロセス全体のカスタマイズをサポートし、対話プロセス全体のすべての技術的詳細の柔軟な設定をサポートできます。 第二に、プロセス全体が制御可能です。音声制御は単なる入り口に過ぎません。ユーザーが音声でデバイスと通信する場合、Sibichen はデバイスがどのように情報を取得するか、どのような情報やコンテンツを取得するかだけでなく、デバイス側で最終的な出発点とフィードバックをどのように形成するかについても懸念しています。実際、これらは DUI オープン プラットフォームで解決する必要があるいくつかの問題です。これらのニーズを満たすには、サードパーティのデバイス、サービス、データに接続し、バックエンドのスキルに基づいて、より多くの大規模なリソースに接続する必要があります。 3番目に、ユーザー操作を行うことができます。 DUI プラットフォームはデータの視覚化をサポートしており、AISpiche ビッグデータ チームはリアルタイムのデータ更新を実現できます。複雑なデータと基本的なデータの両方を管理および提示できます。たとえば、四半期レポートを製品開発者に送信できます。開発者が自分のアカウントをAISpeech WeChatサービスアカウントにバインドすると、携帯電話で製品のデータを表示できるため、常に製品の動作に注意を払うことができ、開発者は研究開発の反復をスピードアップし、ユーザーにさらに大きな価値を提供できるようになります。 将来を見据えて、技術基盤の強化は引き続き最優先事項である 現在、AISpeechは、Alibaba、Tencent、Xiaomi、LeTV、Ingenic、Lenovoなど、業界の多くの一流企業と協力関係を築き、AISpeechの自然言語インタラクション技術を通じて、何億人ものユーザーがスマートホーム、スマートカー、その他のスマート端末とインタラクションできるよう支援し、業界で高い評価を得ています。 AISpeechの今後2~3年の開発計画と目標について、趙衡毅氏は次のように述べた。「まず、当社は技術主導の企業であるため、技術基盤の強化が最優先事項です。当社の研究能力とコアアルゴリズム能力が業界の最前線に留まることを期待しており、それが当社の使命です。第二に、ビジネス面では、業界パートナーと協力してDUIオープンプラットフォームに基づくインタラクションを促進し、より優れた成果を上げたいと考えています。DUIプラットフォーム全体の出力が10億規模に達することを期待しています。」 [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
<<: 自然言語処理にディープラーニングを使用するにはどうすればよいでしょうか?ベストプラクティスのリストはこちら
[[434190]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
現在、AI分野で画期的な進歩を遂げているディープラーニングモデルの規模が大きくなるほど、エネルギー消...
会社は厳しい時期を迎えている。私はパンデミックや株式市場の変動について話しているのではない。時代は不...
Google DeepMind の最新の成果が再び Nature に掲載され、大規模なモデルを使用し...
ここ数週間、ユーザーは Microsoft Edge に組み込まれている GPT-4 AI チャット...
[[240109]]ホームセキュリティ市場はAIを活用してどのように安全を確保しているのか家庭のセキ...
[51CTO.com からのオリジナル記事] 中国の開発者が集まる毎年恒例の盛大な集まりである Ba...
CISO は、日常的なタスクを排除し、従業員がより価値の高い仕事に集中できるようにするために、ロボ...
最近、マイクロソフトは最新の Azure ニューラル ネットワーク音声合成技術 Uni-TTSv3 ...
Volcano Engine は、大規模モデルのトレンドに関する解答用紙を提出しました。大型モデルサ...
財務省令第87号では、購入者または購入代理店は入札および入札評価プロセス全体を録画および記録しなけれ...