これらのよく知られた VR 音声テクノロジー ソリューションをご存知ですか?

これらのよく知られた VR 音声テクノロジー ソリューションをご存知ですか?

最近、Oculus は、VR デバイスを使用する際にユーザーがよりインタラクションできるようにすることを目的として、Samsung Gear VR 仮想現実ヘルメットに「Parties」と「Rooms」という 2 つの機能を追加しました。 2016年、Facebookの創設者マーク・ザッカーバーグ氏もカンファレンスで「VRは次世代のコンピューティングプラットフォームとなり、人々を既存のオンラインソーシャルモデルを完全に覆すことになるだろう」と述べた。VRソーシャルネットワーキングの概念は大いに宣伝されているが、VRへの道はそれほど明るいものではない。まず、今日私たちが直面している問題は音声インタラクションの問題である。今日は、VR 音声インタラクションの問題についてお話します。

[[185808]]

1. iFLYTEK音声エンジンシステム

InterReco音声認識システム

iFLYTEK は、世界をリードする InterReco 音声認識システムを発表しました。InterReco は、セルフサービスの音声サービスと音声検索ビジネスを推進し、音声コマース (V-Commerce) のコアとなる原動力となっています。現在、InterReco 音声認識システムは、高度なセルフサービス音声サービス ソリューションを使用して、増大する情報相談、電子取引、顧客サービスのニーズに対応できます。 InterReco ベースのソリューションにより、ユーザーは、すぐに利用できる電話を通じて、いつでもどこでも簡単かつ自然に情報やサービスを入手し、効率的で安定した便利なアプリケーション エクスペリエンスを楽しむことができます。

InterReco 音声認識システムは分散アーキテクチャを採用しており、iFlytek の実績ある通信グレード音声プラットフォームの高い安定性を継承しており、通信グレードアプリケーションの高い信頼性と高可用性の要件を満たすことができます。従来の音声認識製品の統合開発の難しさや煩雑な業務設計に対応して、InterReco 製品は統合開発と業務開発の複雑さを大幅に簡素化し、システム インテグレーターと業務開発者に便利で効率的な開発環境を提供します。

InterReco製品の主な機能モジュールと構造

InterReco 音声認識システムは、主にアプリケーション インターフェイス、認識エンジン、オペレーティング システム適応の 3 つのレベルで構成されています。これら 3 つの論理レイヤーが組み合わさって、完全な InterReco システム アーキテクチャを構成します。

アプリケーション インターフェイスは、InterReco システムによって提供される開発インターフェイスです。統合開発者は、これらのインターフェイスの定義、機能、および使用方法に注意を払う必要があります。認識エンジンは、コアとなる音声認識機能を提供し、アプリケーションインターフェースの機能実装者として機能します。同時に、

開発と使用を容易にするために、システムはこのレイヤーで一連の効率的で使いやすいツールを提供します。オペレーティング システム適応層は、複数のオペレーティング システムの複雑さを遮断し、認識エンジンにオペレーティング システムに関連する基礎的なサポートを提供します。

InterReco 音声認識システムは、その論理構成によって、認識文法 (Grammar)、認識エンジン コア (Recognizer Core)、音声エンドポイント検出 (Voice Activation Detector)、オーディオ入力 (Audio Source) の 4 つのサブシステムに分けられます。システムの主な設計と開発は、これらのサブシステムに従って実行されます。

埋め込み音声 Aisound シリーズ製品

同様に、iFLYTEK は通信グレードの組み込み音声合成技術も提供しています。組み込み音声 Aisound シリーズは、同社の世界をリードする音声合成技術であり、サイズが小さく、リソース使用量が少なく、効率が高く、主に組み込み分野の音声合成ソフトウェア モジュールに使用されています。さまざまな業界の音声放送やアプリケーションのニーズに適しています。

iFLYTEKの組み込み音声ソリューションには、主にXFS3031CNP中国語音声合成チップ、XFS4243CE中国語と英語の音声合成モジュール、XFS5152CE中国語と英語の音声合成チップ、XF-S4240中国語音声合成モジュールと他の4つの音声合成ソリューションが含まれます。これらは、車両ディスパッチャー、情報機器、気象警報機、出勤管理機、待ち行列管理機、ハンドヘルドスマートメーター、税金管理機など、さまざまな情報端末製品にうまく適用されています。さらに、音声エンジンは、幅広い組み込みプラットフォームと機能アプリケーションをサポートする軽量の音声合成ソフトウェア Aisound も提供します。

XFS3031CNP中国語音声チップシステム構造図

iFLYTEK 音声合成システムフレームワーク図

2. ユニサウンドの「遠距離音声認識技術」ソリューション

音声クラウド プラットフォームに関して、Unisound は音声認識、意味理解、音声合成という 3 つの側面で独自の技術的優位性を持っています。雲智盛はVR分野へのインタラクティブな入り口として、さまざまな日常シーンに適応できるインタラクティブ技術を重視しています。現在、雲智盛は主に音声クラウドプラットフォーム、スマートカー、スマートホーム、教育の4つの垂直分野で音声認識技術のソリューションを提供しています。

Unisound の最新の音声テクノロジー - 「デュアルマイクアレイに基づく遠距離音声認識ソリューション」。 このソリューションは、世界をリードする SSP 技術を使用して、ユーザーの音声以外のノイズや残響の影響を効果的に抑制し、95% 以上のシナリオで遠距離音のピックアップを効果的に実行できます。Unisound の遠距離音声認識エンジンと組み合わせることで、5 メートル以内の距離で正確な認識を保証します。同時に、このソリューションでは 2 つのマイクのみが必要なため、設置場所は柔軟であり、デバイスの向きを考慮する必要がありません。

Unisound の「クラウドからチップ」エコシステム

Unisoundは、音声認識、意味理解、音声合成、声紋認識など、複数のコア音声技術を提供しています。Unisoundのオープンプラットフォームは、ワンストップの音声アプリケーション開発をサポートしています。音声アプリケーションを独自に作成し、対応するマッチング需要ソリューションを追加できます。プラットフォームタイプ設定を通じてSDK統合パッケージ開発を完了し、音声製品のオンラインリリースを完了できます。

3. Agora.ioリアルタイム音声システム

[[185811]]

Agora.io 音声 SDK は、世界独自の 32khz 超広帯域音質を採用しており、これは通常の電話の 4 倍の音質です。また、マルチチャンネル サウンド システムを提供し、VR 体験における「聴覚と定位」を実現し、3D サウンド効果に匹敵します。さらに重要なのは、リアルタイムの音声をゲームのバックグラウンドミュージックと完璧に統合できるため、ユーザーの臨場感が大幅に向上することです。

Agora.io は、オーディオ処理の最適化に加えて、世界中に展開された仮想通信ネットワークを利用して、ゲーム アプリケーションにスムーズで中断のない超低遅延エクスペリエンスを提供します。ネットワーク状態が悪い場合の特別な最適化により、ゲーム アプリケーションとライブ ブロードキャストのインタラクティブ性が大幅に向上します。開発者は、この「重量級の武器」をわずか 30 分で簡単に統合できます。

基本的なサウンドポジショニングを実現できないという問題に対処するため、Agora.io はマルチチャンネルサウンドシステムソリューションを開始しました。音声通話 SDK を統合することで、リアルタイムの高精細音質と 32khz オーバー帯域幅を備えた音声コーデック NOVA を取得できます。これにより、VR イメージで 3 次元サラウンド サウンドを実現し、ユーザーはあらゆる方向からの周囲の音を感じることができます。同時に、インテリジェントなエコー キャンセル機能とノイズ低減機能により、ユーザーは音を通じて空間位置を正確に特定し、優れた画像没入感を実現できます。

<<:  人工知能を扱うなら必ず知っておくべき音声認識技術の原理

>>:  2016年の音声認識の発展を技術的な観点から振り返る

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

7.4K スター! わずか数分で機械学習モデル用の美しいインタラクティブ インターフェースを生成できます

Gradio は、機械学習やデータ サイエンス関連のデモや Web アプリケーションを構築するための...

...

なぜほとんどの人工知能は「人工的な知的障害」のように見えるのでしょうか?

[[431114]]当時流行した「インターネット+」を覚えている人はいるだろうか...「衣食住交通...

将来は知能ロボットが農業を担う

果物の収穫から雑草の除去まで、ロボットは精密農業で大きな成果を上げています。農家は常に熱心なデータ収...

必要なパラメータはわずか1%で、その効果はControlNetを上回る。新しいAI塗装制御マスターが登場

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

コレクションにおすすめ!素晴らしい AWS 機械学習ツールキットの概要

[[330619]]テクノロジーとエコロジーの継続的な進化、およびアプリケーション シナリオの継続的...

GitHub で最も人気のあるオープンソース機械学習プロジェクト 28 件: TensorFlow がトップ

機械学習は現在、業界で徐々にホットな話題になりつつあります。20年以上の開発を経て、機械学習は現在、...

...

データ処理を簡単にしますか? Baidu EasyDataが初の高度なインテリジェントデータクリーニング機能をリリース

AI モデルを開発する場合、データの量と品質がモデルの有効性に直接影響します。現場でデータを収集した...

6つの興味深い画像グレースケール変換アルゴリズム

[楊静卓のブログより引用]序文白黒写真の時代は過ぎ去りましたが、今、昔の写真を見ると、昔に戻ったよう...

AIがエンタープライズデータカタログを救う方法

「データ カタログ」という概念は、実は新しいものではありません。メインフレームの時代から、企業はデー...

クラウドベースのAIモバイルアプリケーションは今後も成長し、改善され続けるだろう

近年、モバイルラーニングと人工知能は、人々が機械と連携する方法に大きな影響を与えており、個々の顧客に...