これらのよく知られた VR 音声テクノロジー ソリューションをご存知ですか?

これらのよく知られた VR 音声テクノロジー ソリューションをご存知ですか?

最近、Oculus は、VR デバイスを使用する際にユーザーがよりインタラクションできるようにすることを目的として、Samsung Gear VR 仮想現実ヘルメットに「Parties」と「Rooms」という 2 つの機能を追加しました。 2016年、Facebookの創設者マーク・ザッカーバーグ氏もカンファレンスで「VRは次世代のコンピューティングプラットフォームとなり、人々を既存のオンラインソーシャルモデルを完全に覆すことになるだろう」と述べた。VRソーシャルネットワーキングの概念は大いに宣伝されているが、VRへの道はそれほど明るいものではない。まず、今日私たちが直面している問題は音声インタラクションの問題である。今日は、VR 音声インタラクションの問題についてお話します。

[[185808]]

1. iFLYTEK音声エンジンシステム

InterReco音声認識システム

iFLYTEK は、世界をリードする InterReco 音声認識システムを発表しました。InterReco は、セルフサービスの音声サービスと音声検索ビジネスを推進し、音声コマース (V-Commerce) のコアとなる原動力となっています。現在、InterReco 音声認識システムは、高度なセルフサービス音声サービス ソリューションを使用して、増大する情報相談、電子取引、顧客サービスのニーズに対応できます。 InterReco ベースのソリューションにより、ユーザーは、すぐに利用できる電話を通じて、いつでもどこでも簡単かつ自然に情報やサービスを入手し、効率的で安定した便利なアプリケーション エクスペリエンスを楽しむことができます。

InterReco 音声認識システムは分散アーキテクチャを採用しており、iFlytek の実績ある通信グレード音声プラットフォームの高い安定性を継承しており、通信グレードアプリケーションの高い信頼性と高可用性の要件を満たすことができます。従来の音声認識製品の統合開発の難しさや煩雑な業務設計に対応して、InterReco 製品は統合開発と業務開発の複雑さを大幅に簡素化し、システム インテグレーターと業務開発者に便利で効率的な開発環境を提供します。

InterReco製品の主な機能モジュールと構造

InterReco 音声認識システムは、主にアプリケーション インターフェイス、認識エンジン、オペレーティング システム適応の 3 つのレベルで構成されています。これら 3 つの論理レイヤーが組み合わさって、完全な InterReco システム アーキテクチャを構成します。

アプリケーション インターフェイスは、InterReco システムによって提供される開発インターフェイスです。統合開発者は、これらのインターフェイスの定義、機能、および使用方法に注意を払う必要があります。認識エンジンは、コアとなる音声認識機能を提供し、アプリケーションインターフェースの機能実装者として機能します。同時に、

開発と使用を容易にするために、システムはこのレイヤーで一連の効率的で使いやすいツールを提供します。オペレーティング システム適応層は、複数のオペレーティング システムの複雑さを遮断し、認識エンジンにオペレーティング システムに関連する基礎的なサポートを提供します。

InterReco 音声認識システムは、その論理構成によって、認識文法 (Grammar)、認識エンジン コア (Recognizer Core)、音声エンドポイント検出 (Voice Activation Detector)、オーディオ入力 (Audio Source) の 4 つのサブシステムに分けられます。システムの主な設計と開発は、これらのサブシステムに従って実行されます。

埋め込み音声 Aisound シリーズ製品

同様に、iFLYTEK は通信グレードの組み込み音声合成技術も提供しています。組み込み音声 Aisound シリーズは、同社の世界をリードする音声合成技術であり、サイズが小さく、リソース使用量が少なく、効率が高く、主に組み込み分野の音声合成ソフトウェア モジュールに使用されています。さまざまな業界の音声放送やアプリケーションのニーズに適しています。

iFLYTEKの組み込み音声ソリューションには、主にXFS3031CNP中国語音声合成チップ、XFS4243CE中国語と英語の音声合成モジュール、XFS5152CE中国語と英語の音声合成チップ、XF-S4240中国語音声合成モジュールと他の4つの音声合成ソリューションが含まれます。これらは、車両ディスパッチャー、情報機器、気象警報機、出勤管理機、待ち行列管理機、ハンドヘルドスマートメーター、税金管理機など、さまざまな情報端末製品にうまく適用されています。さらに、音声エンジンは、幅広い組み込みプラットフォームと機能アプリケーションをサポートする軽量の音声合成ソフトウェア Aisound も提供します。

XFS3031CNP中国語音声チップシステム構造図

iFLYTEK 音声合成システムフレームワーク図

2. ユニサウンドの「遠距離音声認識技術」ソリューション

音声クラウド プラットフォームに関して、Unisound は音声認識、意味理解、音声合成という 3 つの側面で独自の技術的優位性を持っています。雲智盛はVR分野へのインタラクティブな入り口として、さまざまな日常シーンに適応できるインタラクティブ技術を重視しています。現在、雲智盛は主に音声クラウドプラットフォーム、スマートカー、スマートホーム、教育の4つの垂直分野で音声認識技術のソリューションを提供しています。

Unisound の最新の音声テクノロジー - 「デュアルマイクアレイに基づく遠距離音声認識ソリューション」。 このソリューションは、世界をリードする SSP 技術を使用して、ユーザーの音声以外のノイズや残響の影響を効果的に抑制し、95% 以上のシナリオで遠距離音のピックアップを効果的に実行できます。Unisound の遠距離音声認識エンジンと組み合わせることで、5 メートル以内の距離で正確な認識を保証します。同時に、このソリューションでは 2 つのマイクのみが必要なため、設置場所は柔軟であり、デバイスの向きを考慮する必要がありません。

Unisound の「クラウドからチップ」エコシステム

Unisoundは、音声認識、意味理解、音声合成、声紋認識など、複数のコア音声技術を提供しています。Unisoundのオープンプラットフォームは、ワンストップの音声アプリケーション開発をサポートしています。音声アプリケーションを独自に作成し、対応するマッチング需要ソリューションを追加できます。プラットフォームタイプ設定を通じてSDK統合パッケージ開発を完了し、音声製品のオンラインリリースを完了できます。

3. Agora.ioリアルタイム音声システム

[[185811]]

Agora.io 音声 SDK は、世界独自の 32khz 超広帯域音質を採用しており、これは通常の電話の 4 倍の音質です。また、マルチチャンネル サウンド システムを提供し、VR 体験における「聴覚と定位」を実現し、3D サウンド効果に匹敵します。さらに重要なのは、リアルタイムの音声をゲームのバックグラウンドミュージックと完璧に統合できるため、ユーザーの臨場感が大幅に向上することです。

Agora.io は、オーディオ処理の最適化に加えて、世界中に展開された仮想通信ネットワークを利用して、ゲーム アプリケーションにスムーズで中断のない超低遅延エクスペリエンスを提供します。ネットワーク状態が悪い場合の特別な最適化により、ゲーム アプリケーションとライブ ブロードキャストのインタラクティブ性が大幅に向上します。開発者は、この「重量級の武器」をわずか 30 分で簡単に統合できます。

基本的なサウンドポジショニングを実現できないという問題に対処するため、Agora.io はマルチチャンネルサウンドシステムソリューションを開始しました。音声通話 SDK を統合することで、リアルタイムの高精細音質と 32khz オーバー帯域幅を備えた音声コーデック NOVA を取得できます。これにより、VR イメージで 3 次元サラウンド サウンドを実現し、ユーザーはあらゆる方向からの周囲の音を感じることができます。同時に、インテリジェントなエコー キャンセル機能とノイズ低減機能により、ユーザーは音を通じて空間位置を正確に特定し、優れた画像没入感を実現できます。

<<:  人工知能を扱うなら必ず知っておくべき音声認識技術の原理

>>:  2016年の音声認識の発展を技術的な観点から振り返る

ブログ    
ブログ    
ブログ    

推薦する

Baidu がスマートミニプログラムをリリース: Baidu Brain 3.0 に完全に統合され、12 月にオープンソース化

7月4日、北京国家会議センターで「Baidu Create 2018」Baidu AI開発者会議が開...

ついに誰かがナレッジグラフをわかりやすく説明してくれた

[[382731]]この記事は、劉宇、趙紅宇らが執筆したWeChatパブリックアカウント「ビッグデー...

人工知能とモノのインターネットはどこへ向かうのでしょうか?

モノのインターネットは私たちの日常生活を再構築するのに役立つテクノロジーですが、IoT がその可能性...

74KBの写真も高解像度です。Googleはニューラルネットワークを使用して新しい画像圧縮アルゴリズムを作成しました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

ハーバード大学とMITが協力し、新型コロナウイルスに遭遇すると自動的に光るスマートマスクを開発

[[326611]] 「新型コロナウイルスにさらされると、マスクが自動的に点灯し、検査員に警告を発し...

ガートナー:持続可能性とデジタル主権がパブリッククラウドベースのAIサービスを選択する際の最重要基準となる

ガートナーは、2027 年までに、生成型人工知能 (生成型 AI) を導入する企業の 70% が、持...

さまざまな業界がエッジAIから得られるメリット

ご存知のとおり、人工知能は計算能力を消費し、多数のデータセンターを必要とします。 しかし、適切な状況...

...

単一のViTモデルがマルチモーダルおよびマルチタスクのタスクを実行し、Googleは共同トレーニング戦略を使用して複数のSOTAを達成します。

[[441692]]トランスフォーマーは本当に多用途です。トランスフォーマーは、もともと自然言語処...

アニメーション + 原理 + コード、トップ 10 の古典的なソート アルゴリズムを解釈する

ソートアルゴリズムは、「データ構造とアルゴリズム」における最も基本的なアルゴリズムの 1 つです。ソ...

...