これらのよく知られた VR 音声テクノロジーソリューションをご存知ですか?

最近、Oculus は、VR デバイスを使用する際にユーザーがよりインタラクションできるようにすることを目的として、Samsung Gear VR 仮想現実ヘルメットに「Parties」と「Rooms」という 2 つの機能を追加しました。 2016年、Facebookの創設者マーク・ザッカーバーグ氏もカンファレンスで「VRは次世代のコンピューティングプラットフォームとなり、人々を既存のオンラインソーシャルモデルを完全に覆すことになるだろう」と述べた。VRソーシャルネットワーキングの概念は大いに宣伝されているが、VRへの道はそれほど明るいものではない。まず、今日私たちが直面している問題は音声インタラクションの問題である。今日は、VR 音声インタラクションの問題についてお話します。

[[185808]]

1. iFLYTEK音声エンジンシステム

InterReco音声認識システム

iFLYTEK は、世界をリードする InterReco 音声認識システムを発表しました。InterReco は、セルフサービスの音声サービスと音声検索ビジネスを推進し、音声コマース (V-Commerce) のコアとなる原動力となっています。現在、InterReco 音声認識システムは、高度なセルフサービス音声サービスソリューションを使用して、増大する情報相談、電子取引、顧客サービスのニーズに対応できます。 InterReco ベースのソリューションにより、ユーザーは、すぐに利用できる電話を通じて、いつでもどこでも簡単かつ自然に情報やサービスを入手し、効率的で安定した便利なアプリケーションエクスペリエンスを楽しむことができます。

InterReco 音声認識システムは分散アーキテクチャを採用しており、iFlytek の実績ある通信グレード音声プラットフォームの高い安定性を継承しており、通信グレードアプリケーションの高い信頼性と高可用性の要件を満たすことができます。従来の音声認識製品の統合開発の難しさや煩雑な業務設計に対応して、InterReco 製品は統合開発と業務開発の複雑さを大幅に簡素化し、システムインテグレーターと業務開発者に便利で効率的な開発環境を提供します。

InterReco製品の主な機能モジュールと構造

InterReco 音声認識システムは、主にアプリケーションインターフェイス、認識エンジン、オペレーティングシステム適応の 3 つのレベルで構成されています。これら 3 つの論理レイヤーが組み合わさって、完全な InterReco システムアーキテクチャを構成します。

アプリケーションインターフェイスは、InterReco システムによって提供される開発インターフェイスです。統合開発者は、これらのインターフェイスの定義、機能、および使用方法に注意を払う必要があります。認識エンジンは、コアとなる音声認識機能を提供し、アプリケーションインターフェースの機能実装者として機能します。同時に、

開発と使用を容易にするために、システムはこのレイヤーで一連の効率的で使いやすいツールを提供します。オペレーティングシステム適応層は、複数のオペレーティングシステムの複雑さを遮断し、認識エンジンにオペレーティングシステムに関連する基礎的なサポートを提供します。

InterReco 音声認識システムは、その論理構成によって、認識文法 (Grammar)、認識エンジンコア (Recognizer Core)、音声エンドポイント検出 (Voice Activation Detector)、オーディオ入力 (Audio Source) の 4 つのサブシステムに分けられます。システムの主な設計と開発は、これらのサブシステムに従って実行されます。

埋め込み音声 Aisound シリーズ製品

同様に、iFLYTEK は通信グレードの組み込み音声合成技術も提供しています。組み込み音声 Aisound シリーズは、同社の世界をリードする音声合成技術であり、サイズが小さく、リソース使用量が少なく、効率が高く、主に組み込み分野の音声合成ソフトウェアモジュールに使用されています。さまざまな業界の音声放送やアプリケーションのニーズに適しています。

iFLYTEKの組み込み音声ソリューションには、主にXFS3031CNP中国語音声合成チップ、XFS4243CE中国語と英語の音声合成モジュール、XFS5152CE中国語と英語の音声合成チップ、XF-S4240中国語音声合成モジュールと他の4つの音声合成ソリューションが含まれます。これらは、車両ディスパッチャー、情報機器、気象警報機、出勤管理機、待ち行列管理機、ハンドヘルドスマートメーター、税金管理機など、さまざまな情報端末製品にうまく適用されています。さらに、音声エンジンは、幅広い組み込みプラットフォームと機能アプリケーションをサポートする軽量の音声合成ソフトウェア Aisound も提供します。

XFS3031CNP中国語音声チップシステム構造図

iFLYTEK 音声合成システムフレームワーク図

2. ユニサウンドの「遠距離音声認識技術」ソリューション

音声クラウドプラットフォームに関して、Unisound は音声認識、意味理解、音声合成という 3 つの側面で独自の技術的優位性を持っています。雲智盛はVR分野へのインタラクティブな入り口として、さまざまな日常シーンに適応できるインタラクティブ技術を重視しています。現在、雲智盛は主に音声クラウドプラットフォーム、スマートカー、スマートホーム、教育の4つの垂直分野で音声認識技術のソリューションを提供しています。

Unisound の最新の音声テクノロジー - 「デュアルマイクアレイに基づく遠距離音声認識ソリューション」。このソリューションは、世界をリードする SSP 技術を使用して、ユーザーの音声以外のノイズや残響の影響を効果的に抑制し、95% 以上のシナリオで遠距離音のピックアップを効果的に実行できます。Unisound の遠距離音声認識エンジンと組み合わせることで、5 メートル以内の距離で正確な認識を保証します。同時に、このソリューションでは 2 つのマイクのみが必要なため、設置場所は柔軟であり、デバイスの向きを考慮する必要がありません。

Unisound の「クラウドからチップ」エコシステム

Unisoundは、音声認識、意味理解、音声合成、声紋認識など、複数のコア音声技術を提供しています。Unisoundのオープンプラットフォームは、ワンストップの音声アプリケーション開発をサポートしています。音声アプリケーションを独自に作成し、対応するマッチング需要ソリューションを追加できます。プラットフォームタイプ設定を通じてSDK統合パッケージ開発を完了し、音声製品のオンラインリリースを完了できます。

3. Agora.ioリアルタイム音声システム

[[185811]]

Agora.io 音声 SDK は、世界独自の 32khz 超広帯域音質を採用しており、これは通常の電話の 4 倍の音質です。また、マルチチャンネルサウンドシステムを提供し、VR 体験における「聴覚と定位」を実現し、3D サウンド効果に匹敵します。さらに重要なのは、リアルタイムの音声をゲームのバックグラウンドミュージックと完璧に統合できるため、ユーザーの臨場感が大幅に向上することです。

Agora.io は、オーディオ処理の最適化に加えて、世界中に展開された仮想通信ネットワークを利用して、ゲームアプリケーションにスムーズで中断のない超低遅延エクスペリエンスを提供します。ネットワーク状態が悪い場合の特別な最適化により、ゲームアプリケーションとライブブロードキャストのインタラクティブ性が大幅に向上します。開発者は、この「重量級の武器」をわずか 30 分で簡単に統合できます。

基本的なサウンドポジショニングを実現できないという問題に対処するため、Agora.io はマルチチャンネルサウンドシステムソリューションを開始しました。音声通話 SDK を統合することで、リアルタイムの高精細音質と 32khz オーバー帯域幅を備えた音声コーデック NOVA を取得できます。これにより、VR イメージで 3 次元サラウンドサウンドを実現し、ユーザーはあらゆる方向からの周囲の音を感じることができます。同時に、インテリジェントなエコーキャンセル機能とノイズ低減機能により、ユーザーは音を通じて空間位置を正確に特定し、優れた画像没入感を実現できます。

<<: 人工知能を扱うなら必ず知っておくべき音声認識技術の原理

>>: 2016年の音声認識の発展を技術的な観点から振り返る

ブログ

Microsoft AutoGenフレームワークは1万個のスターを獲得するほど人気があります。インテリジェントエージェントはチャットで問題を解決できます。

ブログ

過去10年間のデータ分析と人工知能の7つの災害のレビュー

ブログ

アリババDAMOアカデミーが自動運転の技術的困難を突破：3D物体検出の精度と速度の両方を実現

ブログ

これらのよく知られた VR 音声テクノロジーソリューションをご存知ですか?

Microsoft AutoGenフレームワークは1万個のスターを獲得するほど人気があります。インテリジェントエージェントはチャットで問題を解決できます。

エンジニアリングだけではありません!人間の認知バイアスが原因の AI 研究における 12 の盲点

企業の4分の1以上が従業員による生成AIの使用を禁止している

「アルゴリズムとデータ構造」時間と空間の複雑さ

過去10年間のデータ分析と人工知能の7つの災害のレビュー

アリババDAMOアカデミーが自動運転の技術的困難を突破：3D物体検出の精度と速度の両方を実現

推薦する

7.4K スター! わずか数分で機械学習モデル用の美しいインタラクティブインターフェースを生成できます

なぜほとんどの人工知能は「人工的な知的障害」のように見えるのでしょうか?

マイクロソフトがバックアップとして OpenAI を選択: GPT-4 レベルの大規模モデルはオンラインになるとすぐに爆発的に増加し、コストはわずか 2,200 万ドル

将来は知能ロボットが農業を担う

必要なパラメータはわずか1%で、その効果はControlNetを上回る。新しいAI塗装制御マスターが登場

コレクションにおすすめ！素晴らしい AWS 機械学習ツールキットの概要

GitHub で最も人気のあるオープンソース機械学習プロジェクト 28 件: TensorFlow がトップ

Facebook AI が、強力なフルスタックビデオライブラリである PyTorchVideo をオープンソース化し、モバイルフォンで SOTA モデルを 8 倍高速に実行できるようにしました。

データ処理を簡単にしますか? Baidu EasyDataが初の高度なインテリジェントデータクリーニング機能をリリース

なんと偉大な神様なのでしょう！ AIが100年前の中華民国北京の画像を復元、ネットユーザー「まるでタイムトラベルのようだ」

6つの興味深い画像グレースケール変換アルゴリズム

AIがエンタープライズデータカタログを救う方法

クラウドベースのAIモバイルアプリケーションは今後も成長し、改善され続けるだろう