ゲーム内で優れたリアルタイム音声体験を提供する方法

ゲーム内音声通信の要件

2015 年にはすでに、iMedia Research がモバイルゲームのソーシャルインタラクションに関する統計を発表しており、約 40% のプレイヤーがソーシャル要素を理由にゲームを選択し、15.6% のプレイヤーがソーシャル性の低さを理由にゲームを離れることを選択しています。そのため、ゲームのソーシャル属性をいかに向上させるかが、大手ゲームメーカーにとってゲーム企画の重要な部分となっています。

分隊バトルやチームダンジョンから、ゲームランキング、PVP チーム競技、ギルド、ファミリー、その他のゲームプレイ方法まで、これらはすべてゲームのソーシャル性を高め、ゲームの粘着性、プレイヤーのアクティビティ、維持率を高める効果的な方法です。モバイルデバイスの性能が大幅に向上するにつれ、モバイルゲームもシンプルなシナリオのカジュアルゲームから、操作やゲーム体験を重視した対戦ゲームや大規模MMOゲームなどのヘビーゲームへと発展してきました。このようなゲームにおけるプレイヤー間のコミュニケーションは、欠かせない機能要件となっています。

しかし、PCゲームと比較すると、モバイルゲームのタイピングシステムはより不便であり、テキストメッセージはリアルタイム通信のニーズを完全に満たすことができません。また、重いゲームは携帯電話ネットワークとパフォーマンスに対する要件が高いため、不安定なネットワークと限られたコンピューティングリソースは、現在すべてのモバイル端末が完全に解決できない問題です。モバイルQQなどのゲーム外の音声通信ソフトウェアは、リソースが逼迫しているときにゲーム内のプレーヤーの体験に影響を与えないという要件を満たすことができません。そのため、軽量のボイスチャット機能をモバイルゲームに統合することは、モバイルゲームメーカーにとって避けられない選択となっています。

[[221069]]

モバイルゲームの音声機能の課題

リアルタイム音声通信技術は、もはや業界では目新しい話題ではありません。従来の VOIP コールセンターメーカーからクラウド通信分野の音声サービスプロバイダーまで、さまざまなアプリにリアルタイム音声機能を統合するための既製の SDK が多数あります。しかし、モバイルゲームにおけるリアルタイム通信のニーズは、リアルタイム通話を実装するだけでは満たせません。次のような課題がさらに存在します。

1. コアゲームプレイへの影響

近年、モバイルデバイスの性能は大幅に向上しましたが、プレイヤーのゲーム体験の追求と比較すると、現在の消費者向けスマートデバイスの性能は、依然として高品質のゲームの基本的なニーズを満たすことしかできず、余剰はあまりありません。リアルタイム音声機能がデバイスの CPU とメモリを大量に消費すると、ゲーム体験が低下します。ソーシャルニーズはゲームが生き残れるかどうかを決定する重要な要素ですが、ゲームが生き残れるかどうかを決定するのはゲーム体験です。 2015年以降、ネットワーク遅延に対する要求が極めて高いMOBAやFPSゲームもモバイルデバイスに移行しました。モバイルデバイス上の極めて不安定なネットワーク環境と高額な4Gトラフィック料金に直面して、ゲームメーカーはゲームメッセージの最適化、ネットワークトラフィックの削減、ネットワーク遅延の低減に懸命に取り組んできました。音声機能の追加がゲームネットワークの品質に一夜にして影響を与えるとしたら、それは明らかに損失に見合うものではありません。さらに、音声機能の追加によって最初のゲームダウンロードパッケージのサイズが大幅に増加するかどうかも、大手ゲームパブリッシャーにとって最優先事項です。

2. モバイルゲーム環境におけるサウンド処理

クライアント側のゲームシナリオと比較して、モバイルゲームの最大の利点は、「移動中」にゲームをプレイできることです。しかし、リアルタイム音声では、この「移動」の利便性が、クリアな音声伝送に多くの問題をもたらします。地下鉄や道路上の騒々しい背景音が通常の音声品質に影響を与えます。電話と口の間の距離が変化すると、音が大きくなったり小さくなったりします。複数の人の会話とゲームの背景音が重なり合うと、エネルギーが過剰になり、ポップノイズが発生します。複数のプレーヤーの電話の音が大音量で再生されると、大量のエコーが発生します。これらは複雑なサウンド処理の問題であり、ヘッドセットを使用した PC ゲームという比較的単純な環境では頻繁には発生しません。

3. モバイルゲームにおける複数の音声シナリオの能力カバレッジ

現在、より本格的なモバイルゲームの中では、MOBA、PUBG、MMOなどの競争的なゲームが主流を占めています。これらのゲームのリアルタイム戦闘属性により、モバイルゲームへの音声機能の導入が急務となっており、カジュアルなチェスやカードゲームにおける音声は、徐々にプレイヤー間のコミュニケーションを強化する重要な手段となっています。新しい人気のソーシャルゲームでは、音声が基本的なゲーム機能の 1 つになっています。しかし、各種ゲームの音声機能に対する要求も異なります。競争ゲームでは、ゲーム内の同じチームのすべてのプレイヤーが一緒にゲームをプレイでき、基本的なコミュニケーションのニーズを確保しながら、モバイルデバイスのパフォーマンスとネットワークへの影響を最小限に抑える必要があります。MMOゲームは、PVPシナリオでの分隊ボイスやPVEシナリオでのチームボイスなど、多くのプレイヤーがいて、最近では多くのMMOゲームでゲーム内アンカーチャンネルに似たゲームプレイも注目されています。人狼ゲームなどのソーシャルゲームでは、リアルタイムボイスの音質がより重視されており、スムーズで途切れないコミュニケーションはゲームの長期運営の必要条件です。カジュアルゲームでも、リアルタイムボイスとボイスメッセージを補助的なソーシャル手段として使用し、プレイヤーのアクティビティを高めています。また、モバイル環境では音声を聞くことができないプレイヤーも多く、WeChatで提供されているような音声メッセージをテキストに変換する機能もモバイルゲームの必須機能の一つです。

4. モバイルゲームの音声機能のグローバル化

2017年、国内のモバイルゲームユーザー規模は6億人近くに達し、成長率は年々鈍化しています。人口ボーナスが消え、競争がますます激しくなり、大手メーカーも高品質のゲーム路線へと移行せざるを得なくなりました。一方、国産ゲームは海外展開の余地が大きく、国内プレイヤーからの評価を得て、より高品質なモバイルゲームが急速にグローバルに宣伝・配信されています。海外のプレイヤーも国内のプレイヤーと同様の音声ニーズを持っていますか? Greg Wadley 氏らによる研究レポート (「仮想世界における音声: オンラインプレイにおける音声チャットの設計、使用、影響」) では、ゲーム内の音声はプレイヤーのゲーム体験を世界的に大幅に向上させることができるという明確な答えが示されています。ゲームのグローバル化により、ゲーム内音声に新たな課題がもたらされました。地域を超えてプレイヤーにスムーズでクリアな音声体験を提供する方法、不安定なネットワーク、長距離伝送、世界中の音声サービスインフラストラクチャの展開と運用など、すべてゲームメーカーにとっての頭痛の種となっています。

リアルタイム音声の一般的な技術的ソリューション

音声に関する数多くの研究の中には、さまざまな環境での音声処理のための方法が多数存在し、先人たちはストリーミングメディアプロトコルやインターネット環境におけるいくつかのネットワーク問題を解決する方法についても提案してきました。このセクションでは、上記のモバイルゲーム環境におけるリアルタイム音声が直面する課題に対応するために、音声前処理やストリーミングプロトコルなどの一般的なソリューションをいくつか紹介します。

図1 音声前処理の一般的な流れ

1. 音声ノイズ低減

モバイルデバイスが配置されている複雑な環境では、音声信号を受信する際に多くのノイズが発生します。そのため、音声ノイズ低減技術は、音質を改善し、音声認識の精度を高めるために必要な手段です。ノイズ低減技術は、一般的に、単一マイクシステムと複数マイクシステムのノイズ低減方法に分けられます。複数マイクシステムでは、複数のマイク間の方向と距離に対する要件が非常に高くなります。一般的に使用されているモバイルデバイスには、このような完全な複数マイクチャネル設計はありません。そのため、モバイルデバイスのノイズ処理では、フィルタリングノイズ低減または単一マイクでのノイズしきい値方法がより一般的に使用されています。モバイルデバイスでのノイズ処理は比較的簡単です。まず、多くのハイエンドスマートデバイスには、オペレーティングシステムが呼び出す専用のノイズ低減チップが組み込まれており、モバイルオペレーティングシステムにも、Android の NoiseSuppressor など、開発者が呼び出す効率的なノイズ低減アルゴリズムが多数組み込まれています。

2. 音声起動検出（VAD）

音声起動検出の目的は、音が背景雑音か音声かを判断することです。この技術は、その後のさまざまな音声処理および音声認識技術の基礎としてよく使用されます。モバイルゲームの騒がしい環境では、音声信号を正確に認識することが特に重要です。一方では、音声信号を認識することで、非音声部分の音を除去し、音声伝送ファイルのサイズと他の音声処理方法の CPU メモリ消費量を削減することができます。また、音声信号を正確に抽出することで、テキストへの音声認識の精度を効果的に向上させることもできます。

図2 VAD処理プロセス

音声自体の特性と背景音との違いは、高エネルギーと不連続性です。そのため、音声の時間領域分析法では、短時間エネルギーと短時間ゼロ交差率分析を組み合わせることで、音声かノイズかを効果的に区別できます。周波数領域では、ケプストラムやスペクトルエントロピーなどの特徴を通じて、音声信号を認識パラメータとして使用することもできます。機械学習の発展に伴い、隠れマルコフモデル、決定木モデル、さらには最新のディープニューラルネットワークも VAD 分野に適用され、ノイズの多い環境での VAD の精度が向上しています。いくつかの方法を比較すると、時間領域解析はハードウェア要件が最も低く、周波数領域解析は最も高速であり、モデル法は比較的複雑ですが、精度の点で優れています。現在までに、市場には 3 種類の VAD 分析手法があり、さまざまな需要シナリオで広く使用されてきました。

3. エコーキャンセル

エコーは、ノイズや背景音に続く 3 番目の厄介な音声問題であり、モバイルゲームのシナリオでも広く発生しています。ノイズ処理プロセスは、簡単に言えば、近端から収集されたすべてのオーディオから遠端からのオーディオ信号を適応フィルターで除去し、それをもう一方の端に出力することで、エコーキャンセルの目的を達成することです。重要な点は、フィルターの重みとエコーパスのチャネルの重みの間の誤差を継続的に減らすことです。

図3 エコーキャンセル - 適応フィルタ

適応フィルタリングアルゴリズムは、一般的に、最小二乗平均アルゴリズム (LMS) と再帰最小二乗 (RLS) アルゴリズムの 2 つのカテゴリに分けられます。RLS の利点はフィルタリング効果が優れていることですが、LMS には構造が単純で計算の複雑さが低いという利点があります。そのため、正規化最小二乗平均 (NLMS)、比例正規化最小二乗平均 (PNLMS) など、LMS アルゴリズムをフィルタリング性能や収束速度などの多くの側面で最適化および改善するための研究も LMS に重点が置かれています。同時に、Android は、サウンドエコーを直接キャンセルするための AcousticEchoCanceler インターフェイスも提供しています。ハイエンドのスマートフォンには、ハードウェアレベルでエコーをより効果的に除去するための専門的なサウンド処理チップも組み込まれています。

4. マルチチャンネルサウンドエイリアシング

ゲームでは、複数のプレイヤーがチームボイスで同時に話すことがあり、プレイヤーがボイスを聞いている間はゲームの背景音を消すことができません。そのため、このシナリオでは、複数のボイスをポップノイズを起こさずにクリアに通過させる方法が、高品質なミキシングを判断する基準となります。最もシンプルなミキシング方法は、シンプルな時間領域オーディオ重ね合わせです。強度が最大値を超えると、ピークが最大値にクリップされ、ポップ音を回避します。ただし、人工的なピーククリッピングは、オーディオ信号を破壊しながら追加のノイズを導入します。別の方法は、複数のサウンドチャンネルを線形に重ね合わせて平均を取ることです。このアルゴリズムは、実際には複数のオーディオチャンネルの音量を減らします。ただし、チャンネル数が変化すると、この方法では各チャンネルの音量が変動し、エクスペリエンスに影響を与えます。したがって、実際の使用シナリオでは、ミキシング時に各音声チャンネルにその重要度に応じて対応する重みを与え、ミキシング後の各オーディオチャンネルの認識可能性を確保する方がよいでしょう。

5. 自動音声増幅

自動ゲイン制御技術は、データ通信、音声処理などの分野で広く使用されています。通信信号の信号振幅は、しばしば大きく変動します。自動ゲイン制御技術は、信号振幅を平滑化し、通信品質を向上させることができます。モバイルゲームでは、プレーヤーがゲームをプレイしている外部環境に応じて、電話と人の口の間の距離が大きく変化することがあります。そのため、各人の声の音量や、異なる発話時間における人の声の音量を滑らかにすることが、音声通話の品質にとって重要です。複数人によるリアルタイム音声通信のシナリオでは、VAD 処理後に自動ゲインを完了し、マルチチャンネルサウンドミキシングのニーズに応じてしきい値を設定できます。エネルギー比較に基づく音声自動ゲインアルゴリズムにより、よりスムーズな音量効果を実現できます。

図4 ピークAGCシステム構造

6. ストリーミングメディア伝送プロトコル

一般的なストリーミングプロトコルには、RTP、RTMP、HLS、HTTP-FLV などがあります。これらのうち、RTMP、HLS、HTTP-FLV は、国内外の CDN プラットフォームで広くサポートされているため、現在では主要なライブストリーミングプラットフォームでよく使用されています。 RTMP は、プロトコルの遅延が低い Adobe の特許取得済みプロトコルです。中国では非常に人気があり、最も一般的に使用されているストリーミングプロトコルです。HLS は、Apple が提案した HTTP ベースのストリーミングメディア伝送プロトコルです。H5 をサポートし、複数のプラットフォームやブラウザーで自由に再生できますが、遅延が高くなります。HTTP-FLV は、HTTP を使用して FLV 形式のファイルを送信し、Adobe プロトコルのハイジャックを回避し、RTMP よりも遅延がわずかに優れています。

リアルタイム性が求められるビデオ監視や高解像度ビデオ会議の分野では、RTP がより一般的に使用されるプロトコルです。 RTP と最初の 3 つの TCP ベースのストリーミングメディア伝送プロトコルとの最大の違いは、RTP が UDP ベースのプロトコルであることです。 UDP 自体は順序付けられていないため、RTP は RTCP プロトコルと一緒に使用され、パケットの順序や RTP プロトコルのその他の内容を制御することがよくあります。同時に、データグラム輻輳制御プロトコル (DCCP) を使用して、輻輳、遅延、データ品質を簡単に制御することもできます。例えば、オンラインビデオ会議分野で最大のシェアを誇るWebexビデオ会議システムでは、ストリーミングメディア伝送プロトコルとしてSRTP（Secure RTP）プロトコルを採用しています。現在、大手クラウドベンダーのインタラクティブな音声およびビデオ製品のほとんども、遅延と帯域幅の消費を削減するために、リアルタイムストリーミングメディア伝送プロトコルとして RTP のようなプロトコル (UDP プロトコルに基づいて最適化されたプライベートプロトコル) を使用しています。

7. ストリーミングメディアのパケット損失処理

モバイルデバイスの不安定なネットワーク環境と、ゲームのグローバル配信によってもたらされる地域をまたいだプレイヤー間のネットワーク品質の問題が相まって、音声通信では、ネットワークのジッターやパケット損失が発生した場合でも、プレイヤー間の正常な通信を確保する方法を考慮する必要があります。一般的なストリーミングメディアパケット損失処理ソリューションには、ARQ、FEC、クロス転送などがあります。ネットワークパケット損失が深刻な場合、既存のメッセージ処理に基づいてクリアな音声情報を生成することは不可能です。自動再送信要求 (ARQ) 損失メッセージ方式では、大規模な損失メッセージを再送信できるため、遅延は増加しますが、データの有効性は保証されます。前方誤り訂正 (FEC) は、少量のパケット損失が発生した場合にデータの再送信の代わりにデータの冗長性を使用することで、データの有効性を保証し、再送信頻度を減らし、遅延を減らすことができます。アルゴリズムの中核は、2 つの変数の解を見つけるために 2 つの方程式を必要とする、2 つの変数を持つ線形方程式に例えることができます。 FEC では、2 つの変数の 3 つの線形方程式が送信されるため、1 つの方程式が失われても解を見つけることができ、情報の有効性に影響を与えずに部分的なパケット損失を許容するという目的を達成できます。

図5 FEC: メッセージ3が失われた場合でも、冗長メッセージに頼ることで元のデータを復元できる

さらに、従来のデータパケット送信は厳密な順序で送信されます。たとえば、一連のデータは 123、456、789 の 3 つのメッセージに分割されます。メッセージが失われると、情報のセクション全体が空白になります。ただし、ストリーミングメディア環境では、ほとんどの場合、1 つのフレームの損失は前後のフレームの内容によって完全に補うことができ、影響は最小限です。したがって、147、258、369 のクロス送信方式を使用してメッセージをカプセル化すると、1 つのメッセージが失われても全体的なエクスペリエンスに大きな影響を与えることはありません。さらに、ネットワーク帯域幅は許容できるがパケット損失が制御できないサービス期間中の地域間伝送の場合、単一フレームマルチパケットカプセル化伝送方式は、パケット損失による頻繁な再送信によって引き起こされる遅延の影響も効果的に軽減できます。

要約すると、音声処理の専門研究開発担当者は、サウンド処理、プロトコルの選択、ネットワークジッターへの対処という点だけでも、複数の最適化対策を実行する必要があります。しかし、これはあくまで理論上の議論に過ぎません。実際のゲームシナリオでは、ゲームのコアゲームプレイに影響を与えずに、上記のすべての音声最適化を実現することがより重要です。つまり、1) 音声通信に必要な CPU、メモリ、ネットワークリソースを継続的に最適化して削減する必要があります。2) 市場に出回っている多くの Android デバイスに直面した場合、クラッシュ率を非常に低いレベルに維持し、いつでも最新のデバイスと互換性がある必要があります。3) Unity や Cocos などのよく使用されるゲームエンジンをサポートする必要があります。さらに、グローバル音声サービスの安定性を確保するために、アーキテクチャ設計の研究開発コスト、複数の地域間の専用線接続コスト、その後の運用・保守コストなどの問題が、ゲームメーカーが独自のゲーム内音声サービスを構築する上での障害となっています。

オリジナルリンク: https://cloud.tencent.com/developer/article/1046538

[この記事は51CTOコラムニスト「雲家コミュニティ」によるオリジナル記事です。転載の許可を得るには51CTOを通じて原作者に連絡してください]

この著者の他の記事を読むにはここをクリックしてください

<<: 大躍進！科学者たちは、2050年までに人類は不死になるだろうと発表しました。人工知能のもとでの必然？

>>: Bespin Global: AI技術を活用してクラウドネイティブのインテリジェントな運用・保守方法を構築