1000 以上の AI エージェントが復活、メタバースの OpenAI バージョンがリリースされる? ChatGPT+VR が「ウエストワールド」を 100% 復元

『ウエストワールド』のビデオゲーム版が現実になった。

YouTube ブロガーの Art from the Machine が、『The Elder Scrolls 5』の NPC を復活させることができる新しい AI Mod、Mantella を正式にリリースしました。

プロジェクトがリリースされると、Reddit で大きな話題を呼びました。

ChatGPT、テキスト読み上げツールxVASynth、音声認識モデルWhisperを通じて、ゲーム内のAIエージェントは直接意識を持ち、自然な会話を行うことができます。

Mantella Mod は 1,000 を超える NPC と 20 を超える言語をサポートしていることは注目に値します。

ネットユーザーたちはゲームのルールを変える必要があると表明した。

多くのプレイヤーは、ゲーム内でモンスターを倒したりレベルアップしたりすることにすでに飽きています。

VR モードでこの Mod をインストールした後、一部のプレイヤーは間違いなく「The Elder Scrolls」内の NPC を探してチャットし、一日中チャットするようになると考えられます。

アップグレードは不可能、この生涯でアップグレードすることは決してない、そしてモンスターを倒すことは困難です。ゲーム内で時間をつぶす唯一の方法は、NPC とチャットすることです。

ゲーム内のキャラクターは皆、自分のストーリーを持っていて、優しく話します。ゲーム内の NPC とチャットするのは本当に楽しいです。

一部のネットユーザーは、この Mod は単なるゲームではなく、人間とコンピューターの相互作用の新しい時代を切り開くものだとさえ考えています。

1000人以上のNPCに「魂」が注入される

Mantellaは過去数か月間公開テストが行われており、作者はついに19日にこのMODをリリースした。

簡単に言うと、この Mod は「The Elder Scrolls V: Skyrim」のすべての NPC を ChatGPT GPT に接続し、元々は前後にしか移動できなかった NPC が AI によって実際に生き生きと動くように支援できるようにします。

1,000 体を超える NPC はすべて音声を通じて直接対話することができ、それぞれが独自の背景を持っています。

NPC は、以前の会話の内容を記憶しているほか、自分の位置、ゲーム内の時間、拾ったアイテムなど、プレイヤーがゲーム内で目にする操作も把握しています。

NPC のダイアログコンテンツは ChatGPT によって生成され、ゲーム内の音声実装は xVASynth と呼ばれる AI ツールによって完了します。

NPC が人々とどのようにコミュニケーションするかを見てみましょう。

プレイヤー: これらのチーズはいくらですか?

NPC: このチーズは当店の最高級品です。価格は 10 ゴールドコインです。他に何か必要なものはありますか？

プレイヤー：マクドナルド。

NPC: 申し訳ありませんが、『The Elder Scrolls』にはマクドナルドは存在しません。

プレイヤー: あなたの妻を盗みました。

NPC: 信じられません。私は結婚もしていませんし、妻もいません。あなたは間違っているかもしれません...

さらに興味深いのは、NPC があなたの会話にユーモラスに応答することです。

NPC: もしあなたが私の妻だと思い込んでいる、あるいはあなたには妻がいないと言っているのであれば、残念です。

実際、NVIDIA は AI を利用してゲームキャラクターをより生き生きと表現することにも取り組んでいます。

ご存知のとおり、Huang 氏は今年の COMPUTEX カンファレンスで、ゲーム向けの新しいカスタマイズされた AI モデルファウンドリーサービスである Avatar Cloud Engine (ACE) を発表しました。

サイバーパンク風のラーメン店のシーンで、プレイヤーはボタンを押して自分の声で話すと、店主のジンが答えます。

ジンは NPC キャラクターですが、その応答はプレイヤーの音声入力に基づいて生成 AI によってリアルタイムで生成されます。

また、Jin にはリアルな顔のアニメーションと音声演技も備わっており、すべてがプレイヤーの口調や背景ストーリーにマッチしています。

このリアルなキャラクターは、リアルタイム AI モデルレンダリングツールである Nvidia ACE を使用して生成されました。

Lao Huang 氏は、このゲームのキャラクターは事前に設定されていないと述べました。典型的なクエスト提供者 NPC タイプが存在します。

舞台裏のテクノロジー

Mod 作成者は ChatGPT、xVASynth、Whisper を使用して、「グループアクティブ」NPC の技術的フレームワークを作成しました。

Whisper は、プレイヤーがマイクを通じて入力した音声内容を認識し、それをテキストに変換し、API を通じて ChatGPT を呼び出して、プレイヤーの言葉にテキストで応答します。

そして、xVASynth を使って ChatGPT が生成したテキスト返信をゲームキャラクターの特性に合わせたゲーム内音声に変換し、プレイヤーと直接コミュニケーションをとることができます。

さらに、プロセス全体の実装にはほとんどコストがかからず、ChatGPT API を呼び出すための少額の料金のみを支払う必要があります。 1日プレイするには数セントかかります。

翻訳

翻訳元: スカイリム

ゲーム内の特定の声に一致するゲーム NPC の吹き替えセリフを生成できます。

xVASynth は、ニューラル音声合成を使用して、ゲーム内の NPC の音声ダイアログを特別に生成します。ゲーム内のキャラクターの音声データに基づいて個別にトレーニングされたモデルに基づいています。

テキスト読み上げ変換 (TTS) または音声変換 (V/C) 用の直接オーディオ入力をサポートします。

このツールを使用すると、ユーザーは特定のサウンド素材の短い部分をテンプレートとして提供し、テキストを使用してテンプレートのスタイルと一致する音声コンテンツを直接生成するだけで済みます。

Mentellaは、ChatGPTのフレームワークを使用してNPCのダイアログコンテンツを生成し、xVASynthを使用してそれをゲーム内の音声に変換することで完成します。

xVASynth のテキストから音声への変換により、ユーザーは、個々の文字のピッチや長さ、エネルギー、感情、スタイルなど、音声のさまざまな詳細を制御し、キャラクターが表現したい感情や重要なポイントを強調することができます。

ニューラル音声合成技術を使用することで、既存のデータを連結する従来の方法では実現が難しい自然な音声を生成することができます。これは、声優がすでに読み上げた内容に加えて、まったく新しい音声コンテンツを生成できることも意味します。

このようにして生成された音声は、「機械的な」AI ナレーション音声ではありませんが、NPC のリアリティとゲームプレイヤーの没入感を大幅に高めます。

さらに優れているのは、28 の言語をサポートし、同じテキストプロンプトを使用して出力を複数の言語間で切り替えることができることです。これにより、ゲームメーカーは多言語バージョンを制作しやすくなります。

ゲーム内の何千もの異なるゲーム音声をユーザーが簡単に扱えるように、3D 音声埋め込み視覚化ツールも組み込まれています。

この3DビジュアルUIもAIによって生成され、ゲームのNPCの性別や職業などの属性に応じて音声に色を付けることができるため、タイムラインを通じて音声を制御する従来の方法から脱却できます。

現在、xVASynth は Steam でも利用可能であり、ゲーム開発者とプレイヤーはほとんどの機能を無料で使用できます。

ささやき

音声インタラクションを完了するには、NPC が自分の言葉を話すだけでなく、プレイヤーと NPC 間の音声コミュニケーションを認識できる必要があります。

このMODの開発者たちは、OpenAIがリリースした音声テキスト変換AIツール「Whisper」を使用した。

OpenAIは、Whisperをトレーニングするために、インターネットを通じて68万時間を超える多言語およびマルチタスクの教師ありデータを収集しました。

このように大規模で多様なデータセットを使用することで、Whisper はアクセント、背景ノイズ、固有名詞に対して非常に堅牢になります。さらに、複数の言語間での文字起こしや翻訳も可能です。

Whisper はシンプルなエンドツーエンドのアーキテクチャを採用し、Transformer エンコーダーと Transformer デコーダーの形式を通じて音声認識を実現します。

入力オーディオは 30 秒のチャンクに分割され、メルスペクトログラムに変換されてからエンコーダーに渡されます。

デコーダーは、対応するテキストコンテンツを予測するようにトレーニングされ、特殊なトークンと混合されて、単一のモデルに言語識別、多言語音声の転写、英語音声の翻訳などのタスクを実行するように指示します。

ダウンロードとインストール

必要とする

ハードウェア: 最小要件はまだ見つかっていませんが、2000 個の mod を含む modlist を実行すると Mantella がクラッシュするという報告があります。 Mantella を正常に実行するには、一定量のハードウェア割り当てが必要です。この割り当てが他のハードウェアを集中的に使用する mod によって使用されると、クラッシュする可能性があります。

ストレージ: すべての音声モデルをインストールすると、この mod には約 17 GB のスペースが必要です。圧縮解除された音声モデルには合計約 32GB が必要です。

互換性

- Mantella は、FUS (skyrim_folder を Skyrim にポイント)、Librum (skyrim_folder を上書き/ルートにポイント)、および Wildlands (skyrim_folder を Wildlander/SKSE にポイント) Wabbajack mod リストで動作することが確認されています。

- Unofficial Skyrim SE Edition (USSEP) がインストールされている場合は、このmodの後にMantellaをロードする必要があります。

注意: Mantella は Elder Scrolls フォルダ内のファイルにアクセスして書き込むため、Elder Scrolls を Program Files に保存すると Mantella が正しく動作しない可能性があります。必ずこのフォルダの外部に保存してください (例: C:\Games\Steam)。

Mantella フォルダを解凍します。

マンテラスペル.zip

この圧縮ファイルのインストール方法は他のMODと同じです。以前にモジュールを手動でインストールしたことがない場合は、Module Manager 2 ユーザーインターフェイスの左上隅にディスクアイコンがあり、MantellaSpell.zip 圧縮ファイルを指定してインストールできます。

Vortex の場合、圧縮された mod を Vortex パネルにドラッグできます。

翻訳

- 合格

xVASynth を Steam (https://store.steampowered.com/app/1765720/xVASynth/) または Nexus (https://www.nexusmods.com/skyrimspecialedition/mods/44184) からダウンロードします。

- 遭遇する可能性のあるすべてのキャラクターまたは任意のキャラクターに対して、xVASynth でトレーニングされた Skyrim 音声モデルをダウンロードします。 Nexus Mods ページから手動でダウンロードするか、xVASynth に API が含まれている Nexus Premium を使用して自動的にダウンロードする必要があります。

- https://www.nexusmods.com/skyrimspecialedition/mods/44184?tab=files の「オプション」オプションで、圧縮ファイルをフォルダーに保存します。

xVASynth を開き、フォルダー内のすべての圧縮されたサウンドモデルファイルをサウンドパネルにドラッグします。インストールが完了するまでお待ちください。

この方法がうまくいかない場合は、モデルを手動で正しい xVASynth フォルダー (xVASynth\resources\app\models\skyrim) に解凍することもできます。解凍が完了したら、圧縮された音声モデルファイルを削除できます。

最後に、具体的な操作手順については、ビデオを参照してください。

ネットユーザーの間で熱い議論

試聴後、ネットユーザーからは「非常に良い、音声もちょうど良く、違和感も全くなく、没入感は圧倒的」といった声が寄せられた。

おそらくThe Elder Scrollsの歴史の中で最も画期的なMODです！

このネットユーザーはこの Mod を長い間フォローしており、この Mod は「The Elder Scrolls: Skyrim」を直接別のゲームに変えてしまうと考えています。将来的には、すべてのゲームの相互作用の仕方が変わるかもしれません。

楽しみが待ちきれません!

<<: CMU の専門家が「マルチモーダル機械学習」の 6 つの主要な課題を包括的にまとめています。36 ページの長い記事 + 120 ページの PPT、すべて実用的な情報です。

>>: 単一の画像ガイド、主題を保持し、スタイルを変更する、VCTはそれを簡単に実現するのに役立ちます

1000 以上の AI エージェントが復活、メタバースの OpenAI バージョンがリリースされる? ChatGPT+VR が「ウエストワールド」を 100% 復元

1000人以上のNPCに「魂」が注入される

舞台裏のテクノロジー

ダウンロードとインストール

ネットユーザーの間で熱い議論

エンタープライズ AI の 4 つのトレンド: 現在地と今後の方向性

AIが臨床試験でスムーズな患者マッチングを実現する方法

チップ不足は人工知能にどれほどの損害を与えるでしょうか?

Google が「同時通訳」システム Translatotron を発表: テキスト変換なしの音声翻訳

AI バイアス: 機械は絶対的に合理的か?

圧縮アルゴリズムについての簡単な説明

顔認識技術: スマートシティのためのスマートなソリューション

推薦する

Alibabaオープンソース！軽量ディープラーニングエッジ推論エンジンMNN

ビジネスインテリジェンスをビジネスに活用する 10 のメリット

馬毅教授の新作：ホワイトボックスViTが「セグメンテーション創発」に成功、経験的ディープラーニングの時代は終焉か？

大規模言語モデルに基づくインテリジェントエージェントのモデリングとシミュレーション：レビューと展望

アンドリュー・ン氏が AI 変革ガイドをリリース: CEO に 5 つのステップで AI 変革を呼びかける

インテルの宋吉強氏：AIは爆発の臨界点に達しており、今年中に専用チップを発売する予定

距離ベクトルルーティングアルゴリズムの仕組みを説明する

「知的障害ロボット」が解雇に直面

Pytorch チュートリアル: 初心者向けクイックガイド

Google が新たなブラックテクノロジープロジェクトを立ち上げました。産業用ロボットへの賭け

ガベージコレクションアルゴリズムと JVM ガベージコレクターの概要