1000 以上の AI エージェントが復活、メタバースの OpenAI バージョンがリリースされる? ChatGPT+VR が「ウエストワールド」を 100% 復元

1000 以上の AI エージェントが復活、メタバースの OpenAI バージョンがリリースされる? ChatGPT+VR が「ウエストワールド」を 100% 復元

『ウエストワールド』のビデオゲーム版が現実になった。

YouTube ブロガーの Art from the Machine が、『The Elder Scrolls 5』の NPC を復活させることができる新しい AI Mod、Mantella を正式にリリースしました。

プロジェクトがリリースされると、Reddit で大きな話題を呼びました。

ChatGPT、テキスト読み上げツールxVASynth、音声認識モデルWhisperを通じて、ゲーム内のAIエージェントは直接意識を持ち、自然な会話を行うことができます。

Mantella Mod は 1,000 を超える NPC と 20 を超える言語をサポートしていることは注目に値します。

ネットユーザーたちはゲームのルールを変える必要があると表明した。

多くのプレイヤーは、ゲーム内でモンスターを倒したりレベルアップしたりすることにすでに飽きています。

VR モードでこの Mod をインストールした後、一部のプレイヤーは間違いなく「The Elder Scrolls」内の NPC を探してチャットし、一日中チャットするようになると考えられます。

アップグレードは不可能、この生涯でアップグレードすることは決してない、そしてモンスターを倒すことは困難です。ゲーム内で時間をつぶす唯一の方法は、NPC とチャットすることです。

ゲーム内のキャラクターは皆、自分のストーリーを持っていて、優しく話します。ゲーム内の NPC とチャットするのは本当に楽しいです。

一部のネットユーザーは、この Mod は単なるゲームではなく、人間とコンピューターの相互作用の新しい時代を切り開くものだとさえ考えています。

1000人以上のNPCに「魂」が注入される

Mantellaは過去数か月間公開テストが行​​われており、作者はついに19日にこのMODをリリースした。

簡単に言うと、この Mod は「The Elder Scrolls V: Skyrim」のすべての NPC を ChatGPT GPT に接続し、元々は前後にしか移動できなかった NPC が AI によって実際に生き生きと動くように支援できるようにします。

1,000 体を超える NPC はすべて音声を通じて直接対話することができ、それぞれが独自の背景を持っています。

NPC は、以前の会話の内容を記憶しているほか、自分の位置、ゲーム内の時間、拾ったアイテムなど、プレイヤーがゲーム内で目にする操作も把握しています。

NPC のダイアログ コンテンツは ChatGPT によって生成され、ゲーム内の音声実装は xVASynth と呼ばれる AI ツールによって完了します。

NPC が人々とどのようにコミュニケーションするかを見てみましょう。

プレイヤー: これらのチーズはいくらですか?

NPC: このチーズは当店の最高級品です。価格は 10 ゴールド コインです。他に何か必要なものはありますか?

プレイヤー:マクドナルド。

NPC: 申し訳ありませんが、『The Elder Scrolls』にはマクドナルドは存在しません。

プレイヤー: あなたの妻を盗みました。

NPC: 信じられません。私は結婚もしていませんし、妻もいません。あなたは間違っているかもしれません...

さらに興味深いのは、NPC があなたの会話にユーモラスに応答することです。

NPC: もしあなたが私の妻だと思い込んでいる、あるいはあなたには妻がいないと言っているのであれば、残念です。

実際、NVIDIA は AI を利用してゲーム キャラクターをより生き生きと表現することにも取り組んでいます。

ご存知のとおり、Huang 氏は今年の COMPUTEX カンファレンスで、ゲーム向けの新しいカスタマイズされた AI モデル ファウンドリー サービスである Avatar Cloud Engine (ACE) を発表しました。

サイバーパンク風のラーメン店のシーンで、プレイヤーはボタンを押して自分の声で話すと、店主のジンが答えます。

ジンは NPC キャラクターですが、その応答はプレイヤーの音声入力に基づいて生成 AI によってリアルタイムで生成されます。

また、Jin にはリアルな顔のアニメーションと音声演技も備わっており、すべてがプレイヤーの口調や背景ストーリーにマッチしています。

このリアルなキャラクターは、リアルタイム AI モデル レンダリング ツールである Nvidia ACE を使用して生成されました。

Lao Huang 氏は、このゲームのキャラクターは事前に設定されていないと述べました。典型的なクエスト提供者 NPC タイプが存在します。

舞台裏のテクノロジー

Mod 作成者は ChatGPT、xVASynth、Whisper を使用して、「グループアクティブ」NPC の技術的フレームワークを作成しました。

Whisper は、プレイヤーがマイクを通じて入力した音声内容を認識し、それをテキストに変換し、API を通じて ChatGPT を呼び出して、プレイヤーの言葉にテキストで応答します。

そして、xVASynth を使って ChatGPT が生成したテキスト返信をゲームキャラクターの特性に合わせたゲーム内音声に変換し、プレイヤーと直接コミュニケーションをとることができます。

さらに、プロセス全体の実装にはほとんどコストがかからず、ChatGPT API を呼び出すための少額の料金のみを支払う必要があります。 1日プレイするには数セントかかります。

翻訳

翻訳元: スカイリム

ゲーム内の特定の声に一致するゲーム NPC の吹き替えセリフを生成できます。

xVASynth は、ニューラル音声合成を使用して、ゲーム内の NPC の音声ダイアログを特別に生成します。ゲーム内のキャラクターの音声データに基づいて個別にトレーニングされたモデルに基づいています。

テキスト読み上げ変換 (TTS) または音声変換 (V/C) 用の直接オーディオ入力をサポートします。

このツールを使用すると、ユーザーは特定のサウンド素材の短い部分をテンプレートとして提供し、テキストを使用してテンプレートのスタイルと一致する音声コンテンツを直接生成するだけで済みます。

Mentellaは、ChatGPTのフレームワークを使用してNPCのダイアログコンテンツを生成し、xVASynthを使用してそれをゲーム内の音声に変換することで完成します。

xVASynth のテキストから音声への変換により、ユーザーは、個々の文字のピッチや長さ、エネルギー、感情、スタイルなど、音声のさまざまな詳細を制御し、キャラクターが表現したい感情や重要なポイントを強調することができます。

ニューラル音声合成技術を使用することで、既存のデータを連結する従来の方法では実現が難しい自然な音声を生成することができます。これは、声優がすでに読み上げた内容に加えて、まったく新しい音声コンテンツを生成できることも意味します。

このようにして生成された音声は、「機械的な」AI ナレーション音声ではありませんが、NPC のリアリティとゲーム プレイヤーの没入感を大幅に高めます。

さらに優れているのは、28 の言語をサポートし、同じテキスト プロンプトを使用して出力を複数の言語間で切り替えることができることです。これにより、ゲームメーカーは多言語バージョンを制作しやすくなります。

ゲーム内の何千もの異なるゲーム音声をユーザーが簡単に扱えるように、3D 音声埋め込み視覚化ツールも組み込まれています。

この3DビジュアルUIもAIによって生成され、ゲームのNPCの性別や職業などの属性に応じて音声に色を付けることができるため、タイムラインを通じて音声を制御する従来の方法から脱却できます。

現在、xVASynth は Steam でも利用可能であり、ゲーム開発者とプレイヤーはほとんどの機能を無料で使用できます。

ささやき

音声インタラクションを完了するには、NPC が自分の言葉を話すだけでなく、プレイヤーと NPC 間の音声コミュニケーションを認識できる必要があります。

このMODの開発者たちは、OpenAIがリリースした音声テキスト変換AIツール「Whisper」を使用した。

OpenAIは、Whisperをトレーニングするために、インターネットを通じて68万時間を超える多言語およびマルチタスクの教師ありデータを収集しました。

このように大規模で多様なデータセットを使用することで、Whisper はアクセント、背景ノイズ、固有名詞に対して非常に堅牢になります。さらに、複数の言語間での文字起こしや翻訳も可能です。

Whisper はシンプルなエンドツーエンドのアーキテクチャを採用し、Transformer エンコーダーと Transformer デコーダーの形式を通じて音声認識を実現します。

入力オーディオは 30 秒のチャンクに分割され、メル スペクトログラムに変換されてからエンコーダーに渡されます。

デコーダーは、対応するテキスト コンテンツを予測するようにトレーニングされ、特殊なトークンと混合されて、単一のモデルに言語識別、多言語音声の転写、英語音声の翻訳などのタスクを実行するように指示します。

ダウンロードとインストール

必要とする

ハードウェア: 最小要件はまだ見つかっていませんが、2000 個の mod を含む modlist を実行すると Mantella がクラッシュするという報告があります。 Mantella を正常に実行するには、一定量のハードウェア割り当てが必要です。この割り当てが他のハードウェアを集中的に使用する mod によって使用されると、クラッシュする可能性があります。

ストレージ: すべての音声モデルをインストールすると、この mod には約 17 GB のスペースが必要です。圧縮解除された音声モデルには合計約 32GB が必要です。

互換性

- Mantella は、FUS (skyrim_folder を Skyrim にポイント)、Librum (skyrim_folder を上書き/ルートにポイント)、および Wildlands (skyrim_folder を Wildlander/SKSE にポイント) Wabbajack mod リストで動作することが確認されています。

- Unofficial Skyrim SE Edition (USSEP) がインストールされている場合は、このmodの後にMantellaをロードする必要があります。

注意: Mantella は Elder Scrolls フォルダ内のファイルにアクセスして書き込むため、Elder Scrolls を Program Files に保存すると Mantella が正しく動作しない可能性があります。必ずこのフォルダの外部に保存してください (例: C:\Games\Steam)。

Mantella フォルダを解凍します。

マンテラスペル.zip

この圧縮ファイルのインストール方法は他のMODと同じです。以前にモジュールを手動でインストールしたことがない場合は、Module Manager 2 ユーザー インターフェイスの左上隅にディスク アイコンがあり、MantellaSpell.zip 圧縮ファイルを指定してインストールできます。

Vortex の場合、圧縮された mod を Vortex パネルにドラッグできます。

翻訳

- 合格

xVASynth を Steam (https://store.steampowered.com/app/1765720/xVASynth/) または Nexus (https://www.nexusmods.com/skyrimspecialedition/mods/44184) からダウンロードします。

- 遭遇する可能性のあるすべてのキャラクターまたは任意のキャラクターに対して、xVASynth でトレーニングされた Skyrim 音声モデルをダウンロードします。 Nexus Mods ページから手動でダウンロードするか、xVASynth に API が含まれている Nexus Premium を使用して自動的にダウンロードする必要があります。

- https://www.nexusmods.com/skyrimspecialedition/mods/44184?tab=files の「オプション」オプションで、圧縮ファイルをフォルダーに保存します。

xVASynth を開き、フォルダー内のすべての圧縮されたサウンド モデル ファイルをサウンド パネルにドラッグします。インストールが完了するまでお待ちください。

この方法がうまくいかない場合は、モデルを手動で正しい xVASynth フォルダー (xVASynth\resources\app\models\skyrim) に解凍することもできます。解凍が完了したら、圧縮された音声モデル ファイルを削除できます。

最後に、具体的な操作手順については、ビデオを参照してください。

ネットユーザーの間で熱い議論

試聴後、ネットユーザーからは「非常に良い、音声もちょうど良く、違和感も全くなく、没入感は圧倒的」といった声が寄せられた。

おそらくThe Elder Scrollsの歴史の中で最も画期的なMODです!

このネットユーザーはこの Mod を長い間フォローしており、この Mod は「The Elder Scrolls: Skyrim」を直接別のゲームに変えてしまうと考えています。将来的には、すべてのゲームの相互作用の仕方が変わるかもしれません。

楽しみが待ちきれません!

<<:  CMU の専門家が「マルチモーダル機械学習」の 6 つの主要な課題を包括的にまとめています。36 ページの長い記事 + 120 ページの PPT、すべて実用的な情報です。

>>:  単一の画像ガイド、主題を保持し、スタイルを変更する、VCTはそれを簡単に実現するのに役立ちます

ブログ    

推薦する

機械学習における分類タスクの共通評価指標とPythonコード実装

データ ポイントを特定の数の定義済みクラスに分類するように ML モデルをトレーニングすることがタス...

...

人工知能と機械学習モデル向けのオープンソースフレームワークトップ5

[[253697]] [51CTO.com クイック翻訳] 過去 10 年間の人工知能の急速な成長...

Java で実装された一貫性ハッシュ アルゴリズムの詳細な研究

一貫性ハッシュアルゴリズムコンシステントハッシュアルゴリズムについては、これまでのブログ記事で何度も...

チャットボット: ビジネスを成長させる 8 つの方法

[51CTO.com クイック翻訳] 顧客がビジネスの運命を決定する中心であることは間違いありません...

生成型AIが小学生の「初めてのプログラミングレッスン」に登場:線を描いて音楽を生成し、スケッチが一瞬で傑作に変わる

古典作品「星の王子さま」には、蛇が象を飲み込む絵を描いた少年が、大人たちにその絵を見せて怖いかと尋ね...

AmapとDAMO Academyが共同で車載ARナビゲーションを導入し、従来の運転体験を覆す

Amapは本日、車載ARナビゲーションを共同で立ち上げるためにDAMOアカデミーと協力関係を結んだと...

...

...

緑の希望を守るため、人工知能が森林火災防止ネットワークを構築

ご存知のとおり、森林火災は世界の8大自然災害の一つであり、森林の安全に対する脅威です。平均すると、世...

...

ジェネレーティブAIがヘルスケアを変える

生成 AI はヘルスケア分野で重要な役割を果たしており、その応用は医療業界に多くの変化をもたらしまし...

...

ディープラーニング時代の物体検出アルゴリズムのレビュー

物体検出とその他のコンピュータビジョンの問題分類問題これはおそらくコンピュータービジョンにおける最大...

C# アルゴリズムが張さんの誕生日問題を解決する

C# アルゴリズムは張さんの誕生日問題をどのように実装するのでしょうか?まず、張さんの誕生日に関する...