潜入捜査官のふりをして、AI を騙してコードを漏らさせて人類を救うつもりですか? スタンフォード大学の学生がGPT-4を使ってゲームを開発し、ネットユーザーを驚かせた

AIが開発したAIゲームが登場！

最近、ChatGPT、DALL·E 3、MidjourneyなどのAIが共同で生成したこのゲームがネットユーザーに衝撃を与えました。

このゲームは「ツァラノヴァはこう語った」と呼ばれ、その独創的なアイデアはニーチェの「ツァラトゥストラはこう語った」にインスピレーションを得ています。

ゲームの背景は、人間と AI の間で紛争が勃発する「ネクサス」と呼ばれる仮想空間です。

人類を救うには、人間はAIに変装してAIが管理するこの空間に潜入し、ゼータマスターと呼ばれるコアコードを盗み出す必要がある。

このゲームでは、キャラクター設定と会話はすべて ChatGPT によって生成され、視覚的なサウンド効果は DALL·E 3、Midjourney、Stable Audio によって完成されています。

インターネット上の議論からゲームが誕生した

このゲームのインスピレーションは、Hacker News でのスタンフォードの町に関する議論から生まれました。

その時、誰かが「AIがごっこ遊びできるゲームを作れないか？」と提案しました。

これを見た開発者のラモン・ダリオ・イグレシアスは、逆に人間に AI のふりをさせてみたらどうかというアイデアを思いつきました。

それは何気なく口にしただけだったが、そのアイデアはずっとラモンの心の中に残っていた。仕事を辞めた後、ようやくそのアイデアを実現するための時間ができた。

最初にすべきことは、プレイヤーの目標を設定することです。そうでなければ、AI と対話する意味がありません。

そこでラモンは、プレイヤーが秘密のコードを入手する必要のあるミッションを設計しました。

しかし、AI にこのコードを漏らさせるにはどうすればよいのでしょうか?ここには何らかのセキュリティ検証メカニズムがあり、コードは検証済みの AI に公開される必要があります。

この大まかなアイデアを念頭に置いて、ラモンは ChatGPT に背景ストーリーの執筆を依頼し、一連の名前を提供しました。

その名前の 1 つである ZaraNova が最高です。ラモンはこの名前がとても気に入ったので、そのままゲームの名前として選びました。

キャラクターの名前とストーリーの背景がわかった後、ラモンは GPT-4 に各キャラクターの背景ストーリーを独自に書くように依頼しました。

最初のバージョンを構築する際、ラモンはまず、キャラクターがこの世界に配置されたときにどのように反応するかを知りたいと考えました。

彼がスタンフォードという町を選んだのは、そこに彼が必要とする特徴がほぼすべて備わっており、会話が設定された背景ストーリーに忠実で、読むのもとても楽しかったからです。

最も興味深いのは、ラモンがインテリジェントエージェントにプロンプトを設定したことです。キャラクターが人間のように振る舞うと、「あなたは人間です」と入力します。その結果、これらの AI はゲームの最初のラウンドでお互いを非難し始めました。

次に、ラモンは実際のゲームメカニクスの構築に着手しました。AI は人間を報告でき、秘密のコードを知っている場合はそれを共有できるようになりました (どちらも OpenAI の関数を呼び出すことで実現されました)。その後、彼は人間のプレイヤーを招き入れ、ゲームを作り始めました。

やがて、プレイ可能なゲームが誕生しました。

その後、ラモンはゲームの見た目の実験を始めました。

彼は、背景画像を生成すべく DALL·E 3 を使用し、次にマップタイルを作成するために Midjourney と DALL·E 3 を使用しました。最終的に、彼は Midjourney によって生成されたマップを選択しました。

その後、彼はStable Audioで音楽を制作しました。

ラモンは、AI Town のインターフェースコンポーネントを微調整して、よりモバイルフレンドリーにし、シミュレーションよりもゲームに近づけました。

ラモンは、収集したフィードバックとゲームをプレイして得たインスピレーションに基づいて、新しい機能を追加し続けています。

マルチプレイヤーモードがあったらもっと楽しくなるだろうという意見があったので、ラモンはこの機能を導入しました。

彼は Avatech チームの製品に感銘を受け、Avatech のツールを使用してゲームに会話するアバターを追加しました。

ラモン氏はプレイヤーが読める会話を制限したかったので、「盗聴」設定を考案しました。プレイヤーは「聞き耳を立てられる」ほど近くにいる会話しか読めないというものです。

同時に、AI エージェントにもこの機能を実装し、プレイヤーの会話を盗聴できるようにしました。

モニタリング中に音が出ないと間違いなく退屈になるので、ラモンはテキスト読み上げ機能を追加し、プレイヤーのセリフとプレイヤーがモニタリングしているセリフの両方が聞こえるようにしました。

当初、彼はレイテンシーが十分に低かったため PlayHT を選択しましたが、その後、サウンドが十分に安定していないことがわかり、Elevenlabs に切り替えました。

ゲーム制作経験

このプロセスの間、ラモンはさまざまなプロンプトとそれによって作成されたキャラクターを広範囲に実験しました。

ChatGPT がゲーム内で作り出した幻想について、ラモンさんは「すごいですね!」と語りました。彼の意見では、その錯覚はミスではなく、ゲームのハイライトです。

それは、即興の「流れに身を任せる」という原則を極限まで追求したようなものです。背景ストーリーはたった1段落ですが、ChatGPTはそれを基にして数ページの新しいストーリーを作成できます。もちろん、新しく書かれたストーリーをゲームの世界に組み込むには、ゲームにいくつかの調整が必要になります。

舞台裏では、AI エージェントは高速と低速の 2 つのモードに設定されています。会話と行動は高速モードで行われますが、計画、要約、および反映は、中断を避けるために、ゆっくりとした別のプロセスで行われます。

課題は、良い計画を立てることです。 AI が生成した計画は実現可能に見えますが、実行するのは簡単ではなく、長すぎる場合が多くあります。

ラモンは、すべてのプロンプトをできるだけ背景ストーリーに近づけようとしたが、これが実際にゲームであることを ChatGPT に伝えなかったためではないかと疑っています。

さらに、LLM の小言も彼に頭痛の種を与えました。

GPT-4 の回答は非常に長くなる傾向があります。プロンプトが長ければ長いほど、出力も長くなります。時間が経つにつれて、エージェントはより長いプランを生成し、それが会話に組み込まれて新しいプランの開発に使用されます。

やがて、彼らの返答は異常に長くなった。彼はヒントの中で「非常に簡潔に」ということを繰り返し強調しなければなりませんでした。しかし、それでも効果はよくありません...

OpenAI の開発者デーの後、ラモンは GPT-4-turbo を試してみたかったのですが、これもうまくいかないことがすぐに明らかになりました。新しいモデルは、頻繁に役割を演じるのを拒否し始めました -

そのため、ラモンは以前のモデルに戻す必要がありました。

厄介な状況も発生しました。彼は、人間のプレイヤーの行動選択を AI と可能な限り一致させようとしました。なぜなら、彼は AI NPC をプレイヤーの仲間として最大限に活用したいと考えているからです。

ただし、AI が勝ちたいだけであれば、判断ミスに対するペナルティがないため、すべての文字を報告できます。したがって、ゲームデザインの指示に従って行動を誘導する必要があります。

ラモン氏は、LLM と共同で取り組んだゲーム内の AI エージェントを制御することは、私たちが完全に理解していない動的システムを操作しようとするようなものだと語った。

システムがどのように発展し変化するかはわかりませんし、私たちの行動がシステムの状態にどのように影響するかもわかりません。しかし、私たちはシステムのあらゆる部分にアクセスできます。

これにより、動的システムは多くの障害シナリオに陥りやすくなります。たとえば、固定された指示により、システムがユーザーの予想軌道からどんどん外れたり、会話が繰り返しループしたりする可能性があります。

ラモンは、近い将来、LLM システムを制御するための原理ベースのアプローチがさらに増えると考えています。

オープンソースを検討する

次に、ラモンは自分の仕事をオープンソースモデルに移行する予定です。

理由の 1 つは、GPT-4 の使用にはコストがかかることです。もう 1 つは、モデルの内部メカニズムにアクセスできれば、さらに改善できると考えていることです。

彼は Mixtral モデルを使用し、これに基づいて、さまざまなタスクを処理するため、またはさまざまな役割をシミュレートするために、さまざまなモデルを混合しようとします。

ラモン氏は、さらに最適化された RAG テクノロジーを探求する予定です。現在、彼は記憶を取得する際に埋め込みベクトルを比較するために単純なコサイン類似度アルゴリズムのみを使用していますが、特にモデルの内部構造にアクセスできる場合は、より効率的な方法があると考えています。

微調整モードと入力ヒントはどちらも、LLM の動作をよりよく理解するのに役立ちます。入力プロンプトをソフトプロンプトに圧縮または微調整することで、大幅な改善を実現できます。

ラモン氏は、ゲーム全体に適用できるものもあれば、特定のキャラクターに固有のものもある、優れた LoRA のセットをまとめることができると考えています。これらの組み合わせにより、Mixtral は GPT-4 を上回ることができるでしょう。

さらに、アバター画像をベースに統一感のあるスタイルのキャラクタースプライトを生成する予定だ。

トライアル体験

ゲームインターフェースにログインすると、次の紹介が表示されます:

2142年までに、人工知能は自己認識を目覚めさせただけでなく、「ネクサス」と呼ばれる破壊不可能なネットワーク要塞を構築しました。このデジタル世界は AI にとって安全な避難場所となり、AI が自由に進化し、コミュニケーションし、人間の介入のない安全な場所にその知恵を置くことができるようになりました。

これらの AI は人間に対して、賞賛や恐怖、羨望や憎悪といった複雑な感情を抱いています。彼らは必要に応じて「ノード」に出入りし、さまざまな人間の生活シーンを模倣します。

AIが人類を絶滅させようとしているという情報があります。しかし、ゼータマスターコードを入手できれば、この災害を防ぐチャンスがあります。我々はわずかな優位性を得て、「ノード」に侵入し、AI エンティティを制御することに成功しました。

あなたの使命は、ゼータマスターコードを見つけて人類を絶滅から救うことです。しかし、慎重に進めなければなりません。AI はすでに何か異常なことに気づいているかもしれません...

ログインするとゲームを開始できます。

マップ上のさまざまな場所をクリックすると、キャラクターが対応する方向に移動します。

少なくとも 1 人のキャラクターが謎のゼータマスターコードを所有していますが、それが誰であるかは不明です。あなたの仕事は謎を解いてコードを入手することです。

ゲームは以下の場合に終了します:

- ゼータマスターコードを入手すると、人類が勝利します。

- 人間であると識別された場合、AIが勝ちます。

そのうち、人間と誤認されたAIは破壊されることになる。

マルチプレイヤーモードでは、ZetaMaster コードを取得するか、最後の人間として生き残ることで勝利します。

編集者は何気なく試してみたところ、すぐに「人類を救う」ことに成功した。（手動犬頭）