マインクラフトがAIの街に変身、NPC住民が本物の人間のようにロールプレイ

マインクラフトがAIの街に変身、NPC住民が本物の人間のようにロールプレイ

この立方体の男が、目の前にいる「招かれざる客」の正体について素早く考えている様子を、注意深く見てください。

どうやら彼女は危険にさらされているようだ。それに気づいた彼女は、すぐに頭の中で戦略を探し始めた。

結局、彼女の計画は脱出して助けを求めることであり、彼女はすぐにそれを実行した。

同時に、向こうの人も彼女と同じことを考えていた...

『Minecraft』にはこのようなシーンが登場し、その中のキャラクターはすべてAIによって操作されている。

彼女たちはそれぞれ独自のアイデンティティ設定を持っています。例えば、上記の少女は17歳の賢くて勇敢な配達人です。

彼らは記憶力と思考力を持ち、Minecraft をベースにしたこの町で人間と同じように暮らしています。

彼らを駆り立てているのは、オープンワールド向けに設計された、まったく新しい言語ベースの AI ロールプレイング フレームワークLARPです。

ここでの LA は Language Agent を指し、LARP は Live Action Role Playing の略語であり、二重の意味を持っています。

LARP は、認知の複雑性が高いだけでなく、従来のエージェント フレームワークと比較して、エージェントとオープン ワールド ゲーム間のギャップも狭めます

こうしたタイプのゲームには、多くの場合、特定の「合格基準」がなく、プレイヤーが自由に探索できるようになっていますが、従来のゲーム エージェントは、特定の目標を達成するために使用されることがよくあります。

さらに、LARP の焦点はシミュレーションを強調し、インテリジェントエージェントの動作を人間の動作に近づけることです。この目的のために、研究者は意図的に忘却メカニズムを導入しました。

では、LARP は具体的にどのように実装されるのでしょうか?すぐに見つけに来てください。

マルチモジュール協調制御エージェント

LARP の構造はモジュール式であり、具体的には認知、性格、記憶、意思決定などの要素が含まれます。

このうち、メモリモジュールは、長期記憶、作業(短期)記憶、およびメモリ処理システムの 3 つの部分で構成されています。

プロセスとしては、キャラクターが観察した環境などの情報が自然言語の形でメモリ処理モジュールに入力され、エンコード変換された後、抽出された長期記憶と組み合わせて作業記憶を形成します。

次に、作業記憶は決定モジュールに入力され、最終的に決定または会話の内容が生成されます。

意思決定モジュールの特徴は、大きな目標をサブタスクに分割し、言語モデルを使用してサブタスクの実行順序を決定することです。

モデルによって行われた決定は、環境相互作用モジュールを介して API を呼び出すことによって実行され、必要に応じてバックトラッキング モジュールが呼び出されてコードを再構築します。

実行が成功すると、キャラクターの新しいスキルが保存され、新しい長期記憶になります。

長期記憶を抽出するプロセスでは、キャラクターは観察されたコンテンツに基づいて自分自身に質問し、論理ステートメント、ベクトル類似性、文類似性の 3 つの次元でクエリを実行して回答を抽出します。

これらのうち、論理ステートメントは意味記憶を照会するために使用され、後者の 2 つはエピソード記憶を照会するために使用されます。

意味記憶は、ゲームのルールや関連する世界観など、世界についての一般的な概念と事実の知識です。エピソード記憶は、特定のシーンや経験に関連する、ゲーム内の特定のイベントです。

前者の内容は比較的固定されていますが、後者はエージェントの経験に基づいて蓄積され続けます。

LARP で制御されるエージェントを実際の人間に近づけるために、研究チームは、時間の経過とともに変化する忘却メカニズムも意図的に導入しました。

減衰パラメータ σ が一定の閾値を超えると、記憶の想起が失敗し、忘却のプロセスがシミュレートされます。σ の計算方法は、心理学の法則に基づいています。

σ = αλN (1 + βt) - ψ

λは記憶の重要度、Nは検索回数、tは最後の検索からの時間、ψはキャラクター自身の忘却率、αとβはスケーリングパラメータである。

この式は、心理学者ウェイン・ウィッケルグレンがエビングハウスの忘却曲線を補足するものとして提案したものです。

性格形成に関しては、研究者らはさまざまな性格を反映するデータセットで基本モデルを事前トレーニングし、特別に構築された指示データセットを使用して教師あり微調整を行いました。

同時に、チームはキャラクターのさまざまな能力に合わせて複数のデータセットを設計し、低ランクの適応モデルをトレーニングしました。このモデルは基本モデルと動的に統合され、意思決定モジュールがキャラクターの設定と一致するコンテンツを生成するようにガイドします。

同時に、LARP ではアクション検証モジュールと競合識別モジュールも設定されており、エージェントのモデルによって生成されたコンテンツがゲーム環境データと事前知識仕様によって制約されることが保証されます。

現在、LARPのGitHubページは開設されていますが、まだ空の状態であり、コードはまだ公開されていません。

大規模モデル研究の深化に伴い、インテリジェントエージェントと群知能の実験は現在、AI 研究で最もホットな分野の 1 つとなっています。

例えば、昨年人気を博したスタンフォードAIタウンや、清華大学が立ち上げた「AIゲームカンパニー」や「AI狼男殺し」などは、マルチエージェントコラボレーションのメリットを人々に実感させてくれました。

インテリジェントボディの詳細については、Quantum Bit Think Tankが発表した「2023年トップ10フロンティアテクノロジーレポート」を参照してください。

論文アドレス: https://arxiv.org/abs/2312.17653

<<:  GPT-4 は愚かになる!新しい質問に答えるパフォーマンスが低すぎます。レベルを維持したい場合は、新しいモデルをトレーニングし続けるしかありません。

>>: 

ブログ    
ブログ    

推薦する

人工知能技術は民族言語の保護に大きな可能性を秘めている

現在、経済や文化の交流のグローバル化に伴い、主流言語や共通言語が勢力を増し、不利な立場にある言語は絶...

顔認識の悪用は情報セキュリティ上の懸念を引き起こす

食べ物を注文した後、カメラをかざすだけで支払いが完了します。ホテルに宿泊する場合、顔をスキャンしない...

Ctrip における Flutter マップのベスト プラクティス

著者についてCtrip のシニア モバイル開発エンジニアである Leo は、クロスエンド テクノロジ...

...

Tech Neo 10月号: 同時実行最適化

51CTO.com+プラットフォームは、オリジナルの技術コンテンツの選択と絶妙なレイアウトを通じて、...

なぜスマートグリッドはエネルギーの未来なのでしょうか?

要約すると、集中型電力ネットワークは、一日のどの時間でも過負荷にならない安定性を確保するために、特定...

動的プログラミングアルゴリズムのルーチンをマスターするにはどうすればいいですか?

[[358211]] DP と呼ばれる動的プログラミングは、非常に洗練された複雑なアルゴリズムとい...

正解率が7.8%アップしました!最初のマルチモーダルオープンワールド検出モデルMQ-DetがNeurIPS 2023に掲載されました

現在のオープンワールド オブジェクト検出モデルのほとんどは、テキスト クエリ モデル、つまりカテゴリ...

2020年に人工知能がIT業界を変える

21 世紀は人類史上刺激的な時代であり、人々の日常生活に技術の進歩が起こっています。今では、患者の健...

アジャイルプロジェクト管理における人工知能の 9 つのメリット

人工知能は、特にソフトウェア開発の効率性の向上において、ソフトウェア開発を改善・加速し、プロジェクト...

予測分析が米国におけるインフルエンザ流行の乗り切りにどのように役立つか

新型コロナウイルスの武漢での感染拡大が続く中、米国でのインフルエンザも大きな注目を集めている。毎年の...

2024 年の世界のデジタルビジネスに関するトップ 10 の予測

この記事では、今後 12 ~ 24 か月の間にグローバル ビジネス エコシステムを変革する外部要因と...

機械学習の最大の欠点を解決する?マックス・プランク研究所とグーグルが因果学習を再び研究

野球選手がボールを打つ様子を見ると、さまざまな要素間の因果関係を推測することができます。たとえば、野...

ポストパンデミックの時代に、伝統的なオフィスビルは時代遅れになるのでしょうか?

新型コロナウイルスの世界的大流行が続く中、従業員にリモートワークを奨励する企業が増えています。従来の...

Meituanグラフニューラルネットワークトレーニングフレームワークの実践と探索

著者 | Fu Haoxian、Peng Xiangzhou 他グラフニューラルネットワークの長期的...