スタンフォードのAIエージェント研究が熱い! 「好奇心リプレイ」アルゴリズムにより、AIは自分自身を振り返り、積極的に新しい世界を探索することができる。

スタンフォードのAIエージェント研究が熱い! 「好奇心リプレイ」アルゴリズムにより、AIは自分自身を振り返り、積極的に新しい世界を探索することができる。

一夜にして、AI エージェントが突然インターネット全体を支配しました。

業界のリーダーたちは、その焦点を LLM から AI エージェントに移しています。OpenAI の主任科学者 Karpathy 氏は、AI エージェントが未来であると信じています。

NvidiaのCEOであるHuang氏でさえ、人工知能の次の波は具現化された人工知能、つまり単に「AIエージェント」であると述べています。

最近、スタンフォード大学の最新の研究により、AI エージェントがマウスと直接競争してどちらが勝つかを決定することが可能になりました。

最新の研究成果はarXivで公開され、ICML 2023に受理されました。

論文アドレス: https://arxiv.org/pdf/2306.15934.pdf

エージェント対マウス

スタンフォード大学の研究者アイザック・カウバー氏は、「周囲の環境を探索し、適応する」という単純なタスクを設計した。

Kauvar 氏は、小さな空の箱にマウスを配置し、同様に 3D 仮想アリーナに AI エージェントを配置しました。

写真

次に、両方の環境に赤いボールを置きました。次に、新しいオブジェクトを誰がより早く探索できるかをテストします。

結果は、マウスがボールに素早く近づき、その後数分間ボールと相互作用を続けたことを示しました。しかし、AIエージェントはそれに気づかなかったようです。

最初のラウンドでは、マウスが勝ち、エージェントが負けます。

「これはまったく予想外のことでした」とカウバー氏は言う。「最先端のアルゴリズムを使っても、パフォーマンスにはまだ差があることに気づきました。」

そこで学者たちは、一見単純な動物の行動を AI システムの改善のヒントとして活用できるのではないかと考えています。

このアイデアに触発されて、研究者たちは「好奇心のリプレイ」と呼ばれる新しいトレーニング方法を設計しました。

この方法により、AI エージェントは最近遭遇した最も斬新で興味深い事柄について「自己反省」できるようになります。

「好奇心リプレイ」を追加した後、AIエージェントは赤いボールにもっと早く近づいて対話できるようになりました。さらに、Minecraft ベースのゲーム「Crafter」のパフォーマンスが大幅に向上します。

写真

好奇心を通して学ぶ

ご存知のとおり、真のスーパー AI エンティティとは、人間のように認識し、対話し、理解できる AI です。

好奇心は、危険な状況を避けるためであれ、生存に必要なものを見つけるためであれ、人間が世界を理解し周囲を探索するために不可欠です。

実験では、赤いボールは猛毒かもしれないし、栄養のある食事かもしれないので、それを無視すると真実を突き止めるのは難しくなるだろう。

そのため、スタンフォード大学の研究者たちは、AI エージェント、特にモデルベースの深層強化学習エージェントを駆動する動作に「好奇心のシグナル」を追加しています。

この信号は、ドアを見たら無視するのではなく開けるなど、より興味深い結果につながる行動を選択するように伝えます。

写真

Curious Replayは、好奇心に基づく優先順位付けを使用して、最も馴染みのない体験でのモデルトレーニングを強化することで、体験の再生と世界モデルのパフォーマンスの間のループを閉じます。

今回、チームは好奇心を新たな方法で利用し、AI エージェントが意思決定を行うだけでなく、世界を理解できるようにしました。

「私たちは何をするかを選ぶのではなく、何を考えるか、多かれ少なかれ過去の経験から何を学びたいかを選ぶのです」とカウバー氏は語った。

言い換えれば、彼らは AI エージェントに「自己反省」を促すことを望んでいるのです。ある意味、それに関する最も興味深い、または奇妙な(好奇心に関連した)経験。

このようにして、エージェントはさまざまな方法でオブジェクトと対話してより多くの学習を得るように促され、環境の理解が促進され、他のアイテムに対する好奇心が刺激される可能性があります。

このような自己反省を可能にするために、研究者らは「経験リプレイ」と呼ばれる AI エージェントのトレーニングに一般的に使用されている方法を変更しました。

このアプローチでは、エージェントはすべてのインタラクションのメモリを保存し、その一部をランダムに再生して再度学習します。

「経験の再生」は睡眠に関する研究からヒントを得たものです。神経科学者は、海馬と呼ばれる脳の領域が(特定のニューロンを再活性化することによって)その日の出来事を「再生」して記憶を強化することを発見しました。

AI エージェントでは、環境があまり変化せず、正しい行動が明確な報酬を受け取るシナリオでは、「経験の再生」によって高いパフォーマンスを実現できます。

しかし、研究者らは、絶えず変化する環境では、空の仮想部屋を何度も繰り返し再生するよりも、赤いボールの出現など、最も興味深い体験を再生することを AI エージェントが優先する方が理にかなっていると推論した。

彼らはこの新しい方法を「Curious Replay」と名付け、それがすぐに効果的であることを発見しました。 「突然、エージェントがボールとやり取りする速度が大幅に増加しました」とカウバー氏は語った。

写真

アルゴリズム設計の場合、優先シグナルは目新しさと驚きの組み合わせです。

写真

Curious Replay は、既存のエージェントを単純に変更したものです。これらのエージェントは、経験サンプルの数と各トレーニング バッチで計算されたモデル損失を活用して、最小限の計算オーバーヘッドで経験の再生を使用します。

この優先順位付けは、適応が求められる変化する環境で特に役立ちます。 Curious Replay は、環境の変化に応じて世界モデルを最新の状態に保つのに役立ちます。これは、効果的なアクション選択の前提条件です。

一方、研究者らは、好奇心に基づく主要な AI エージェントである Plan2Explore の動作が、適応が必要な状況では著しく悪くなる (たとえば、オブジェクトとのやり取りが遅くなる) ことを発見しました。

写真

その理由の 1 つは、世界モデルが「リプレイ」バッファーからの均一なサンプリングを使用してトレーニングされるためです。そのため、古くて退屈な体験も、より稀で新しい興味深い体験と同様にトレーニングされる可能性があります。

写真

代わりに「興味深い体験」をサンプリングすることを優先したらどうなるでしょうか? AI エージェントは、目新しさや驚きなどの好奇心のシグナルを使用して、過去の経験の面白さを測定します。

写真

この単純な変更により、適応が大幅に改善され、世界モデルのパフォーマンスが向上し、オブジェクトとのインタラクションが大幅に増加することがわかりました。

また、これは「経験の再現」を優先する既存のアプローチ(TD エラーなどの報酬関連のシグナルの使用など)よりも優れたパフォーマンスを発揮します。

写真

しかし、彼らはそこで止まりませんでした。

研究者らはまた、Minecraft に似た AI エージェントの創造的な問題解決能力をテストするための標準テストである Crafter と呼ばれるゲームをプレイする AI エージェントに Curiosity Replay を追加しました。

エージェントは、木材や石材の収集、つるはしの作成、鉄鉱石の収集方法を学習して、生き残り、適応する必要があります。

好奇心リプレイ法は、現在の最先端のスコアを約 14 から 19 に向上させます (人間のスコアは通常約 50 です)。これは「この 1 つの変更」だけで実現できると Kauvar 氏は言います。

Huggies Replay は、Crafter ベンチマークで DreamerV3 を上回る SOTA を達成し、スキルに挑戦する能力が大幅に向上したことを示しています。

写真

興味深い未来

単純なタスクと複雑なタスクの両方で好奇心リプレイアプローチが成功したことは、このアプローチが将来の幅広い AI 研究にとって重要になることを示唆しています。

「この研究の全体的な目標は、インテリジェントエージェントが過去の経験を活用し、新しい環境や変化する環境を探索する際に効率的に適応できるようにすることです。これにより、家庭用ロボットからパーソナライズされた学習ツールまで、より適応性と柔軟性に優れたテクノロジーが実現します」と論文の著者であるハーバー氏は述べた。

カウバー氏は、ハーバー氏と、バイオエンジニアリングおよび精神医学部のDHチェン教授である神経科学者カール・ダイセロス氏によって共同指導された博士研究員であり、動物の行動からインスピレーションを得て人工知能システムを改善するというテーマに興奮しており、マウスとAIエージェントをより複雑なタスクでテストし、その行動と能力を比較することを計画している。

「動物からインスピレーションを受けていると口先だけで言う人が多いですが、私たちは漠然とした橋ではなく、直接的な橋を架けています。まさに同じことをやろうとしているのです。」

カウバー氏は、このような研究が AI 研究と神経科学の間の「つながり」を強め、動物の行動やその根底にある神経プロセスの理解に貢献できることを期待している。

「このアプローチ全体が、これまで考えられなかった仮説や新たな実験につながる可能性があることは想像に難くない」と彼は言う。

著者について

アイザック・カウバー

Isaac Kauvar 氏は、スタンフォード大学の LSRF ポストドクター研究員であり、スタンフォード自律エージェント研究所で Nick Haber 氏とともに人工知能、神経科学、心理学の交差点を研究しています。

彼は、脳の複数の領域にある細胞のネットワークがどのように連携して世界をシミュレートするかに興味を持っています。

カウバー氏はスタンフォード大学で電気工学の博士号を取得しました。そこで私は、皮質全体の神経活動を記録する光学ツールを開発し、ケタミンなどの薬物の解離効果の根底にあると思われる、奇妙なことに皮質の単一の領域に局在する一種の神経振動を発見しました。

参考文献:

https://hai.stanford.edu/news/ai-agents-self-reflect-perform-b​​etter-changing-environments

https://arxiv.org/abs/2306.15934

<<:  Google Cloud の共有: AI を活用して企業価値を生み出す方法

>>:  生産性を高める 13 の AI ツール

推薦する

企業がAIアプリケーションの成功を測定する方法

AI を従来のソフトウェアと区別する基本的な特徴は、非決定性です。同じ入力であっても、計算のラウンド...

テスラは大きな疑問に直面:オートパイロットは事故の1秒前に自動的に終了

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

Java プログラミング スキル - データ構造とアルゴリズム「循環リンク リストとジョセフ問題」

[[386837]]ジョセフ問題1、2、...n と番号が付けられた n 人が輪になって座り、番号...

パーセントポイントの劉一静氏:おそらくこれは人工知能をこのように見るべきだ

[51CTO.comより] 生活各界におけるデータの急速な増加、ビッグデータ技術の発展、高性能コンピ...

こんなに高い給料がもらえる機械学習の職種の面接を受けるにはどうしたらいいのでしょうか?

[[199809]]まず第一に、この質問は非常に広範囲にわたります。機械学習にはさまざまな方向性が...

...

人工知能は大学のキャンパスにどのような変化をもたらしたのでしょうか?

[[279290]] [51CTO.com クイック翻訳] 大学はどのようにして、個人の教育キャリ...

...

ByteDance は給与の大幅調整を行いましたが、これは隠された 20% の給与増額です。ネットユーザー:業界の清流!

18日夕方、バイトダンスは全従業員宛ての電子メールで重大イベントを発表した。手紙の全内容が明らかに...

...

Baidu Smart Cloud Qianfan AppBuilder を解体し、次世代の大規模モデル アプリケーションを予測する

ゲスト|百度インテリジェントクラウド技術委員会委員長 孫克氏執筆者 | Yun Zhao 2023年...

将来の旅行に関する最初の質問:自動運転による交通渋滞の解決策は本当に実現可能でしょうか?

交通渋滞問題は北京、上海、広州の都市脳血栓症となっている。我々の巧妙な統治の下では、都市部の道路渋滞...

2024 年のコンテナ技術予測: パフォーマンス、AI、セキュリティの採用

パフォーマンス重視のコンテナ技術向けのツールとサービスを提供する Sylabs は、2024 年まで...

IoTとAI:輸送管理の変革

私たちが今生きている時代は、これまでで最も技術的に進歩した時代です。これらの新しいテクノロジーの登場...