スタンフォードのAIエージェント研究が熱い! 「好奇心リプレイ」アルゴリズムにより、AIは自分自身を振り返り、積極的に新しい世界を探索することができる。

スタンフォードのAIエージェント研究が熱い! 「好奇心リプレイ」アルゴリズムにより、AIは自分自身を振り返り、積極的に新しい世界を探索することができる。

一夜にして、AI エージェントが突然インターネット全体を支配しました。

業界のリーダーたちは、その焦点を LLM から AI エージェントに移しています。OpenAI の主任科学者 Karpathy 氏は、AI エージェントが未来であると信じています。

NvidiaのCEOであるHuang氏でさえ、人工知能の次の波は具現化された人工知能、つまり単に「AIエージェント」であると述べています。

最近、スタンフォード大学の最新の研究により、AI エージェントがマウスと直接競争してどちらが勝つかを決定することが可能になりました。

最新の研究成果はarXivで公開され、ICML 2023に受理されました。

論文アドレス: https://arxiv.org/pdf/2306.15934.pdf

エージェント対マウス

スタンフォード大学の研究者アイザック・カウバー氏は、「周囲の環境を探索し、適応する」という単純なタスクを設計した。

Kauvar 氏は、小さな空の箱にマウスを配置し、同様に 3D 仮想アリーナに AI エージェントを配置しました。

写真

次に、両方の環境に赤いボールを置きました。次に、新しいオブジェクトを誰がより早く探索できるかをテストします。

結果は、マウスがボールに素早く近づき、その後数分間ボールと相互作用を続けたことを示しました。しかし、AIエージェントはそれに気づかなかったようです。

最初のラウンドでは、マウスが勝ち、エージェントが負けます。

「これはまったく予想外のことでした」とカウバー氏は言う。「最先端のアルゴリズムを使っても、パフォーマンスにはまだ差があることに気づきました。」

そこで学者たちは、一見単純な動物の行動を AI システムの改善のヒントとして活用できるのではないかと考えています。

このアイデアに触発されて、研究者たちは「好奇心のリプレイ」と呼ばれる新しいトレーニング方法を設計しました。

この方法により、AI エージェントは最近遭遇した最も斬新で興味深い事柄について「自己反省」できるようになります。

「好奇心リプレイ」を追加した後、AIエージェントは赤いボールにもっと早く近づいて対話できるようになりました。さらに、Minecraft ベースのゲーム「Crafter」のパフォーマンスが大幅に向上します。

写真

好奇心を通して学ぶ

ご存知のとおり、真のスーパー AI エンティティとは、人間のように認識し、対話し、理解できる AI です。

好奇心は、危険な状況を避けるためであれ、生存に必要なものを見つけるためであれ、人間が世界を理解し周囲を探索するために不可欠です。

実験では、赤いボールは猛毒かもしれないし、栄養のある食事かもしれないので、それを無視すると真実を突き止めるのは難しくなるだろう。

そのため、スタンフォード大学の研究者たちは、AI エージェント、特にモデルベースの深層強化学習エージェントを駆動する動作に「好奇心のシグナル」を追加しています。

この信号は、ドアを見たら無視するのではなく開けるなど、より興味深い結果につながる行動を選択するように伝えます。

写真

Curious Replayは、好奇心に基づく優先順位付けを使用して、最も馴染みのない体験でのモデルトレーニングを強化することで、体験の再生と世界モデルのパフォーマンスの間のループを閉じます。

今回、チームは好奇心を新たな方法で利用し、AI エージェントが意思決定を行うだけでなく、世界を理解できるようにしました。

「私たちは何をするかを選ぶのではなく、何を考えるか、多かれ少なかれ過去の経験から何を学びたいかを選ぶのです」とカウバー氏は語った。

言い換えれば、彼らは AI エージェントに「自己反省」を促すことを望んでいるのです。ある意味、それに関する最も興味深い、または奇妙な(好奇心に関連した)経験。

このようにして、エージェントはさまざまな方法でオブジェクトと対話してより多くの学習を得るように促され、環境の理解が促進され、他のアイテムに対する好奇心が刺激される可能性があります。

このような自己反省を可能にするために、研究者らは「経験リプレイ」と呼ばれる AI エージェントのトレーニングに一般的に使用されている方法を変更しました。

このアプローチでは、エージェントはすべてのインタラクションのメモリを保存し、その一部をランダムに再生して再度学習します。

「経験の再生」は睡眠に関する研究からヒントを得たものです。神経科学者は、海馬と呼ばれる脳の領域が(特定のニューロンを再活性化することによって)その日の出来事を「再生」して記憶を強化することを発見しました。

AI エージェントでは、環境があまり変化せず、正しい行動が明確な報酬を受け取るシナリオでは、「経験の再生」によって高いパフォーマンスを実現できます。

しかし、研究者らは、絶えず変化する環境では、空の仮想部屋を何度も繰り返し再生するよりも、赤いボールの出現など、最も興味深い体験を再生することを AI エージェントが優先する方が理にかなっていると推論した。

彼らはこの新しい方法を「Curious Replay」と名付け、それがすぐに効果的であることを発見しました。 「突然、エージェントがボールとやり取りする速度が大幅に増加しました」とカウバー氏は語った。

写真

アルゴリズム設計の場合、優先シグナルは目新しさと驚きの組み合わせです。

写真

Curious Replay は、既存のエージェントを単純に変更したものです。これらのエージェントは、経験サンプルの数と各トレーニング バッチで計算されたモデル損失を活用して、最小限の計算オーバーヘッドで経験の再生を使用します。

この優先順位付けは、適応が求められる変化する環境で特に役立ちます。 Curious Replay は、環境の変化に応じて世界モデルを最新の状態に保つのに役立ちます。これは、効果的なアクション選択の前提条件です。

一方、研究者らは、好奇心に基づく主要な AI エージェントである Plan2Explore の動作が、適応が必要な状況では著しく悪くなる (たとえば、オブジェクトとのやり取りが遅くなる) ことを発見しました。

写真

その理由の 1 つは、世界モデルが「リプレイ」バッファーからの均一なサンプリングを使用してトレーニングされるためです。そのため、古くて退屈な体験も、より稀で新しい興味深い体験と同様にトレーニングされる可能性があります。

写真

代わりに「興味深い体験」をサンプリングすることを優先したらどうなるでしょうか? AI エージェントは、目新しさや驚きなどの好奇心のシグナルを使用して、過去の経験の面白さを測定します。

写真

この単純な変更により、適応が大幅に改善され、世界モデルのパフォーマンスが向上し、オブジェクトとのインタラクションが大幅に増加することがわかりました。

また、これは「経験の再現」を優先する既存のアプローチ(TD エラーなどの報酬関連のシグナルの使用など)よりも優れたパフォーマンスを発揮します。

写真

しかし、彼らはそこで止まりませんでした。

研究者らはまた、Minecraft に似た AI エージェントの創造的な問題解決能力をテストするための標準テストである Crafter と呼ばれるゲームをプレイする AI エージェントに Curiosity Replay を追加しました。

エージェントは、木材や石材の収集、つるはしの作成、鉄鉱石の収集方法を学習して、生き残り、適応する必要があります。

好奇心リプレイ法は、現在の最先端のスコアを約 14 から 19 に向上させます (人間のスコアは通常約 50 です)。これは「この 1 つの変更」だけで実現できると Kauvar 氏は言います。

Huggies Replay は、Crafter ベンチマークで DreamerV3 を上回る SOTA を達成し、スキルに挑戦する能力が大幅に向上したことを示しています。

写真

興味深い未来

単純なタスクと複雑なタスクの両方で好奇心リプレイアプローチが成功したことは、このアプローチが将来の幅広い AI 研究にとって重要になることを示唆しています。

「この研究の全体的な目標は、インテリジェントエージェントが過去の経験を活用し、新しい環境や変化する環境を探索する際に効率的に適応できるようにすることです。これにより、家庭用ロボットからパーソナライズされた学習ツールまで、より適応性と柔軟性に優れたテクノロジーが実現します」と論文の著者であるハーバー氏は述べた。

カウバー氏は、ハーバー氏と、バイオエンジニアリングおよび精神医学部のDHチェン教授である神経科学者カール・ダイセロス氏によって共同指導された博士研究員であり、動物の行動からインスピレーションを得て人工知能システムを改善するというテーマに興奮しており、マウスとAIエージェントをより複雑なタスクでテストし、その行動と能力を比較することを計画している。

「動物からインスピレーションを受けていると口先だけで言う人が多いですが、私たちは漠然とした橋ではなく、直接的な橋を架けています。まさに同じことをやろうとしているのです。」

カウバー氏は、このような研究が AI 研究と神経科学の間の「つながり」を強め、動物の行動やその根底にある神経プロセスの理解に貢献できることを期待している。

「このアプローチ全体が、これまで考えられなかった仮説や新たな実験につながる可能性があることは想像に難くない」と彼は言う。

著者について

アイザック・カウバー

Isaac Kauvar 氏は、スタンフォード大学の LSRF ポストドクター研究員であり、スタンフォード自律エージェント研究所で Nick Haber 氏とともに人工知能、神経科学、心理学の交差点を研究しています。

彼は、脳の複数の領域にある細胞のネットワークがどのように連携して世界をシミュレートするかに興味を持っています。

カウバー氏はスタンフォード大学で電気工学の博士号を取得しました。そこで私は、皮質全体の神経活動を記録する光学ツールを開発し、ケタミンなどの薬物の解離効果の根底にあると思われる、奇妙なことに皮質の単一の領域に局在する一種の神経振動を発見しました。

参考文献:

https://hai.stanford.edu/news/ai-agents-self-reflect-perform-b​​etter-changing-environments

https://arxiv.org/abs/2306.15934

<<:  Google Cloud の共有: AI を活用して企業価値を生み出す方法

>>:  生産性を高める 13 の AI ツール

ブログ    
ブログ    
ブログ    

推薦する

...

...

5Gは医療業界に革命を起こす

[[377987]]画像ソース: https://pixabay.com/images/id-149...

最適化問題におけるステップサイズが大きいほど、収束速度が速くなり、数十年にわたる勾配降下法アルゴリズムの従来の考え方を覆すものとなった。

機械学習の世界では、最適化問題は非常に重要であり、世界をより良い方向に変える可能性があります。最適化...

...

百度のCTO王海鋒が言語と知識の完全なレイアウトを説明する

自然言語理解(NLP)は「人工知能の最高傑作」として知られており、これは言語や知識などの認知面におけ...

10000000000!マイクロソフトはTransformerを改良し、一度に多くのトークンを記憶できるようにした

Microsoft Research Asia の最新の調査は少々衝撃的だ。彼らは、実際にトークンを...

デジタル時代のパフォーマンス管理:現実と未来

デジタルパフォーマンス管理の変革デジタル目標設定パフォーマンス計画は、企業の繁栄戦略と業務を結び付け...

深セン大学教授が顔検出ライブラリをオープンソース化、顔検出速度は最大1500FPS以上

先週、深セン大学コンピュータサイエンスおよびソフトウェア工学部の Yu Shiqi 教授が、最大 1...

IEEEの論文では、画像強調を実現するための放射状変換を提案している

[[202259]]最近、「少量のデータによるニューラル ネットワークのトレーニング - ドラフト」...

...

最近 IT 業界で起こったいくつかの大きな出来事についてお話ししましょう。

新年が明けたばかりですが、新しい技術、新しい知識、新しいコンテンツが次々と登場し、新年早々も怠けるこ...

TSMC、7nmチップの商業生産を開始

TSMCのCEOである魏哲佳氏は、TSMCの7nm生産能力の増加が予想よりも遅いという最近の憶測を否...

自動運転車におけるサイバーセキュリティの役割

自動車業界は、安全性、持続可能性、接続性、全体的なユーザーエクスペリエンスを向上させるソフトウェアの...