AIキーボード戦士が登場: DeepMindがエージェントのトレーニングを開始、コンピューターを人間のように「操作」

AIキーボード戦士が登場: DeepMindがエージェントのトレーニングを開始、コンピューターを人間のように「操作」

機械が人間のようにコンピューターを使用できる場合、機械は私たちが日常のタスクを完了するのを手助けすることができます。この場合、大規模な専門家のデモンストレーションと対話型動作に関する人間の判断という、最近の人工知能の成功の原動力となっている 2 つの要素を活用することも可能になります。

3D 模倣世界における自然言語、コード生成、マルチモーダルインタラクションに関する最近の研究 (DeepMind Interactive Agents Team 2021) では、優れた表現力、コンテキスト認識、豊富な常識を備えたモデルが生み出されました。この研究は、機械と人間の間で一貫性のある豊富な組み合わせ出力空間と、機械の動作を通知する豊富な人間のデータと判断という 2 つの要素の力を強力に実証しています。

両方の要素を備えているにもかかわらず、あまり注目されていない分野が、デジタル デバイス制御です。デジタル デバイス制御では、デジタル デバイスを使用してさまざまな便利なタスクを実行します。この分野では、ほぼ独占的にデジタル情報を使用するため、データの取得と制御の並列化に関して、ロボット工学や核融合炉と比較して、非常に拡張性に優れています。この分野では、多様なマルチモーダル入力と、表現力豊かで構成可能、かつ人間と互換性のあるアフォーダンスも組み合わせています。

最近、DeepMind の新しい論文「コンピューターの制御を学習するためのデータ駆動型アプローチ」では、研究者は、人間のようにキーボードとマウスの基本的なコンピューター制御を実行できるようにインテリジェント エージェントをトレーニングすることに焦点を当てました。


論文アドレス: https://arxiv.org/pdf/2202.08137.pdf

DeepMind がコンピューター制御の初期調査に使用したベンチマークは、クリック、タイピング、フォームへの記入などの基本的なコンピューター操作タスクを実行するための一連の命令で構成される MiniWob++ タスク スイート (一連の難しいコンピューター制御問題) です (下の図 1 b)。 MiniWob++ はさらに、プログラムで定義された報酬を提供します。これらのタスクは、人間が自然言語を使用してタスクを指定し、その後のパフォーマンスに関する判断を提供する、よりオープンな人間とコンピューターの相互作用への第一歩です。

研究者らは、デジタルデバイス上で実行されるあらゆるタスクに原理的に適用可能であり、期待されるデータと計算のスケーリング特性を備えた方法を使用して、これらのタスクを解決するエージェントをトレーニングすることに重点を置きました。したがって、強化学習 (RL) と行動のクローニング (BC) を直接組み合わせ、行動のクローニングは人間とエージェントのアクション空間 (つまり、キーボードとマウス) 間の調整によって支援されます。

具体的には、研究者らはキーボードとマウスを使用したコンピューターの制御と、自然言語によるオブジェクトの指定について調査しました。さらに、彼らは、手作業で設計されたカリキュラムや特殊なアクションスペースに焦点を当てるのではなく、実際の人間とコンピューターの相互作用によって提供される行動の事前確率と組み合わせた強化学習に基づくスケーラブルなアプローチを開発しています。

これは、MiniWob(2016年にOpenAIが提案したWebサイトと対話する強化学習エージェントのベンチマーク。MiniWob++はその拡張バージョン)で提案された組み合わせですが、当時は高性能なエージェントを生成できないことが判明しました。そのため、その後の作業では、エージェントに特定の DOM 操作へのアクセス権を与え、制約された探索手法を通じて慎重に計画されたガイダンスを使用して各ステップで利用可能なアクションの数を減らすことで、パフォーマンスの向上を試みています。模倣学習と強化学習のシンプルでスケーラブルな組み合わせを再検討することで、高いパフォーマンスを達成するために欠けている主な要素は、行動クローニングのための人間の軌跡データセットのサイズだけであることがわかりました。以前の研究よりも 400 倍大きいデータセットを使用することで、より多くの人間のデータを使用することでパフォーマンスが確実に向上します。

研究者らは、MiniWob++ ベンチマークのすべてのタスクで SOTA と人間並みのパフォーマンスを達成し、タスク間の転移の強力な証拠を発見しました。これらの結果は、機械にコンピューターの使用を訓練する際の統合された人間とコンピューターのインターフェースの有用性を実証しています。全体として、研究者らの研究結果は、MiniWob++ ベンチマークの能力を超え、コンピューターを人間のように制御する方法を実証しています。

ネットユーザーの多くは、DeepMindの研究について「信じられない」と叫んだ。


方法

ミニウォブ++

MiniWob++ は、2018 年に Liu らによって提案された Web ブラウザベースのスイートです。これは、Web サイトを操作するための強化学習ベンチマークである以前の MiniWob (Mini World of Bits) タスク スイートの拡張版です。小さな Web ページ (210 x 160 ピクセル) の生のピクセルを認識し、キーボードとマウスのアクションを生成できます。 MiniWob++ のタスクは、単純なボタンのクリックから、特定の指示に従ってフライトを予約するなどの複雑なフォームの入力まで多岐にわたります (図 1a)。

MiniWob++ に関するこれまでの研究では、DOM 固有のアクションへのアクセスを可能にするアーキテクチャが検討されており、これにより、エージェントはマウスやキーボードを使用して DOM 要素に移動することなく、DOM 要素と直接対話できるようになりました。 DeepMind の研究者は、マウスとキーボードに基づく操作のみを使用することを選択し、さらに、このインターフェースはコンパクトな DOM を操作する必要がなく、コンピューター制御タスクにうまく移行できるという仮説を立てました。最後に、MiniWob++ タスクではクリックまたはドラッグ操作が必要ですが、これは DOM 要素ベースの操作では実現できません (図 1b の例を参照)。

以前の MiniWob++ 研究と同様に、DeepMind のエージェントは環境によって提供されるテキスト文字列の辞書にアクセスし、特定のタスクの入力フィールドに入力します (例については付録の図 9 を参照)。

次の図は、MiniWob++ を実行するコンピュータ制御環境を示しています。人間とエージェントは両方ともキーボードとマウスを使用してコンピューターを制御します。人間は行動のクローン作成のためのモデル行動を提供し、エージェントはその行動を模倣したり報酬を求める行動を示したりするようにトレーニングされます。人間とエージェントは、クリック、入力、ドラッグ、フォームへの記入などを必要とするタスクを含む MiniWob++ タスク スイートを解決しようとします。


環境インターフェース

インテリジェントエージェントが人間のようにコンピューターを使用するようにするには、観察とアクションを送受信するためのインターフェースが必要です。オリジナルの MiniWob++ タスク スイートは、Selenium ベースのインターフェイスを提供していました。 DeepMind は、Web ブラウザでさまざまなタスクを実行できるエージェントをサポートすることを目的とした代替環境スタックを実装することを決定しました。インターフェースは、セキュリティ、機能、パフォーマンスの面で最適化されています (図 1a)。

元の MiniWob++ 環境は、ブラウザの内部状態にアクセスし、制御コマンドを発行するために Selenium を使用して実装されました。代わりに、DeepMind のエージェントは Chrome DevTools プロトコル (CDP) と直接対話してブラウザの内部を取得します。

エージェントアーキテクチャ

DeepMind は、そのアーキテクチャを特殊な DOM 処理に基づいて構築する必要はないことを発見しました。代わりに、マルチモーダル アーキテクチャに関する最近の研究の影響を受け、DeepMind は最小限のモダリティ固有の処理を適用し、主にマルチモーダル トランスフォーマーに依存して関連情報を柔軟に処理しました (図 2 を参照)。

感知。エージェントは視覚入力(165x220 RGBピクセル)と言語入力(入力例は付録図9に示されています)を受け取ります。ピクセル入力は、3×3 カーネル、ストライド 2、2、2、2、および出力チャネル (32、128、256、512) を持つ一連の 4 つの ResNet ブロックを通過します。これにより、14×11 の特徴ベクトルが生成され、DeepMind はそれを 154 個のトークンのリストに平坦化します。

3 種類の言語入力タスク指示、DOM、およびタスク フィールドは、同じモジュールを使用して処理されます。各テキスト文字列はトークンに分割され、各トークンはサイズ 64 の埋め込みにマッピングされます。

ポリシー: エージェント ポリシーは、アクション タイプ、カーソル座標、キーボード キー インデックス、タスク フィールド インデックスの 4 つの出力で構成されます。各出力は、2 つの離散分布でモデル化されるカーソル座標を除き、単一の離散確率分布でモデル化されます。

アクション タイプは、1 つの「アクションなし」(アクションなしを示す)、7 つのマウス アクション (移動、クリック、ダブルクリック、押す、離す、ホイール アップ、ホイール ダウン)、および 2 つのキーボード アクション (キーを押す、テキストの送信) を含む 10 個の可能なアクションのセットから選択されました。

DeepMind は、77 人の参加者から 104 の MiniWob++ タスクのデモンストレーションを 240 万回以上収集し、合計約 6,300 時間にわたって、模倣学習と強化学習 (RL) を単純に組み合わせてエージェントをトレーニングしました。

実験結果

MiniWob++ で人間レベルのパフォーマンスを実現

ほとんどの研究は通常、MiniWob++ タスクのサブセットのみを扱っているため、この研究では、個々のタスクごとに公開されている最高のパフォーマンスを採用し、これらのサブタスクの総合的なパフォーマンスを提案されたエージェントと比較します。下の図 3 に示すように、エージェントは SOTA ベースライン パフォーマンスを大幅に上回っています。

さらに、エージェントは MiniWob++ タスク コンポーネントで人間レベルの平均的なパフォーマンスを達成します。このパフォーマンスは、BC と RL の共同トレーニングを組み合わせることで実現されます。

研究者らは、エージェントの平均的なパフォーマンスは人間のパフォーマンスと同等であったものの、下の図 4 に示すように、一部のタスクでは人間のパフォーマンスがエージェントよりも大幅に優れていることを発見しました。

タスクの移行

研究者らは、MiniWob++ の 104 個のタスクすべてについて単一のエージェントをトレーニングすると、各タスクを個別にトレーニングしたエージェントと比較してパフォーマンスが大幅に向上することを発見しました (下の図 5 を参照)。

拡張機能

下の図 7 に示すように、人間の軌跡データセットのサイズは、エージェントのパフォーマンスに影響を与える重要な要素です。データセットの 1/1000 (約 6 時間分のデータに相当) を使用すると、急速なオーバーフィッティングが発生し、RL のみを使用した場合と比べてパフォーマンスが大幅に向上することはありません。研究では、このベースラインからデータ量を 3 桁増やしてデータセット全体のサイズまで増やすと、エージェントのパフォーマンスは向上し続けました。

さらに研究者らは、アルゴリズムやアーキテクチャの変更により、データセットのサイズに応じてパフォーマンスが向上する可能性があると指摘しています。

アブレーション実験

エージェントはピクセルと DOM 情報を使用し、さまざまな操作をサポートするように構成できます。この研究では、さまざまなアーキテクチャの選択の重要性を理解するためにアブレーション実験を実施しました。

この研究では、まず異なるエージェント入力を除去します (図 8a)。現在のエージェント構成は DOM 情報に大きく依存しており、この入力が削除されるとパフォーマンスが 75% 低下します。対照的に、視覚情報の入力はエージェントにそれほど大きな影響を与えません。

図 8b に示すように、この研究では、環境によって提供されるテキスト入力オプション (タスク フィールド) を使用するエージェントの機能が削除されました。興味深いことに、削除されたエージェントは依然としてフォーム入力を伴うタスクを解決できますが、テキストを強調表示して関連するテキスト ボックスにドラッグするという人間の軌跡からこれを実行することを学習します。エージェントが元の Selenium バージョンの環境でこのドラッグ操作を実装するのは簡単ではないことに注意してください。

図 8b は、エージェントが代替アクションを使用して特定の DOM 要素と対話するアブレーション実験の結果も示しています。つまり、エージェントはキャンバス内の特定の場所をクリックしたり、ドラッグしたり、テキストを強調表示したりするタスクを解決できません。

<<:  ニューラル ネットワークが適切に機能するには、なぜ十分なパラメータが必要なのでしょうか?

>>:  Nature サブジャーナル: 機械学習を使用してヒトの遺伝子制御の背後にある「文法」を明らかにする

ブログ    

推薦する

機械学習の世界的ゴッドファーザーであるトム・ミッチェルは、スクワールAIラーニングに入社すると発表した。

トム・ミッチェル教授は、スクワレルAIラーニングからの最高AI責任者としての招待を受け入れたことを正...

ブロックチェーン科学: 非対称暗号化、楕円曲線暗号

ブロックチェーン暗号化入門ブロックチェーン暗号化技術ブロックチェーン技術の応用と発展において、デジタ...

人工知能(AI)の人間的側面を探る

新興技術である AI はこれまで多くの課題に直面しており、今後も直面し続けるでしょう。一方で、消費者...

警察ドローンの数十億ドル規模のブルーオーシャンをどう実現するか?今後はこの3点に注目してください!

近年、飛行制御、ナビゲーション、通信などの技術の継続的な発展に伴い、ドローン産業は急速な成長を遂げて...

2021年第1四半期のロボット産業の新製品在庫

2021 年の最初の 3 か月間にロボット業界ではどのような新製品が登場しましたか? [[38857...

ビッグニュース! ChatGPTの2つの主要イベント

1 つ目は、GPT-4 API です。完全にオープンに使用できます。 7月7日、OpenAIは公式ウ...

自動運転の浮き沈み:バブルが消えた後

[51CTO.comよりオリジナル記事] 静かな2019年を経て、自動運転業界は新年を迎え、徐々に活...

人工知能システム:無制限の核融合反応を現実のものに

近年、研究者らはトカマクの停止や損傷の原因となる核分裂反応を研究している。核分裂反応を予測・制御でき...

ビジネスリーダーがAIを導入する際に指針となる5つの基本原則

たとえば、私が 25 年以上携わってきた市場調査業界を考えてみましょう。 AI は、さまざまな方法で...

無人バスは無人タクシーよりも信頼性が高いでしょうか?

バスがプラットフォームに到着するのを待って、バスに乗り、カードをスワイプします。いつもの朝の通勤風景...

新しいヘルスケアソリューション: ヘルスケアにおける AI と IoT が認知症患者をどのように支援できるか

年齢を重ねるにつれて、私たちの体はさまざまな病気や障害に悩まされるようになります。それはまるで逆方向...

優れた LLM アプリケーションを構築するための 4 つの重要なポイントのうち、どれを見つけましたか?

これらの提案により、LLM 申請の精度が向上し、適切な LLM を選択する方法についての考慮事項も含...

GitHub の機械学習プロジェクトのトップ 5。残念です!

機械学習は急速に発展しています。実用的で高度な機械学習プロジェクトを見つけたい場合、第一の選択肢は ...

Facebook の応用機械学習チームを訪問: 研究と応用の間に橋を架けるにはどうすればよいでしょうか?

Facebook では、応用機械学習チームがソーシャル ネットワークの視覚、会話、理解を支援してお...

...