AIキーボード戦士が登場: DeepMindがエージェントのトレーニングを開始、コンピューターを人間のように「操作」

機械が人間のようにコンピューターを使用できる場合、機械は私たちが日常のタスクを完了するのを手助けすることができます。この場合、大規模な専門家のデモンストレーションと対話型動作に関する人間の判断という、最近の人工知能の成功の原動力となっている 2 つの要素を活用することも可能になります。

3D 模倣世界における自然言語、コード生成、マルチモーダルインタラクションに関する最近の研究 (DeepMind Interactive Agents Team 2021) では、優れた表現力、コンテキスト認識、豊富な常識を備えたモデルが生み出されました。この研究は、機械と人間の間で一貫性のある豊富な組み合わせ出力空間と、機械の動作を通知する豊富な人間のデータと判断という 2 つの要素の力を強力に実証しています。

両方の要素を備えているにもかかわらず、あまり注目されていない分野が、デジタルデバイス制御です。デジタルデバイス制御では、デジタルデバイスを使用してさまざまな便利なタスクを実行します。この分野では、ほぼ独占的にデジタル情報を使用するため、データの取得と制御の並列化に関して、ロボット工学や核融合炉と比較して、非常に拡張性に優れています。この分野では、多様なマルチモーダル入力と、表現力豊かで構成可能、かつ人間と互換性のあるアフォーダンスも組み合わせています。

最近、DeepMind の新しい論文「コンピューターの制御を学習するためのデータ駆動型アプローチ」では、研究者は、人間のようにキーボードとマウスの基本的なコンピューター制御を実行できるようにインテリジェントエージェントをトレーニングすることに焦点を当てました。

論文アドレス: https://arxiv.org/pdf/2202.08137.pdf

DeepMind がコンピューター制御の初期調査に使用したベンチマークは、クリック、タイピング、フォームへの記入などの基本的なコンピューター操作タスクを実行するための一連の命令で構成される MiniWob++ タスクスイート (一連の難しいコンピューター制御問題) です (下の図 1 b)。 MiniWob++ はさらに、プログラムで定義された報酬を提供します。これらのタスクは、人間が自然言語を使用してタスクを指定し、その後のパフォーマンスに関する判断を提供する、よりオープンな人間とコンピューターの相互作用への第一歩です。

研究者らは、デジタルデバイス上で実行されるあらゆるタスクに原理的に適用可能であり、期待されるデータと計算のスケーリング特性を備えた方法を使用して、これらのタスクを解決するエージェントをトレーニングすることに重点を置きました。したがって、強化学習 (RL) と行動のクローニング (BC) を直接組み合わせ、行動のクローニングは人間とエージェントのアクション空間 (つまり、キーボードとマウス) 間の調整によって支援されます。

具体的には、研究者らはキーボードとマウスを使用したコンピューターの制御と、自然言語によるオブジェクトの指定について調査しました。さらに、彼らは、手作業で設計されたカリキュラムや特殊なアクションスペースに焦点を当てるのではなく、実際の人間とコンピューターの相互作用によって提供される行動の事前確率と組み合わせた強化学習に基づくスケーラブルなアプローチを開発しています。

これは、MiniWob（2016年にOpenAIが提案したWebサイトと対話する強化学習エージェントのベンチマーク。MiniWob++はその拡張バージョン）で提案された組み合わせですが、当時は高性能なエージェントを生成できないことが判明しました。そのため、その後の作業では、エージェントに特定の DOM 操作へのアクセス権を与え、制約された探索手法を通じて慎重に計画されたガイダンスを使用して各ステップで利用可能なアクションの数を減らすことで、パフォーマンスの向上を試みています。模倣学習と強化学習のシンプルでスケーラブルな組み合わせを再検討することで、高いパフォーマンスを達成するために欠けている主な要素は、行動クローニングのための人間の軌跡データセットのサイズだけであることがわかりました。以前の研究よりも 400 倍大きいデータセットを使用することで、より多くの人間のデータを使用することでパフォーマンスが確実に向上します。

研究者らは、MiniWob++ ベンチマークのすべてのタスクで SOTA と人間並みのパフォーマンスを達成し、タスク間の転移の強力な証拠を発見しました。これらの結果は、機械にコンピューターの使用を訓練する際の統合された人間とコンピューターのインターフェースの有用性を実証しています。全体として、研究者らの研究結果は、MiniWob++ ベンチマークの能力を超え、コンピューターを人間のように制御する方法を実証しています。

ネットユーザーの多くは、DeepMindの研究について「信じられない」と叫んだ。

方法

ミニウォブ++

MiniWob++ は、2018 年に Liu らによって提案された Web ブラウザベースのスイートです。これは、Web サイトを操作するための強化学習ベンチマークである以前の MiniWob (Mini World of Bits) タスクスイートの拡張版です。小さな Web ページ (210 x 160 ピクセル) の生のピクセルを認識し、キーボードとマウスのアクションを生成できます。 MiniWob++ のタスクは、単純なボタンのクリックから、特定の指示に従ってフライトを予約するなどの複雑なフォームの入力まで多岐にわたります (図 1a)。

MiniWob++ に関するこれまでの研究では、DOM 固有のアクションへのアクセスを可能にするアーキテクチャが検討されており、これにより、エージェントはマウスやキーボードを使用して DOM 要素に移動することなく、DOM 要素と直接対話できるようになりました。 DeepMind の研究者は、マウスとキーボードに基づく操作のみを使用することを選択し、さらに、このインターフェースはコンパクトな DOM を操作する必要がなく、コンピューター制御タスクにうまく移行できるという仮説を立てました。最後に、MiniWob++ タスクではクリックまたはドラッグ操作が必要ですが、これは DOM 要素ベースの操作では実現できません (図 1b の例を参照)。

以前の MiniWob++ 研究と同様に、DeepMind のエージェントは環境によって提供されるテキスト文字列の辞書にアクセスし、特定のタスクの入力フィールドに入力します (例については付録の図 9 を参照)。

次の図は、MiniWob++ を実行するコンピュータ制御環境を示しています。人間とエージェントは両方ともキーボードとマウスを使用してコンピューターを制御します。人間は行動のクローン作成のためのモデル行動を提供し、エージェントはその行動を模倣したり報酬を求める行動を示したりするようにトレーニングされます。人間とエージェントは、クリック、入力、ドラッグ、フォームへの記入などを必要とするタスクを含む MiniWob++ タスクスイートを解決しようとします。

環境インターフェース

インテリジェントエージェントが人間のようにコンピューターを使用するようにするには、観察とアクションを送受信するためのインターフェースが必要です。オリジナルの MiniWob++ タスクスイートは、Selenium ベースのインターフェイスを提供していました。 DeepMind は、Web ブラウザでさまざまなタスクを実行できるエージェントをサポートすることを目的とした代替環境スタックを実装することを決定しました。インターフェースは、セキュリティ、機能、パフォーマンスの面で最適化されています (図 1a)。

元の MiniWob++ 環境は、ブラウザの内部状態にアクセスし、制御コマンドを発行するために Selenium を使用して実装されました。代わりに、DeepMind のエージェントは Chrome DevTools プロトコル (CDP) と直接対話してブラウザの内部を取得します。

エージェントアーキテクチャ

DeepMind は、そのアーキテクチャを特殊な DOM 処理に基づいて構築する必要はないことを発見しました。代わりに、マルチモーダルアーキテクチャに関する最近の研究の影響を受け、DeepMind は最小限のモダリティ固有の処理を適用し、主にマルチモーダルトランスフォーマーに依存して関連情報を柔軟に処理しました (図 2 を参照)。

感知。エージェントは視覚入力（165x220 RGBピクセル）と言語入力（入力例は付録図9に示されています）を受け取ります。ピクセル入力は、3×3 カーネル、ストライド 2、2、2、2、および出力チャネル (32、128、256、512) を持つ一連の 4 つの ResNet ブロックを通過します。これにより、14×11 の特徴ベクトルが生成され、DeepMind はそれを 154 個のトークンのリストに平坦化します。

3 種類の言語入力タスク指示、DOM、およびタスクフィールドは、同じモジュールを使用して処理されます。各テキスト文字列はトークンに分割され、各トークンはサイズ 64 の埋め込みにマッピングされます。

ポリシー: エージェントポリシーは、アクションタイプ、カーソル座標、キーボードキーインデックス、タスクフィールドインデックスの 4 つの出力で構成されます。各出力は、2 つの離散分布でモデル化されるカーソル座標を除き、単一の離散確率分布でモデル化されます。

アクションタイプは、1 つの「アクションなし」(アクションなしを示す)、7 つのマウスアクション (移動、クリック、ダブルクリック、押す、離す、ホイールアップ、ホイールダウン)、および 2 つのキーボードアクション (キーを押す、テキストの送信) を含む 10 個の可能なアクションのセットから選択されました。

DeepMind は、77 人の参加者から 104 の MiniWob++ タスクのデモンストレーションを 240 万回以上収集し、合計約 6,300 時間にわたって、模倣学習と強化学習 (RL) を単純に組み合わせてエージェントをトレーニングしました。

実験結果

MiniWob++ で人間レベルのパフォーマンスを実現

ほとんどの研究は通常、MiniWob++ タスクのサブセットのみを扱っているため、この研究では、個々のタスクごとに公開されている最高のパフォーマンスを採用し、これらのサブタスクの総合的なパフォーマンスを提案されたエージェントと比較します。下の図 3 に示すように、エージェントは SOTA ベースラインパフォーマンスを大幅に上回っています。

さらに、エージェントは MiniWob++ タスクコンポーネントで人間レベルの平均的なパフォーマンスを達成します。このパフォーマンスは、BC と RL の共同トレーニングを組み合わせることで実現されます。

研究者らは、エージェントの平均的なパフォーマンスは人間のパフォーマンスと同等であったものの、下の図 4 に示すように、一部のタスクでは人間のパフォーマンスがエージェントよりも大幅に優れていることを発見しました。

タスクの移行

研究者らは、MiniWob++ の 104 個のタスクすべてについて単一のエージェントをトレーニングすると、各タスクを個別にトレーニングしたエージェントと比較してパフォーマンスが大幅に向上することを発見しました (下の図 5 を参照)。

拡張機能

下の図 7 に示すように、人間の軌跡データセットのサイズは、エージェントのパフォーマンスに影響を与える重要な要素です。データセットの 1/1000 (約 6 時間分のデータに相当) を使用すると、急速なオーバーフィッティングが発生し、RL のみを使用した場合と比べてパフォーマンスが大幅に向上することはありません。研究では、このベースラインからデータ量を 3 桁増やしてデータセット全体のサイズまで増やすと、エージェントのパフォーマンスは向上し続けました。

さらに研究者らは、アルゴリズムやアーキテクチャの変更により、データセットのサイズに応じてパフォーマンスが向上する可能性があると指摘しています。

アブレーション実験

エージェントはピクセルと DOM 情報を使用し、さまざまな操作をサポートするように構成できます。この研究では、さまざまなアーキテクチャの選択の重要性を理解するためにアブレーション実験を実施しました。

この研究では、まず異なるエージェント入力を除去します (図 8a)。現在のエージェント構成は DOM 情報に大きく依存しており、この入力が削除されるとパフォーマンスが 75% 低下します。対照的に、視覚情報の入力はエージェントにそれほど大きな影響を与えません。

図 8b に示すように、この研究では、環境によって提供されるテキスト入力オプション (タスクフィールド) を使用するエージェントの機能が削除されました。興味深いことに、削除されたエージェントは依然としてフォーム入力を伴うタスクを解決できますが、テキストを強調表示して関連するテキストボックスにドラッグするという人間の軌跡からこれを実行することを学習します。エージェントが元の Selenium バージョンの環境でこのドラッグ操作を実装するのは簡単ではないことに注意してください。

図 8b は、エージェントが代替アクションを使用して特定の DOM 要素と対話するアブレーション実験の結果も示しています。つまり、エージェントはキャンバス内の特定の場所をクリックしたり、ドラッグしたり、テキストを強調表示したりするタスクを解決できません。

<<: ニューラルネットワークが適切に機能するには、なぜ十分なパラメータが必要なのでしょうか?

>>: Nature サブジャーナル: 機械学習を使用してヒトの遺伝子制御の背後にある「文法」を明らかにする