DeepMindとハーバード大学がAI「モルモット」を開発：餌探しからバッティングまでニューラルネットワークの謎を探る

マウスを研究するのと同じ方法で AI を研究できるでしょうか?多分。 ICLR 2020 Spotlight の論文では、DeepMind とハーバード大学の研究者が、走る、ジャンプする、餌を探す、バッティングなどのさまざまな複雑なタスクを実行できる AI ベースの仮想マウスを構築しました。彼らはまた、神経科学の技術を使って、この「人工脳」がどのように行動を制御するかを理解しようとした。おそらくこの成果は、人工知能研究に新たなアイデアを与えてくれるでしょう。

人工ニューラルネットワークは現在最も先進的な人工知能です。これは多層のニューラル相互接続コンポーネントで構成された機械学習アルゴリズムの一種であり、「ニューロン」という言葉はもともと脳の構造にヒントを得たものです。人工ニューラルネットワークのニューロンは実際の人間の脳とは確かに異なる働きをしますが、この2つを一緒に研究することで神経科学を理解するだけでなく、よりスマートなAIの開発にも役立つと考える研究者が増えています。 DeepMindとハーバード大学の研究者がこのアイデアを研究しました。

彼らが提案したのは、シミュレートされた環境でニューラルネットワークによって制御できるマウスの 3D モデルです。同時に、研究者たちは神経科学の技術を用いてマウスの脳の生物学的活動を分析し、神経ネットワークがマウスの行動をどのように制御するかを理解した。この論文は、ICLR 2020 カンファレンスで Spotlight 論文として採択されました。

論文リンク: https://openreview.net/pdf?id=SyxrxR4KPS

ハーバード大学の研究者で論文の著者の一人であるジェシー・マーシャル氏は、このプラットフォームは神経科学の分野における風洞に相当するもので、生物学的リアリティの度合いが異なるさまざまなニューラルネットワークをテストして、現実の複雑な課題にどのように対処するかを理解できると述べた。

「典型的な神経科学の実験では、研究者はレバーを叩くなどの単一の行動を使って動物の脳の活動を観察することが多く、ほとんどのロボットは掃除機などのカスタムタスクを解決するように作られています。この論文は、脳がどのように柔軟性を生み出し、達成するかを研究する第一歩であり、観察した結果に基づいて同様の機能を備えた人工知能製品を設計することができます。」

研究プロセス

仮想マウスの構築

下の図 1 に示すように、研究者らは実験用マウスのサイズに基づいて、MuJoCo 環境 (2012 年に Todorov らが提案) に仮想マウスの体を実装しました。マウスには 38 の制御可能な自由度があり、尾、背骨、首には複数の関節があり、複数の関節を共同で駆動する腱 (MuJoCo の空間腱) によって制御されます。この仮想マウスは、「dm_control/locomotion/」プロジェクトの一部としてオープンソースになります。

プロジェクトアドレス: https://github.com/deepmind/dm_control/tree/master/dm_control/locomotion

仮想マウスは、ヘッドマウントカメラからの「生の」一人称 RGB カメラ (64×64 ピクセル) 入力だけでなく、固有受容情報にもアクセスできます。固有受容情報には、内部関節角度と角速度、作動を提供する腱の位置と速度、マウスの骨盤から足と頭までの一人称ベクトル、前庭の垂直方向ベクトル、足の接触感知領域、および骨盤の一人称加速度、速度、3D 角速度が含まれます。

ニューラルネットワークのトレーニング

最近の研究では、エンドツーエンドの強化学習によって単一の地形適応戦略を生成できることが示されています。これに基づいて、研究者は、図 3 に示すように、複数のモーター制御依存タスクで単一のアーキテクチャをトレーニングしました。

図 3: 仮想マウスエージェントのアーキテクチャ。

4 つのタスクすべてを実行できる単一のポリシーをトレーニングするために、アクタークリティック DeepRL の IMPALA スタイルのセットアップを使用し、V トレースおよびオフポリシー修正を使用して価値関数評価機能をトレーニングします。

実験では、研究者らは「丘陵環境からの脱出」課題の学習が、他の3つの課題とのクロストレーニング中にさらに困難になることを発見した。そのため、研究者らは、「脱出」タスクに関してシングルタスクの専門家をトレーニングし、そのタスクに対してキックスタートを使用してマルチタスクポリシーをトレーニングした結果を提示しており、得られた係数は弱い (.001 または .005) です。脱出タスクでキックスタートを使用することで、マウスは 4 つのタスクすべてをより確実に完了できるようになり、異なるアーキテクチャのマルチタスク戦略をより簡単に比較できるようになりました。その結果、仮想入力を使用してマウスの動作を決定し、マウスの体を調整してさまざまなタスクを完了する単一のニューラルネットワークが実現します。

マウスは4つの課題を完了するよう求められた

研究者らは、訓練されたニューラルネットワークを使用して、マウスが複数の隙間を飛び越える、迷路で餌を探す、丘陵地帯から脱出する、ボールを正確に打つという4つの動作を完了するように誘導した。

複数の隙間を走ってジャンプします。

採集アクション: 青いオーブを追いかけます。

丘から脱出してください。

前足を使ってボールを正確に打ちます。

実験結果を分析する

マウスがタスクを正常に完了した後、研究者は仮想マウスの行動と連動してニューラルネットワークの活動を分析し、マウスが複数のタスクをどのように完了したかを調べました (下の図 4A)。彼らは、実際のニューラルネットワークの特性を調査するためのさまざまな技術を開発してきた分野である神経科学の分析および摂動技術を使用しました。

研究者らは、仮想マウスの運動学、関節、計算能力、感覚入力、コア層とポリシー層の LSTM ユニットの活動を記録しました。

図 4: 仮想マウスの行動記録。

しかし、ハーバード大学の大学院生で論文の著者の一人であるディエゴ・アルダロンド氏は、興味深い発見があったと述べている。神経活動が筋力と脚の動きを直接制御する場合、この活動は予想よりも長い時間スケールで発生するのだ。

これは、ニューラルネットワークが、走る、ジャンプする、回転するなどの複数のタスクを抽象的な記号を使用して表現できるようであり、これはげっ歯類や鳴鳥で以前に観察された認知パターンであることを意味します。

研究の重要性

ニューラルネットワークは生理学的には現実的ではないが、カナダのマギル大学の神経科学者ブレイク・リチャーズ氏は、ニューラルネットワークは神経活動が行動にどのような影響を与えるかについて有用な予測を行うのに十分なほど神経処理の重要な特徴を捉えていると述べている。同氏によると、この論文の最大の貢献は、これらのネットワークを訓練するためのほぼ現実的な方法を提示し、生物学的データとの比較を容易にしたことだ。

また、著者らは実際の生物とさまざまなタスクを訓練するためのプラットフォームを提供しており、実際のげっ歯類の脳との比較がより有意義なものになっているとも述べている。

研究面では、人工ニューラルネットワークは生物学的ニューラルネットワークとの広範な比較にはまだ適していませんが、このアプローチは行動の神経基盤を調査する良い方法となる可能性があります。

スコット氏は、動物の行動を記録し、それを特定の行動に結び付ける作業の複雑さにより、ほとんどの実験は非常に厳格な実験環境内で比較的単純なタスクで行われると述べている。対照的に、仮想マウスは、感覚入力や神経活動に高精度でリンクできる、餌探しなどの非常に複雑な多段階の行動を実行できます。

唯一の問題は、これほど複雑なタスクを実行する動物から神経データを収集することが難しいことです。スコット氏は、研究者が仮想マウスに実験室環境でより単純なタスクを完了させ、その神経活動パターンを実際の動物のそれと比較して、どの程度似ているか、あるいは異なるかを確認できるようになることを期待していると述べた。

<<: 数学をしっかり学べないMLエンジニアは優れたデータサイエンティストではない

>>: インテリジェントオートメーション: ロボティックプロセスオートメーションの未来