Google と OpenAI の新しい研究: ダーウィンの進化論を人工知能アルゴリズムの設計にどのように活用するか?

Google と OpenAI の新しい研究: ダーウィンの進化論を人工知能アルゴリズムの設計にどのように活用するか?

現代の機械知能は自然を模倣することに基づいています。この分野の主な目標は、人間が生物学的に持つ強力な意思決定能力をコンピューターで再現することです。

[[193635]]

30年間の開発でいくつかの優れた成果が生まれ、脳にヒントを得たAI技術の進歩のほとんどは「ニューラルネットワーク」を中心に展開されています。これは神経生物学から借用した用語で、機械の思考をニューロンと呼ばれる相互接続された数学的関数を通るデータの流れとして表現するものです。しかし、自然には他にも良いアイデアがある。コンピューター科学者たちは現在、生物進化の研究に再び参入し、数十億年かけて生物進化が人間の脳を形成したのと同じように、生物進化の要素を人工知能に組み込むことで、よりスマートで効果的なアルゴリズムを開発したいと考えている。

しかし、まずは高校の生物学の教科書に戻りましょう。簡単に言えば、進化の概念は、生物のゲノムのランダムな変化が、その生物の生存に利点や欠点をもたらす可能性があるというものです。この考えはチャールズ・ダーウィンによって最初に提唱され、その後の世代によって継続的に改良されてきました。生物の遺伝子変異によって生物が生き残り、繁殖できる場合、その変異は受け継がれます。そうでない場合、その変異は生物とともに死滅します。アルゴリズムの世界では、これをニューロ進化と呼びます。人工ニューラル ネットワークは、生物が単一の概念を学習するプロセスを再現するように設計されており、一方、神経進化は、最も適応力のある (強い、または賢い) ものが生き残るプロセスである脳の構築プロセスの一部を再現しようとします。

神経進化は 1980 年代から存在していましたが、研究者が機械学習のさまざまな観点から研究するにつれて、新たな注目を集めています。先月、Google Brainと非営利団体OpenAIはそれぞれ、神経進化をテーマにした未審査の論文を発表した。Googleの論文は神経進化の原理を画像認識に応用することに関するもので、OpenAIの論文は、ワーカーアルゴリズムを使用してマスターアルゴリズムがタスクの実装を学習できるようにする最良の方法に関するものだった。

すでに複雑な人工知能研究の分野に生物進化の考え方を導入することは、必ず混乱を招きます。したがって、パズルを解きたい場合には、アルゴリズムを馬として考えてください。馬は生涯を通じて学習しますが、走るスピードなど、いくつかの異なる基準に基づいてのみ進化します。画像認識の精度を得るのは難しくありません。それは、馬が一周するのにかかる時間と同じように、単なる数値です。しかし、馬を実際に速く走らせるものは非常に複雑で、筋肉を成長させ、より長く走り、さらには考える能力を与える DNA に基づく広大なネットワークです。この複雑さは、アルゴリズムの基礎となるパラメータ、つまり画像認識アルゴリズムのパフォーマンスがどの程度優れているか (または劣っているか) を反映しています。この記事のどこかで行き詰まったら、深呼吸して馬を想像してください (これも良い人生のアドバイスです)。

この研究のために、Google チームは、特定の画像セットを認識するために最新のディープ ニューラル ネットワークを使用してトレーニングされた 1,000 個の画像認識アルゴリズムを生成しました。その後、250 台のコンピューターのそれぞれが 2 つのアルゴリズムを選択し、画像認識タスクを実行してアルゴリズムの精度をテストしました。精度の高いアルゴリズムは保持され、パフォーマンスの悪いアルゴリズムは削除されます。残りのアルゴリズムはコピーされ、人間の DNA が生殖中にランダムに変化するのと同じように、わずかに変化したクローン (または「子供」) が生成されます。しかし、今回の突然変異は青い目や赤い髪を変えるものではなく、新しいアルゴリズムがトレーニング データを解釈する方法を変えたのです。次に、親アルゴリズムのトレーニングに使用されたのと同じデータを使用してクローン アルゴリズムをトレーニングし、クローン アルゴリズムを 1,000 個のアルゴリズムに戻して、プロセスを再度開始します。

Google の研究者は、神経進化を利用して 94.6% の精度を持つアルゴリズムを開発し、4 回の繰り返し実験で同様の (ただしまったく同じではない) 結果を達成しました。アルゴリズムの画像認識スキルを向上させる突然変異は保持され (つまり、これらのアルゴリズムは存続します)、アルゴリズムのパフォーマンスを低下させる突然変異は排除されます。自然界で起きるのと同じこと。

Google が実施した 5 つの実験間の違いも、進行中の問題を示唆しています。グーグルの研究員で論文の共著者でもあるエステバン・リアル氏は、アルゴリズムは実行の途中で行き詰まることが多く、進化を続けるべきか、それとも変異をやめて最初からやり直すべきか確信が持てないようだと述べた。リアル氏は、自然界における翼の進化がこの状況に似ていると語る。片方の翼ではあまり役に立たないが、一対の翼があれば飛べるのだ。

現在、Google チームは進化モデルをより包括的なものにして、一対の翼を構築するためにさまざまな突然変異を調査することに取り組んでいます。しかし、これは少し難しいです。チームは、無駄な余分なコードを大量に取得しないように、アルゴリズムが限定的に変化することだけを望んでいます。 「最悪のシナリオは、シングルウィングが多数出現することだ」とレアルは説明した。

Google は主に画像認識に焦点を当てることで、生物学的脳が得意とする問題を解決する神経進化の能力だけでなく、現代の問題を解決する能力もテストしています。一方、OpenAI は、より純粋な形の進化を利用して、別のタスクに取り組みました。

OpenAI は、1 つのことの精度を上げるために何千ものアルゴリズムをトレーニングするのではなく、「ワーカー」アルゴリズムを使用してマスター アルゴリズムをトレーニングし、ビデオ ゲームをプレイしたり、3D シミュレーター内を歩いたりするなど、未知のタスクを完了できるようにしたいと考えています。この技術は機械に意思決定の方法を教えるための主な方法ではないが、特定の知識をより効率的に学習するように教える方法だと、OpenAIの研究者で論文の共著者であるティム・サリマンズ氏は説明した。この進化的アルゴリズムは、ワーカーがどのように学習するかを監視し、本質的には学習すること、つまり同じ量のデータからより多くの知識を抽出することを学習します。

OpenAI チームは研究のために、1,440 個のワーカー アルゴリズムを Atari ゲームをプレイするように設定しました。これらのワーカーはゲームオーバーになるまでプレイを続け、その後ワーカー アルゴリズムはスコアをメイン アルゴリズムに報告します。最高のスコアを生成するアルゴリズムがコピーされ(Google の調査のように)、コピーはランダムに変化します。変異したワーカーは上記のプロセスを繰り返します。有益な変異には報酬が与えられ、悪い変異は排除されます。

このアプローチには制限があり、主な制限は、ワーカー アルゴリズムがメイン アルゴリズムに単一の値 (ハイスコア) のみを返すことです。最高スコアのアルゴリズムは残りますが、メインアルゴリズムが明らかに成功したアクション (移動) を認識するには、大量の計算能力が必要になります。 (生物学における蟻のコロニーに例えることができます。働き蟻は最善の解決策を探しに出かけ、女王蟻は情報センターです。) 言い換えれば、OpenAI が学習するのは主に成功に関することであり、その他の細かい点についてはほとんど学習しません。

1980 年代には、神経進化とニューラル ネットワークの研究分野はほぼ同じ規模でした。セントラルカリフォルニア大学の准教授であり、Uber の AI チームのメンバーでもあるケネス・スタンリー氏 (Uber はスタンリー氏が共同設立した Geometric Intelligence を買収) は、次のように述べています。

自然界における知性の概念の唯一の証拠である脳がどのようにしてこの世に現れたのかを考えた人はほとんどいません。おそらく知能を生み出す最も直接的な方法は、コンピューターに進化論的、ダーウィン的プロセスを作り出し、それを小さな人工脳に変えることだろうと考える人もいる。

ニューラル ネットワークの台頭は 3 人のコンピューター科学者から始まりました。 1986 年、David Rumelhart、Geoffrey Hinton、Ronald Williams は、「誤差逆伝播による表現の学習」と題する論文を発表し、ネットワークの誤りからの学習能力を高めることができるバックプロパゲーションと呼ばれるアルゴリズムについて説明しました。この研究により、手動で設計されたニューラルネットワークの効率は大幅に向上したが、AI技術の進歩不足により研究資金が削減される「AIの冬」が迫っていたため、さらなる開発は抑制された。 Hinton らによる後の論文によってニューラル ネットワークが魅力的すぎると示されて初めて、コンピューター サイエンス コミュニティ全体が抵抗を放棄しました。彼らの研究によると、バックプロパゲーションによってニューラル ネットワークは驚異的な成長を達成でき、その結果、ニューラル ネットワークははるかに複雑な概念を理解できるようになるそうです。このタイプのネットワークは「ディープ」、つまり「ディープニューラルネットワーク」と呼ばれ、現在利用可能な最も高度な人工知能技術に発展しました。

「つまり、脳の進化と類似した神経進化の流れについての理解にはギャップがあるのです」とスタンリー氏は言う。

2002年、スタンリーはキャリアを始めたばかりの頃、ニューラル ネットワークを時間の経過とともにより大規模で複雑なバージョンに進化させることができる NEAT アルゴリズムを作成しました。 Google Scholar のデータによると、彼の論文「トポロジーの拡張によるニューラル ネットワークの進化」は少なくとも 1,600 回引用されており、出版以来、ディープ ニューラル ネットワークの設計とニューラル進化に関する研究で継続的に引用されています。 2006 年、スタンレーは、より大規模な神経進化を実現できる Hyper-NEAT と呼ばれるアルゴリズムを発表しました。このアルゴリズムは DNA のコーディング能力にヒントを得たもので、DNA は数兆の接続を持つ数十億の生物学的ニューロンをコード化するのに約 30,000 個の遺伝子しか必要としません。 (Hyper-NEAT は、Hypercube-based NeuroEvolution of Augmenting Topologies の略です。) 今日、スタンリー氏は、自分の研究が時代の最前線に戻ってきたことを嬉しく思っていると言います。

スタンリー氏と同様に、OpenAI と Google はこの分野における 2 つの異なる考え方に取り組んでいます。 Google のハイブリッド アプローチは、古典的なニューロ進化とバックプロパゲーションなどの技術を組み合わせて、現在非常に強力なディープラーニングを実現します。つまり、アルゴリズムに世界でどのように行動するかを教え、それを進化させると、アルゴリズムの「子」が蓄積された知識の大部分を持つことになります。 OpenAI のアプローチは、生物の進化の仕組みに似ています。研究チームは、ネットワークがどのように改善するか、あるいは失敗するかを決定するために、各世代でランダムな突然変異のみを許可した。つまり、その改善は完全にランダムな進化によって生み出されたということだ。どちらの研究も、画像を認識することやゲームで高得点を達成すること(つまり、馬をより速く走らせること)など、非常に具体的な目標がありました。アルゴリズムがどのように目標を達成するかは運命次第です。

Google と OpenAI による 2 つの調査の概要は次のとおりです。

Google 論文: 画像分類器の大規模な進化

リンク: https://arxiv.org/abs/1703.01041

ニューラル ネットワークは難しい問題を解決するのに効果的であることが証明されていますが、単一の画像分類問題であっても、そのアーキテクチャを設計するのは非常に難しい場合があります。進化アルゴリズムは、これらのネットワークを自動的に検出するために使用できる手法です。進化型モデルには多大な計算要件があるにもかかわらず、私たちの研究は、大規模な手動で設計されたアーキテクチャに匹敵する進化型モデルを今日実装することが可能だということを示しています。私たちは、最先端のスケールでシンプルな進化的手法を使用し、単純な初期条件から始めて、CIFAR-10 および CIFAR-100 データセットのモデルを発見します。この目標を達成するために、大規模な検索空間で方向を見つけることができる、新しく直感的な突然変異演算子を使用します。強調しておきたいのは、進化が始まると、もはや人間の関与は必要なくなり、完全に訓練されたモデルが出力されるということです。この研究では、結果の再現性、出力の変動性、計算要件に特に重点を置いています。

OpenAI 論文: 強化学習のスケーラブルな代替手段としての進化戦略

リンク: https://arxiv.org/abs/1703.03864

Q 学習やポリシー勾配などの一般的な強化学習方法の代替として使用できるブラックボックス最適化アルゴリズムのクラスである進化戦略 (ES) の使用を検討します。 MuJoCo と Atari での実験では、ES が複数の利用可能な CPU に適切に拡張できる実行可能なソリューション戦略であることが示されています。数百から数千の並列ワーカーを使用して、ES は 3D ヒューマノイドの歩行問題を 10 分で解決でき、1 時間のトレーニング後にはほとんどの Atari ゲームで競争力のある結果を達成できます。さらに、ブラックボックス最適化手法としての ES のいくつかの利点を強調します。アクションの頻度や遅延報酬の影響を受けず、非常に長い時間に対応でき、時間割引や価値関数の近似を必要としません。

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  データサイエンティストが最もよく使用するデータマイニングアルゴリズム10選

>>:  人工知能は真のスマートホームを実現できるのか?

ブログ    

推薦する

自動運転システムにおけるエッジコンピューティング技術

エッジ コンピューティングは、ネットワークのエッジでコンピューティングを実行する新しいコンピューティ...

平均年収35万元、2018年のビッグデータAIの発展動向分析

近年、ビッグデータは非常に人気があり、特に2017年には、ビッグデータ産業の発展が政府活動報告に記載...

大規模モデルにAI管理ルールを組み込む時代が到来

中国サイバースペース管理局と他の7つの部門が共同で発行した「生成人工知能サービスの管理に関する暫定措...

ツール・ド・フランスがChatGPTとデジタルツイン技術を導入

6月30日のニュースによると、ツール・ド・フランスは世界で最も権威のある自転車レースの一つで、毎年何...

自然言語処理のためのオープンソースツール12選

[[316046]]独自の NLP アプリケーションで使用できる 12 個のツールを見てみましょう。...

...

...

...

北京冬季オリンピックと人工知能が出会うと、どんな火花が散るのでしょうか?

2008年、北京オリンピックのテクノロジーと壮大な雰囲気は世界に深い印象を残しました。 2022年...

...

8年が経ちました。Googleが中国に戻るという噂は本当でしょうか?

[51CTO.com オリジナル記事] Google の中国復帰について新たな声が上がっている。最...

人工知能の導入は、より費用対効果の高い臨床試験の新しい時代を告げるだろう

臨床試験はここ数年で大きく変化しました。医薬品や医療機器、そしてそれらが影響を与える対象となる症状が...

純粋な MLP は下流のタスクには適していませんか? Meta AIらは、トランスフォーマーを上回るスパースMLPを提案した。

注意ベースのモデルの代替として、純粋な MLP アーキテクチャがますます注目を集めています。 NLP...

...