ディープラーニングと比較すると、この新しいアルゴリズムの方が優れているようですね？

ニューラルネットワークアルゴリズムと機械学習における人類の現在の成果に基づくと、コンピューターサイエンスにはこれら 2 つの部分だけが含まれるという幻想を抱きがちです。結局のところ、ニューラルネットワークアルゴリズムは、顔認識、チェス、さまざまなアーケードゲーム競技において人間を上回る成績を上げ始めています。

これらのネットワークアルゴリズムは人間の思考パターンに基づいているため、これ以上の可能性を秘めたものはないと思われます。しかし、これは本当にそうなのでしょうか?

答えは「必ずしもそうではない」です。まったく新しいアルゴリズムは、ディープラーニングやニューラルネットワークに比べてさらに明らかな利点を持っています。このアルゴリズムは、人間の脳を創造したのと同じ方法、つまり進化に基づいています。

つまり、人間は一連の反復と選択を通じて創造され、目、耳、脳などの洗練された道具を生み出したのであり、これは進化の力を示すのに十分です。

だからこそ、コンピューター科学者たちは長い間この能力を活用しようとしてきたし、いわゆる進化型アルゴリズムが企業の生産ラインを最適化するために初めて使われて以来 30 年間にわたり驚異的な成果を上げてきたのだ。

しかし、近年のディープラーニング技術の急速な発展により、このアルゴリズムは後回しにせざるを得なくなりました。

現在、フランスのトゥールーズ大学のデニス・ウィルソン氏と他の同僚たちの共同の努力により、この状況は逆転したようだ。2013年、彼らは画期的なタスクを完了し、進化型アルゴリズムがディープラーニングとさえ競合できることを証明した。進化型アルゴリズムは、ポン、ブレイクアウト、スペースインベーダーなどのアーケードゲームで人間を上回り、無限の可能性を示した。

進化型アルゴリズムはニューラルネットワークとはまったく異なる動作をし、一見すると直感に反する方法で特定の問題を解決するコンピューターコードを作成します。

その理由は、従来のコード作成は特定の目標を念頭に置いて基本原則に従ってコンパイルされるのに対し、進化的アルゴリズムは完全にランダムに生成されたコードから始まり、1 つのバージョンだけではなく、多数のバージョン、さらには数十万のコードフラグメントが組み立てられるためです。

各コードは、ターゲット要件を満たしているかどうかをテストされます。もちろん、ランダムな組み合わせのため、結果が理想的でない可能性があります。

しかし、あるコードが他のコードよりも優れていることが判明すると、それらの断片は新しい世代のコードに再現され、優れたコードのコピーがさらに多く含まれるようになります。

しかし、次世代のコードは、前のコードとまったく同じコピーにはなり得ず、変更される必要がある。変更には、コードの 2 つの部分を切り替える点突然変異が含まれる。あるいは、性的組み換えのように、コードの 2 つの半分を切り取って互いに入れ替える必要がある場合もある。

その後、新しい世代でテストを継続し、次の世代に表示される高品質のコードを選択します。

このようにして、コードは進化します。時間が経つにつれて、これらのコードはどんどん良くなり、正しい方向から外れなければ、最終的には人間が設計したコードよりも完璧になります。

コンピュータ科学者は、ロボットの製造から航空機器の製造まで、さまざまな問題に進化型アルゴリズムを適用することに成功しています。

しかし、ディープラーニングアルゴリズムの流行により、人気が落ちてしまいました。そこで、考えてみる価値のある疑問が浮かび上がります。進化型アルゴリズムはディープラーニングと競合できるのでしょうか?それを知るために、ウィルソン氏と彼の同僚はこのアプローチを使用して、1980年代と1990年代のアーケードゲームを制御するコードを進化させました。

これらのアーケードゲームは、さまざまなアルゴリズムの学習機能をテストするためにますます使用されている Arcade Learning Environment データベースで利用できます。データベースには、Pong、Breakout、Space Invaders など 61 個の Atari ゲームが含まれています。

この方法の目的は、普通の人がゲームをプレイするのと同じように、画面の表示を観察するだけで Pong のようなゲームをプレイできるコードを作成することです。これを実現するには、アルゴリズムがゲームの位置を注意深く分析し、動きを最適化して高得点を目指せる必要があります。

もちろん、これはどのゲームのコントロールにも当てはまります。まず、8 つの方向ボタン (上、下、左、右、および 4 つの斜め方向) を適切に制御し、次にそれらをさまざまな攻撃ボタンと組み合わせる必要がありますが、すべてのゲームに 18 個の組み合わせがあるわけではなく、4 つしかないゲームもあります。

この研究を完了するには、まずコードを作成する必要があります。進化的アルゴリズムには、コンピュータコードを形成するためにリンクできる一連の命令が必要です。これらの命令は、ADD(x+y)/2 のような単純な命令から、「x がスカラーの場合は、1 要素の x ベクトルを返す」などのより複雑な命令まで多岐にわたります。各命令は、進化的アルゴリズムの演算子または遺伝子です。

もちろん、この命令セット内の命令の選択は非常に重要であり、ウィルソン氏とその同僚は、カルテシアン遺伝的プログラミング用に開発されたセットを選択しました。

プログラムは、40 個の命令からなるコード（プログラムの「ゲノム」）をランダムに作成することから始まり、ゲーム内のテストでゲノムがどの程度の得点をあげたかに基づいてパフォーマンスが評価されます。その後、ゲノムはパフォーマンスに基づいて変異され、再作成され、次のテストに追加されます。研究チームはこの方法で1万個のゲノムをテストした。

テスト結果は非常に興味深いものでした。最初はゲノムのゲーム内でのパフォーマンスが非常に悪かったのですが、再生を続けるにつれて能力が急上昇し、最終的には通常の人間よりも優れたパフォーマンスを発揮しました。

ほとんどのゲノムは新しく複雑なゲームをプレイするための戦略を開発していますが、人間が簡単に見落としてしまうような問題を発見することもあります。

たとえば、「カンフーマスター」をプレイする場合、進化的アルゴリズムは、しゃがんだ状態でのパンチが最も効率的なアクションであることを発見しました。しゃがんだ状態が最も安全であり、弾丸の半分をブロックし、近くのターゲットに簡単に攻撃を仕掛けることができるためです。その後、アルゴリズムは他のアクションなしでしゃがみパンチを繰り返します。事実はこれが確かに効果的であることを証明しています。

ウィルソン氏と他の研究者たちはこの発見に驚いた。「この戦略は通常のプレイよりも高いスコアにつながりますが、平均的な人は特別な状況でのみしゃがみパンチを使用します。」

もちろん、この進化型アルゴリズムは他のゲームでも非常に優れたパフォーマンスを発揮し、ディープラーニングアルゴリズムを上回ります。もう 1 つの利点は、進化型アルゴリズムは比較的小規模であるため、その動作を簡単に検出できることです。一方、ディープラーニングアルゴリズムは、特定の結果が生成される理由を把握するのが非常に難しいことで知られており、それが法的な紛争につながりやすい場合があります。

つまり、この研究は興味深いだけでなく、進化的アルゴリズムが多様な応用シナリオを持つ強力な代替アルゴリズムであることをコンピューター科学者に思い出させ、それを見逃すのは残念かもしれないということも思い出させます。結局のところ、一部の研究者はこれをディープラーニングの反復に使用しており、大きな可能性を秘めていると言わざるを得ません。

オリジナルリンク: www.technologyreview.com

<<: オープンソースの人工知能アルゴリズム新しいスーパーピクセルサンプリング、ネットワーク深層特徴推定スーパーピクセル

>>: 機械は学習できますが、ニューラルネットワークはまだ実行できませんか?これらの提案をチェックしてください