目標駆動型システムモデルは、人工汎用知能 (AGI) を実現するための鍵となるでしょうか?

人工知能の登場以来、研究者たちはロボットに人間とゲームをさせることで機械システムの知能をテストしようとしてきました。人間の知能の大きな特徴は、創造的に考える能力、つまり、幅広い可能性を考慮し、短期的な決定を下しながら長期的な目標を念頭に置く能力であると一般に信じられています。コンピュータが人間と同じように難しいゲームを解くことができれば、より複雑なタスクも確実に処理できるはずです。 1950 年代に登場した初期のチェッカーロボットから、ディープラーニングテクノロジーを搭載した今日の新しい AI に至るまで、インテリジェントシステムはチェス、囲碁、DOTA などのゲームで世界トップの人間プレイヤーに勝つことができました。この観点からすると、機械知能のレベルをパズルを解く能力だけで判断するという考えは時代遅れです。 AIの限界を測定するには、より信頼性の高い方法を見つける必要があります。

したがって、組織が AI ソリューションを開発する際に採用するコアモデルの 1 つは、目標駆動型システムモデルです。他の AI モデルと同様に、この形式の AI は、人間の認知能力を必要とするさまざまな一般的な問題を解決することができます。この特定のモードでは、マシンのタスクは非常に明確で、問題を解決するための最善の方法を見つけることです。問題は、迷路を通るスムーズな経路を見つけること、サプライチェーンを最適化すること、または運転ルートとアイドル時間を最適化することである可能性があります。実際の要件に関係なく、AI システムに対する私たちの期待は、試行錯誤を通じて学習し、問題を解決するための最善の方法 (たとえ直感的でなくても) を見つけることです。

強化学習と試行錯誤学習

強化学習は、あまり使用されていないものの、最も興味深い機械学習の形式の 1 つです。教師あり学習法（人間が最初にデータにラベルを付け、機械がラベル付けされたデータを使用して学習を完了する）や教師なし学習法（機械が自律的に情報をグループ化およびクラスタリングして学習を完了する）とは対照的に、強化学習は主に試行錯誤を通じて学習し、反復中に環境のフィードバックを全体的な目標と継続的に一致させて、最終的に理想的なパフォーマンスを実現します。

AI を使用しない場合、組織はソフトウェアおよびハードウェアシステムの操作をガイドする手順とルールに基づいてシステムを構築するために人間に依存する必要があります。手順とルールは資金、人員、時間、その他の種類のリソースを効果的に管理できますが、多くの場合、重大な脆弱性と厳格な制限があります。これらのシステムの能力の上限は、人間が設定したルールのレベルによって厳密に制限されています。言い換えれば、これらのマシンは実際にはまったく学習できず、システムの正常な動作を確保するために、人間の知性をルールの形で再解釈するだけです。

一方、目標学習型 AI システムではルールの数が非常に限られており、反復を通じてシステムが独立して動作する方法を学ぶことができます。これを基盤として、AI は人間が設定した脆弱なルールに頼ることなく、システム全体を完全に最適化することができます。目標駆動型システムはこの点でその価値を証明しており、極めて困難な問題における「隠れたルール」を完全に見つけ出し、効果的に解決できることを実証しています。このため、目標駆動型システムは、リソースの最適化が必要な領域で大きな力を発揮することができます。

AI テクノロジーは、シーンのシミュレーションとリソースの最適化を効果的に実現できます。この一般的なアプローチを学習に適用することで、AI システムが特定の目標やソリューションを最適化する方法を学習し、長年の経験を持つ熟練した人間の専門家でさえ発見するのが難しい多くのソリューションを見つけるように導くことができます。したがって、目標駆動型システムモデルは他のモデル (認識、予測分析、会話モデルなど) ほど普及していませんが、多くの業界で大きな発展の可能性を示しています。

金融分野では、強化学習に基づく目標駆動型システムも盛んに行われています。「ロボアドバイザー」を例に挙げてみましょう。このタイプのプログラムは自己学習を利用して、個人の特定のニーズを満たす幅広い貯蓄および投資プランを見つけ出します。目標駆動型システムモデルは、交通信号システムの制御や、交通流容量を最大化する制御方法の発見にも役立ちます。サプライチェーンや物流業界でも、商品を梱包して配送する最適な方法を見つけるためにこのようなシステムを使用しています。さらに、物理的なロボットをトレーニングし、ロボットに歩行やジャンプを指示できるアルゴリズムを作成することも、目標駆動型システムモデルにとって理想的なプラットフォームです。

目標駆動型システムは電子商取引や広告でも使用されており、顧客が製品の最良の価格を見つけられるように支援したり、広告表示エリアの見積もりを自動的に提供したりします。目標駆動型システムは、タンパク質の折り畳みを計算し、病気を発見する革新的な方法を見つけるために製薬業界でも使用されています。これらのシステムは、最適な試薬と反応パラメータを選択して目的の製品を設計できるため、非常に複雑な医薬品や治療プロセスにおける新たな資産となります。

目標駆動型システムモデルは、人工汎用知能 (AGI) を実現するための鍵となるのでしょうか?

試行錯誤は、ほぼすべての問題に適用できる、優れた実証済みの方法です。 DeepMind は機械知能の実現に取り組んでいる組織であることは特筆に値します。同局は、かつては機械では決して解決できないと考えられていたさまざまな困難な問題を首尾よく解決してきた。彼らの見解では、強化学習ベースの目標駆動型システムは、あらゆる知識を学習し、あらゆるタスクを完了できる機械という究極の形のロボットを実現する鍵となる可能性が高い。「汎用知能」の概念は人間の脳に似ています。つまり、人工汎用知能は、すでに存在する実際の AI システムのように狭い単一の学習タスクに限定されるのではなく、すべての知識を学習し、ある分野から別の分野に経験を転送することができ、その過程で多くの再トレーニングを行う必要はありません。

DeepMindは英国で設立され、2014年にGoogleに買収されました。彼らは、目標駆動型システムやその他の AI モデルが実現できる限界を押し広げ、最も複雑な機械知能の問題を解決したいと考えています。 DeepMind は、プロレベルの囲碁 AI システム AlphaGo の設計からスタートし、あらゆるゲームをゼロから学習し、平均的な人間をはるかに超える技術レベルをすぐに習得できる AlphaZero を迅速に開発しました。かつて、AlphaGo はゲームスキルの学習に数か月を要しましたが、現在では強化学習に基づく AlphaZero により、わずか数日で完了できます。 AlphaZero はゼロからスタートし、勝率の向上を唯一の目標として、100 回ものテストゲームで AlphaGo を破りました。

テクノロジー業界の人々が新たな成果を喜んで活用するのと同じように、DeepMind も新たな発見を実用的なアプリケーションに変えるために懸命に取り組んでいます。 AlphaZero は当時の最先端技術を使用して作成され、現在は神経科学や行動心理学などの分野の研究を進めるために使用されています。さらに、これらの技術を利用して、強力な汎用学習アルゴリズムを開発する人もいます。おそらく、数年後には、人工汎用知能の分野で真のブレークスルーが生まれ始めるでしょう。

人工知能業界全体にとって、機械学習は開発プロセスにおける岐路とみなすことができます。現在、最も広く使用されているアルゴリズムは、主に重要だが比較的単純な問題を解決することを担っています。機械は画像を認識し、音声を理解し、パターンを見つけ、異常を識別し、予測を行う能力を実証していますが、そのようなアルゴリズムがタスクを正確に実行するには、依然として大量のトレーニングデータと限定された学習タスクが必要です。この場合、機械学習には大量のデータとかなりの計算リソースが必要になります。解決したいタスクが複雑な場合は、PB またはそれ以上の規模のトレーニングデータを準備し、数十万ドルを投資して GPU を多用するコンピューティングリソースをレンタルし、数か月待つ必要があるかもしれません。このような力ずくの手段だけでは、汎用人工知能を実現することは決してできないことは明らかです。

目標駆動型システムモデルは、7 つの主要な主流 AI モデルの中で最も使用頻度が低いですが、データとコンピューティングの集中化の障壁を突破する可能性が最も高い鍵でもあります。幸いなことに、今日では、目標駆動型システムは実際のユースケースを持つプロジェクトで実装されることが増えています。明るい発展の見通しにより、最も興味深く期待されているモードの 1 つにもなっています。

<<: 人工知能の10の典型的な応用分野とその技術原理の詳細な説明

>>: Python 向け 5 つの強化学習フレームワーク