はじめに:強力な人工知能の開発は近年の関心事となっています。単にラベル付けされたデータではなく、人間の知覚や行動から AI が学習できるようにすることが、多くの研究者の焦点になっています。その中で、人間が獲得した日常生活の経験をどのように活用して、さまざまな環境に適応し、外界と相互作用できる人工知能の構築を促すかが、いくつかの分野における新たな探求の道となっている。 強化学習の父として知られるリチャード・サットンは最近、経験を活用して AI の開発に刺激を与えるというアイデアを提案しました。データの活用から経験の活用までのAIのプロセスを4つの発展段階に分け、今後の真のAI構築に向けた発展の方向性を提言した。 2022年5月31日、リチャード・サットンは2022年北京知源大会で「AIにおける感覚運動経験の役割の増大」と題する基調講演を行い、経験を活用してAIの発展を促す方法について総括し、展望を述べた。 講演者プロフィール:リチャード・サットンは、現代の計算強化学習の創始者の一人であり、DeepMind の著名な研究科学者、アルバータ大学コンピューターサイエンス学部の教授、英国王立協会、カナダ王立協会、人工知能推進協会、アルバータ機械知能研究所 (AMII)、CIFAR の研究者です。 01. 背景: 知能の発達における経験の重要性サットンは、インテリジェントエージェントが外界と対話し、外界にアクションを送信し、認識(フィードバックをもたらす)を受け取ると考えています。経験を伴うこのような相互作用は、強化学習における通常の認識方法です。これは、インテリジェントエージェントが外部の世界を予測しようとするときに採用する通常のアプローチです。ただし、このアプローチは、現在最も一般的なタイプの機械学習である教師あり学習では一般的ではありません。機械学習には日常的な経験は関係せず、モデルは通常の経験とは異なる特別なトレーニング データから学習することはありません。実際、実行時には、教師あり学習システムはまったく学習しません。 したがって、経験とは相互作用によってもたらされるデータであり、外界とのコミュニケーションの手段です。経験は、他の経験と結びついていなければ意味がありません。もちろん、例外が 1 つあります。それは、特別な信号によって示される報酬です。報酬は良い目標を表しており、エージェントは確かに報酬を最大化することを望んでいます。 サットン氏は演説の中で、「知性を究極的に説明できるものは何なのか?」という核心的な疑問を提起した。それらは客観的な用語ですか、それとも経験的な用語ですか?前者には、外部世界の状態、目標、人、場所、関係、空間、アクション、距離など、エージェント内にないものが含まれ、後者には、認識、アクション、報酬、時間ステップなど、エージェント内のものが含まれます。サットン氏は、研究者は通常、コミュニケーションや論文執筆の際に客観的な概念について考えるが、今後は外部世界とやりとりする過程でインテリジェントエージェントが生み出す経験にもっと注意を払うべきだと考えている。 リチャード・サットンは、知的エージェントにとっての経験の重要性をさらに説明するために、経験が徐々に重要になってくると、4 つの段階を経るという説を提唱しました。それらは、エージェント性、報酬、経験的状態、および予測的知識です。これら 4 つの開発段階を経て、AI は徐々に経験を積み、より実用的、学習可能、拡張しやすいものになります。 02. AI開発経験1. エージェントエージェントは経験を持つ/経験を獲得する AI です。驚くべきことに、初期の AI システムには実はまったく経験がありませんでした。人工知能開発の初期段階(1954 ~ 1985 年)では、ほとんどの AI システムは単に問題を解決したり質問に答えたりするために使用されており、認識やアクションはありませんでした。ロボットは例外ですが、従来のシステムには、下の図で積み重ねるブロックのように、開始状態と目標状態しかありません。 適切な目標状態に到達する必要がある場合、ソリューションは、AI が開始状態から目標状態に到達できるようにする一連のアクションです。ここでは認識も行動もありません。なぜなら、外部世界全体が既知であり、確実であり、閉じられているため、AI が認識して行動する必要がないからです。研究者は何が起こるかわかっているので、問題を解決するための計画を立てて、AIに実行させるだけで済みます。人間は、これで問題が解決することを知っています。 過去 30 年間の開発において、人工知能の研究はインテリジェント エージェントの構築に重点を置いてきました。この変化は、人工知能に関する標準的な教科書に、基礎としてインテリジェントエージェントの概念が含まれているという事実からもわかります。たとえば、1995 年版の『人工知能: 現代的アプローチ』では、この本の統一テーマはインテリジェント エージェントの概念の導入であると述べられています。この観点から見ると、AI の問題は、環境から認識を得て行動を起こすインテリジェント エージェントを記述および構築することです。研究が進むにつれて、外界と対話できるインテリジェントエージェントを構築することが標準的な現代的なアプローチになりました。サットン氏は、AI をこの観点から見ることができると考えています。 2. 報酬報酬は、AI の目標を経験の形で説明します。これは現在提案されている効果的な方法であり、AI のすべての目標を構築できます。これはサットン氏とその協力者によって提案されたアプローチでもあります。 報酬は現時点では比較的十分な仮説であると考えられており、知性やそれに関連する能力は報酬を最大化するために役立つ結果として理解することができます。したがって、エージェントにとって報酬は十分であるという議論があります。 しかし、サットン氏は、この考え方に異議を唱える必要があると考えています。報酬だけでは知性を獲得するには不十分です。報酬は単なる数字、スカラーであり、知性の目標を説明するには不十分です。心の外から生まれ、単一の数字だけで表現される目標は、(人間の目標に対して)小さすぎ、単純すぎ、さらには屈辱的すぎるように思えます。人間は、家族の世話をしたり、世界を救うこと、世界平和、世界をより良い場所にすることなど、自分の目標をもっと大きなものとして想像したがります。人間の目標は、幸福と快適さを最大化することよりも重要です。 研究者たちは、報酬は目標を構築する方法としては不適切であることを発見したのと同様に、報酬を通じて目標を構築することにも利点があることを発見しました。小さすぎるが、人々が進歩できる目標、つまり、明確に定義され、習得しやすい目標を設定することに対する報酬。これは経験を通じて目標を構築するという課題です。 サットンは、経験を通じて適切に構築された目標を想像するのは難しいと主張しています。歴史を振り返ると、AI はもともと報酬に興味がなかったことがわかります。これは現在でも同様です。したがって、初期の問題解決システムであれ、AI の教科書の最新版であれ、目標は経験的にではなく、達成する必要のある世界の状態として定義されます。この目標は、達成する必要がある認識された成果ではなく、特定の一連の「構成要素」である可能性があります。 もちろん、最新の教科書にはすでに強化学習に関する章があり、これらの AI は報酬メカニズムを使用することが言及されています。さらに、目標を構築する際には報酬が一般的な方法であり、マルコフ決定プロセスを使用して実装できます。報酬だけでは目標を設定するのに十分ではないと批判する研究者(ヤン・ルカンなど)にとって、報酬は知能ケーキの上の飾りであり、重要なものである。 次の 2 つのステージでは、サットンは経験的観点から外部世界を理解する方法を紹介しますが、その前に、まず経験とは何を指すのかを紹介します。 3. 幕間: 経験とは何か?以下のシーケンス(実際のデータではありません)に示すように、タイム ステップが開始されると、システムは認識信号を取得し、信号とアクションも送信します。つまり、感覚信号が何らかの動作を引き起こし、その動作が次の感覚信号を引き起こす可能性があるのです。システムは、次に何が起こるか、何をすべきかを決定するために、常に最近のアクションと最近の信号に注意を払う必要があります。 図に示すように、これはエージェントがプログラムを実行するための入力信号と出力信号の配列です。最初の列は時間ステップであり、各ステップは 0.1 秒または 0.01 秒の瞬間として考えることができます。アクション信号列では、グレーと白で表される 2 レベル システムが使用されます。次は知覚信号列です。最初の 4 つの列はバイナリ値 (グレーと白も使用) で、次の 4 つの列は 0 ~ 3 の 4 つの値を使用し、赤、黄、青、緑の 4 色で表されます。最後の列は連続変数で、報酬を表します。実験では、研究者たちは数字を削除し、色だけを残してパターンを見つけようとした。サットンは、経験とは、感覚運動経験のデータに見られるパターンから生成される知識と理解を指すと考えています。 この場合、サットンは 4 つの典型的なパターンを挙げました。 1. アクションの最後の部分は、それに続く知覚信号と同じです。あるタイムステップでのアクションが白の場合、その後の最初の感覚信号も白になり、灰色の場合はその逆になります。 2. 赤いピクセルが表示されたら、次のタイムステップは緑のピクセルになります。データ範囲を拡大すると、赤と緑のピクセルが連続して表示された後、1 つのタイム ステップ後に青のピクセルが表示されることがわかります。 3. データの最後の 3 列には、多くの場合、同じ色で変更されない長い文字列が含まれます。一度色が出始めると、その色は複数の期間にわたって続き、最終的に縞模様を形成します。たとえば、赤、緑、青などの非常に長い文字列など。 4. AI によって予測された特定の知覚データを表示する場合、すぐには観察できないことが多いため、このデータに戻り値が追加され、今後の報酬の予測が表されます。ボックス内の緑のストライプは、その後の報酬に赤よりも緑が多く含まれることを表しています。これは報酬の現在の予測を表します。 特別な網掛け部分は待機機能を示します。待機機能では、網掛け部分に緑と赤の縞模様が表示されます。ここで、研究者は、より早く返された色の報酬に高い重みを与えます。戻り値が時間の経過とともに変化すると、予測された結果と実際の報酬の間で対応する色と値の変化を確認できます。この戻り値は予測であり、経験から学習できます。 サットンは、この戻り値は本質的にはすでに発生したイベントから学習されるのではなく、むしろ時間差信号から学習されるものだと考えています。最も重要なシグナルは価値関数です。この場合、戻り値は実際には将来の報酬の合計を表す値関数です。将来の値を参照できる一般的な複雑な関数が必要な場合は、一般値関数 (GVF) と呼ばれる方法を使用できます。一般的な価値関数には、報酬だけでなくさまざまなシグナルが含まれます。また、指数関数だけでなく、任意の時間エンベロープにすることもできます。一般的な価値関数には、任意のキューの戦略も含まれ、非常に多くの、広範囲の事柄を予測できます。もちろん、サットンは、計算による予測の難しさは、予測される物体の形状に依存すると考えています。予測に一般的な価値関数を使用する場合、予測されるオブジェクトの表現は、学習しやすく、高い計算効率を必要とするように設計する必要があります。 4. 経験的状態「状態」という言葉に言及する場合、多くの研究者は、客観的概念に属する用語である世界状態を参照します。国家とは、世界自体の状況に合致する客観的世界の象徴的な記述(反映)を指します。例えば、積み木の位置情報(CはAの上にある)など。最近では、一部の研究者(Judea Pearl など)が、世界状態の確率分布を表す確率グラフィカル モデルを提案しています。 「外は雨が降っていますが、芝生は濡れていますか?」などの一部のイベントには、それらの間に確率的な関係があります。 もう一つの状態は信念状態です。この概念では、状態は離散世界の状態を表す確率分布です。対応する方法は POMDP (部分観測可能なマルコフ決定プロセス) と呼ばれます。隠れた状態変数があり、その一部は観測可能で、マルコフ決定プロセスを使用してモデル化できます。 上記の方法はすべて経験からかけ離れた客観的な状態であり、研究者が最初に世界の状態を説明しようとする際に使用する方法です。 これと異なるのは経験の状態です。サットンは、経験的状態とは、経験の観点から定義される世界全体の状態を指すと考えています。経験の状態は過去の経験の要約であり、将来の経験を予測し、制御することができます。 過去の経験を構築し、未来を予測するというこのアプローチは、研究に反映されてきました。たとえば、強化学習タスクの 1 つである Atari ゲームでは、研究者はビデオの最後の 4 フレームを使用して体験状態を構築し、その後の動作を予測します。 LSTM ネットワークの一部の方法は、何らかの経験的状態から予測を行うものと考えることもできます。 経験状態を振り返ると、再帰的に更新することができます。経験状態は、過去のすべてのイベントを要約する機能です。AI は次に何が起こるかを予測するために、あらゆる瞬間に経験状態にアクセスする必要があるため、経験状態の更新は再帰的です。現在の瞬間は前の瞬間の経験状態にのみアクセスし、前の瞬間の経験状態は過去に発生したすべてのイベントの要約です。次の瞬間には、その瞬間の体験状態のみにアクセスされ、この体験状態は過去に発生したすべてのイベントの要約でもあります。 次の図は、エージェントの経験状態の構築プロセスを示しています。このうち、赤い矢印は、感覚、アクション、報酬など、インテリジェント エージェントの基本的な動作信号を示しています。青い矢印は、知覚からの出力であり、各タイムステップで経験状態を更新する役割を担う経験状態 (表現) の方向を示します。更新されたステータスは、アクションの戦略を立てたり、その他の更新を行うために使用されます。 5. 予測的知識「ジョー・バイデンはアメリカ合衆国大統領である」や「エッフェル塔はパリにある」といった知識は、外部の客観的世界の説明であり、経験的なものではありません。しかし、「何かをするのにX時間かかると見積もられる」といった知識は経験的知識です。経験的知識と客観的知識の間には大きな差があり、これは AI 研究の難しい点でもあります。 これまでの AI 研究では、知識を客観的な用語として扱う傾向がありましたが、最近のいくつかの研究では、問題を経験的観点から検討しています。初期の AI システムには経験がなく、予測を行うことができませんでした。より現代的な AI は知識を客観的な存在として捉えます。より高度なのは確率的グラフィカル モデルですが、多くの場合、予測は一連の連続したイベントに対して行う必要があるのに対し、同時に発生する 2 つの事象間の確率を調査します。 シーケンス イベントに基づく予測は、明確な意味特性を持つ知識です。何かが起こると予測された場合、AI はその予測と実際の結果を比較できます。この予測モデルは、新しい種類の世界知識、つまり予測知識として考えることができます。サットン氏は、予測知識の中で最も最先端のものは一般価値関数とオプションモデルであると考えています。 サットンは世界知識を 2 つのカテゴリーに分類しています。1 つは世界の状態に関する知識であり、もう 1 つは世界の状態の遷移に関する知識です。世界の状態遷移に関する知識の一例としては、世界予測モデルが挙げられます。ここでの世界予測モデルは、マルコフ決定過程や差分方程式の基本的な形式ではありません。それは経験的状態から抽出できる抽象的な状態である可能性があります。予測は全体の動作に条件付きであるため、選択モデルでは、エージェントは戦略を停止して条件を終了することも選択できます。メロディーの伝達モデルを利用することで、あるアクションを実行した後の状態を予測できる場合もあります。日常生活を例にとると、街に行きたい場合、その人は街の中心部までの距離と時間を予測します。一定の閾値を超える行動(街まで10分歩くなど)については、疲労などの状態をさらに予測します。 動作を拡張できるこのモデルでは、表現される知識の規模も非常に大きくなります。たとえば、あるアクションに基づいて世界の状態を予測し、その状態に基づいて次のアクションを予測する、といったことが可能です。 サットン氏は、AI研究における経験の発展を総括し、経験は世界知識の基礎であると述べた。人間は知覚と行動を通じて自ら世界を理解し、影響を与えている。経験は人間が情報を得て行動を起こす唯一の方法であり、人間にとって欠かせないものである。残念なことに、経験はあまりにも主観的で個人的なものであるため、人間は依然として経験的な方法で考えたり表現したりすることを好みません。人間にとって、経験はあまりにも奇妙で、直感に反し、つかの間で、複雑です。経験も主観的かつ個人的なものであり、他の人に伝えたり検証したりすることはほぼ不可能です。 サットン氏は、いくつかの理由から AI にとって経験が重要であると考えています。まず、経験は AI の日常的な運用プロセスから得られるものであり、この経験の取得はコストがかからず、自動的に行われます。同時に、AI分野には計算のための大量のデータがあるため、経験は世界を理解するための道を提供します。世界の事実が経験的であれば、AIは経験から世界について学び、経験で検証することができます。 まとめると、サットン氏は、過去 70 年間の AI 開発において、AI は徐々に経験、つまり経験を積むこと、経験に基づいて目標を設定すること、そして経験に基づいて地位と知識を得ることを重視するようになったと考えています。各段階で、人間にとってより馴染みのない実証的な研究がますます重要になってきており、根拠があり、学習可能で、拡張可能であるという利点があります。 03. AIは将来、経験をどう活用するのかサットン氏は、AI は経験の活用という点では第 3 段階と第 4 段階をまだ完了していないが、この傾向は今後さらに進むだろうと考えています。サットン氏は、すべてを経験に帰することが真の AI への実行可能な道であると信じています。非常に困難ではありますが、これはデータフローを理解してインテリジェンスを実現できることを示しています。最後に、サットン氏は感覚運動経験を重視する 4 つの段階をさらに凝縮して、次のようなスローガンを掲げました。 「データが人工知能を動かし、経験こそが究極のデータです。経験をうまく活用できれば、人工知能の開発をより迅速かつ強力に推進することができます。」 |
<<: 5G と AI のユースケース - 5G が人工知能の実装にどのように役立つか
>>: ザッカーバーグの最新VRプロトタイプが登場。仮想と現実を混同させるようなものだ
昨日、北京のマイクロソフトビルでSmarterが開催されました。カンファレンスのテーマは「インテリジ...
ディープラーニング (DL) は、再帰型ニューラル ネットワーク、長期短期記憶、畳み込みニューラル ...
ChatGPT にチップを渡す「ふり」をすると、ChatGPT の働きが悪くなることを知らない人が...
今回の流行期間中、病院や最前線の防疫現場では、体温測定ロボット、消毒ロボット、検査ロボット、咽頭ぬぐ...
機械学習開発者にとってアプリを構築するのはどれくらい難しいのでしょうか?実際、Python コードを...
[[403922]]漫画 孟賢東インターネットの急速な発展に伴い、顔認識技術は生活のあらゆる場所に応...
Meta は無料の商用バージョンである Llama 2 をリリースし、ネットワーク全体を席巻しました...
Dropbox のエンジニアたちは世界をより良い場所にするために取り組んでおり、HBO のコメディー...
[[218374]]今年、AIによる意思決定はより透明化されるでしょうか?現在、IT ビジネスで A...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
マシンビジョン技術には、コンピューターサイエンス、人工知能、信号処理、画像処理、機械学習、光学、自動...