人類は最初の AGI の出現にますます近づいています。 最近のインタビューで、DeepMindの共同設立者であり主任AGI科学者のShane Legg氏は、2028年までに人類が最初のAGIを開発する可能性は50%あると考えている。 そしてちょうど今日、彼が率いるDeepMindの研究チームがArxivに論文を発表し、AGIのロードマップとタイムテーブルを直接公開しました。 論文アドレス: https://arxiv.org/abs/2311.02462 論文のテーマは非常に広範で空虚に思えるが、ネットユーザーは、この記事が AGI を非常にうまく定義しており、将来的にさまざまな無関係な議論を避けることができると考えている。 研究チームは、パフォーマンスの強度と汎用性の2つの側面から、人間とAIの関係は5つの段階に分けられると考えています。大規模言語モデルの出現は現在、汎用AIの第一段階、つまりAGIの原型に属しています。 OpenAI の ChatGPT、Google の Bard、Meta の Llama に代表される大規模モデルは、汎用性という点で AGI の可能性を実証しています。 大規模言語モデルはすでに幅広いタスクを完了し、新しいスキルの学習などの「メタ認知」能力を発揮できるからです。 しかし、AIのパフォーマンス面だけを見れば、「狭義のAI」型AIは人間の認知能力を完全に超えるレベルに達しています。 AlphaFold や AlphaZero に代表されるプロフェッショナル AI は、すでに特定の分野で人間の知能では発見できない新しいものを発見することができます。研究チームはこれを「超人的な狭義のAI」と呼んでいる。 チェスの大会で人間のトップマスターに勝てる「ディープブルー」やアルファ碁など、人間と比べて特定の分野で人間のレベルの99%に到達しているものはこのカテゴリーに属します。研究チームはこれを「マスターレベルの狭義のAI」と呼んでいる。 文書修正AI Grammarly、DALL·E 2、Imagenなどの生画像AIなど、一部の分野ではAIは人間のレベルの90%に達することができます。研究チームはこれを「専門的狭義のAI」と呼んでいる。 特定の領域では、SiriやGoogle Assistantなどの一般的なスマートアシスタントなど、一般人の平均レベルに到達できます。研究チームはこれを「通常の狭義のAI」と呼んでいる。 しかし、狭義の AI がカバーする 4 つの能力次元には、汎用 AI の対応する例はまだありません。 さらに、真の意味での AGI はまだ登場していないため、人類は AGI の定義について統一された理解に達していません。 したがって、この論文では AGI を定義するための 6 つの基準も示しています。
論文の最後の部分では、著者は将来登場する可能性のある AGI の評価とリスク評価の問題についても提起しました。 著者の意見としては、人間と AGI の相互作用パターンを考慮する必要がある。モデルの能力だけを見て AGI を評価するのは非常に一方的である。 具体的には、AGI の機能は AGI の自律性とは異なります。 AGI の機能が向上するにつれて、より高度な人間とコンピューターの相互作用モードが実現されますが、これは AGI に最大限の自律性を与えなければならないことを意味するものではありません。 この技術に基づいて、著者は、AI なし、AI ツール、AI コンサルタント、AI コラボレーター、AI エキスパート、AI エージェントの 6 つの人間とコンピューターの相互作用モードを提案しました。 人間とコンピューターのインタラクション モードが異なれば、前提条件として AGI 機能も異なります。たとえば、AI エージェントは、このインタラクション モードで処理されるタスクをより適切に完了するために、エキスパートまたは超人的な AI レベルに到達するための AI 機能が必要になる場合があります。 人間と機械の相互作用モデル自体が、さまざまな種類のリスクをもたらします。たとえば、AI エージェントは最も高い自律性を備えていますが、最大のリスクも伴います。 したがって、AGI のリスク評価では、モデルの機能と人間とコンピュータの相互作用パターンの両方を考慮する必要があります。対話モードの適切な選択は、AGI システムの責任ある展開に役立ちます。 人間とコンピュータの相互作用の研究は、AGI システムの安全かつ効果的な使用をサポートするために、モデル機能の向上と歩調を合わせる必要があります。 AGI、夜明けか夕暮れか?1955 年の人工知能に関するダートマス会議以来、人類はさまざまな道をたどりながら、「真の知能」を実現するという北極星に向かって進んできました。 AGI の概念は、人工知能が一般性を高め、人間の一般性に近づき、そしてそれを上回るという進歩の予測に関連しています。 さらに、AGI は、開発者が明示的に意図していなかった機能を実現する能力である「創発」という用語としばしば絡み合っています。この機能により、新しいタイプのインタラクションや新しい産業が可能になります。 AGI は大きな経済効果をもたらす可能性があります。私たちは広範囲にわたる労働力の代替に必要な基準を満たしているでしょうか? AGI は、経済的利点に関連した地政学的および軍事的影響を及ぼす可能性もあります。 同様に、AGI がもたらすリスクを防ぐために、AGI のレベルを評価する必要があります。 一部の人が推測しているように、AGI システムは、欺いたり操作したり、リソースを蓄積したり、目標を推進したり、行動を代理したり、再帰的に自己改善したりすることができ、最終的には幅広い分野で人間に取って代わる可能性があります。 したがって、AI 研究コミュニティにとって、「AGI」が何を意味するのかを明確に検討し、AI システムのパフォーマンス、一般性、自律性などの特性を定量化することが重要です。 私たちは AGI への道のどこにいるのかを理解する必要があります。 AGI ケーススタディまず、いくつかの事例からインスピレーションを得て、AGI を正しく定義する方法を検討する必要があります。 ケース1: チューリングテスト。 1950 年のチューリング テストは、おそらく AGI のような概念を実践するための最もよく知られた試みです。チューリングの「模倣ゲーム」は、機械が考えることができるかどうかという疑問を実際に実行に移す方法だと考えられている。 現代の LLM がチューリングテストのいくつかのフレームワークに合格していることを考えると、この標準は AGI を評価するための適切なベンチマークではないことは明らかです。 機械が「考える」ことができるかどうかは、確かに興味深い哲学的かつ科学的な問題であるというチューリングの意見に私たちは同意します。 しかし、機械が何ができるかという問題は、影響を評価する上で明らかにより重要であり、測定も容易です。したがって、AGI はプロセスではなく機能の観点から定義する必要があります。 ケース2: 人間の脳との類似性。 「人工汎用知能」という用語は、1997 年にマーク・ガブラッドが軍事技術について書いた記事で初めて使用されました。この記事では、AGI を「複雑さと速度において人間の脳に匹敵するかそれを超える人工知能システム」と定義しています。 現代の ML システムの背後にあるニューラル ネットワーク アーキテクチャは人間の脳から大まかにヒントを得ていますが、トランスフォーマー ベースのアーキテクチャの成功は、厳密な脳ベースのプロセスとベンチマークは AGI には必要ないことを示しています。 ケース3: タスクを学習する能力。シャナハンは『技術的特異点』の中で、AGI は特定のタスクを実行することに特化しているのではなく、人間と同じ幅広いタスクを実行することを学習できる「人工知能」であると主張しています。このフレームワークの重要な特徴は、AGI を実現するための要件にメタ認知タスク (学習) を組み込むことの価値を強調していることです。 ケース4: 経済的価値のある仕事。 OpenAI の憲章では、AGI を「経済的価値が最も高いタスクにおいて人間を上回るパフォーマンスを発揮する高度に自律的なシステム」と定義しています。 この定義は、基礎となるメカニズムとは独立したパフォーマンスに焦点を当てており、潜在的な指標、つまり経済的価値を提供します。 問題は、明確な経済的価値を持たない知能関連のタスクが多数あることです(たとえば、芸術的創造性や感情的知能など)。 さらに、技術的には経済的に重要なタスクを実行できるシステムであっても、さまざまな理由(法的、倫理的、社会的など)により、この経済的価値が実現されない場合があります。 例 5: マーカスは、AGI は「人間の知能に匹敵する (またはそれを超える) 機知と信頼性を備えたあらゆる知能の略称」であると考えています。 彼は、5 つの具体的なタスク (映画を理解する、小説を理解する、どのキッチンでも食事を作る、バグのない 10,000 行のプログラムを書く、自然言語による数学的証明を記号形式に変換する) を提案することで、定義を実用化しました。 ケース 6: Agüera y Arcas と Norvig は、最も先進的な LLM はすでに AGI であり、一般性は AGI の重要な特性であると主張しています。 言語モデルは、幅広いトピックについて議論し、幅広いタスクを実行し、マルチモーダルな入力と出力を処理し、複数の言語で動作し、ゼロショットまたは少数ショットの例から「学習」できるため、十分な一般性を実現しています。 6つのAGI原則上記の事例を考慮した後、著者は AGI の定義に関して以下の 6 つの基準を策定しました。 まず、プロセスではなく機能に焦点を当てます。ほとんどの定義は、AGI がタスクを達成するメカニズムではなく、AGI が何を達成できるかに焦点を当てています。 これは、AGI を実現するための前提条件ではない機能を識別するために重要です。 AGI を実現するということは、システムが人間のように考えたり理解したりすることを意味するわけではなく、システムが意識や知覚などを持つことを意味するわけでもないからです。 第2条:汎用性とパフォーマンスに重点を置く。上記の定義はすべて、程度の差はあれ一般性を重視していますが、パフォーマンスも AGI の重要な要素です。 第3条: 認知タスクとメタ認知タスクに焦点を当てる。 AI システムの物理的な機能は、非物理的な機能に比べて遅れているようです。著者らは、物理的なタスクを実行する能力はシステムの汎用性を高めるが、AGI を実現するための必須の前提条件とは見なされないと主張している。 一方、メタ認知能力(新しいタスクを学習する能力や、人間に説明や支援を求めるタイミングを知る能力など)は、システムが一般化を実現するための重要な前提条件です。 ルール 4: 展開ではなく、可能性に焦点を当てます。 AGI を測定するための条件として展開を要求すると、法的および社会的配慮などの非技術的な障壁や、潜在的な倫理的および安全上の問題が生じるためです。 第5条:生態学的妥当性に注意する。ここでは、人々が価値を認める(価値を経済的価値だけでなく社会的価値、芸術的価値など広く解釈する)現実世界の(つまり、生態学的に妥当な)タスクと一致するタスクを選択することの重要性が強調されています。 最後に、単一のエンドポイントではなく、AGI へのパスに焦点を当てます。著者らは、AGI の各レベルを明確な一連の指標に関連付け、各レベルで特定されたリスクと、その結果生じる人間とコンピューターの相互作用パラダイムの変化を紹介しています。 AGI レベルの定義著者は、特定の評価を達成するために必要なほとんどのタスクにおける最低限のパフォーマンスを指定する分類または評価方法を明確に提案する次の表を示しています。 理解を容易にするために、以下の表の最後の 5 つのカテゴリは、エントリー、一般、エキスパート、マスター、超人レベルと翻訳されています。 たとえば、有能な AGI は、ほとんどの認知タスクにおいて平均的な熟練成人と同等以上のパフォーマンスを発揮する必要がありますが、一部のタスクではエキスパート、マスター、さらには超人的なパフォーマンスを発揮する可能性があります。 たとえば、この記事を執筆している2023年9月の時点では、最先端の言語モデル(ChatGPT、Bard、Llama2など)は、一部のタスク(短いエッセイの執筆、簡単なコーディングなど)では「平均的な」パフォーマンスレベルを示していますが、ほとんどのタスク(数学スキル、事実を含むタスクなど)では「初級レベル」のパフォーマンスレベルしか示していません。 したがって、全体として、現在の最先端の言語モデルはレベル 1 の汎用 AI と見なされ、より広範囲のタスクでのパフォーマンス レベルが向上すると、レベル 2 の汎用 AI のしきい値に到達できます。 また、特定の認知領域でより強力なスキルを習得する順序が AI の安全性に重大な影響を及ぼす可能性があることにも留意することが重要です。 たとえば、強力な道徳的推論スキルを習得する前に強力な化学工学の知識を習得することは、危険な組み合わせになる可能性があります。 分類法ではパフォーマンスに基づいてシステムを評価しますが、特定のレベルのパフォーマンスを実現できるシステムでも、導入時にはそのレベルに達しない場合があります。 DALL·E 2を例にとると、DALL·E 2が生成する画像品質は、ほとんどの人が描くことができるものよりも優れているため、「エキスパート」レベルのパフォーマンスとして評価できます。しかし、システムには「マスター」の称号を獲得するのを妨げる障害モードがあります。したがって、分類法ではレベル 3 の狭義 AI (「エキスパート狭義 AI」) と推定できます。 上記の表では、著者らは、AGI の 2 つの中核となる次元であるパフォーマンスと一般性に焦点を当てたマトリックス レベリング システムを紹介しています。 総合的なパフォーマンスと汎用性という点では、マトリックスの最高レベルは ASI (Artificial Super Intelligence) です。そして「超人的な」パフォーマンスとは、人間よりも 100% 優れていることを意味します。 たとえば、ここでは、AlphaFold が実行する単一のタスク (アミノ酸配列からタンパク質の 3D 構造を予測する) が世界トップクラスの科学者のレベルを超えているため、AlphaFold はレベル 5 の狭義 AI (「超人的な狭義 AI」) であると想定しています。 この定義は、レベル 5 の汎用 AI (ASI) システムが、人間が追いつけないレベルで幅広いタスクを実行できることを意味します。 AGI テスト著者のシナリオでは、特定のレベルの一般性に到達するには、AI システムがそのようなタスクのどの程度を習得する必要があるのでしょうか。特定のレベルの一般化可能性を達成するために常に実行する必要があるタスク (メタ認知タスクなど) はありますか? AGI の運用上の定義を達成するには、これらの質問に答え、多様で挑戦的な具体的なタスクを開発する必要があります。 このプロセスは非常に複雑であり、組織間や学際的な視点を含む幅広い視点を取り入れることが重要であるため、著者はこの記事でベンチマークを提案していません。 代わりに、著者らはベンチマークが測定しようとするオントロジーを明確にすることに取り組んでいます。著者らは、AGI ベンチマークが備えるべき特性についても議論しています。 AGI ベンチマークには、言語知能、数学的および論理的推論、空間的推論、対人関係および個人内社会的知能、新しいスキルを習得する能力、創造性など (ただしこれらに限定されない) さまざまな特性を測定する、幅広い認知タスクおよびメタ認知タスク (原則 3 に準拠) が含まれます。 ベンチマークには、心理学、神経科学、認知科学、教育における知能理論によって提案された心理測定カテゴリのテストが含まれる場合があります。 ただし、これらの「従来の」テストの多くは、この文脈では生態学的妥当性や構成妥当性が欠けている可能性があるため、コンピューティング システムのベンチマークに使用するのに適しているかどうかをまず評価する必要があります。 ベンチマークのパフォーマンスに関する未解決の疑問の 1 つは、AI を搭載したツールを含むツールを人間のパフォーマンスの補助として使用することが許可されるかどうかです。 この選択は最終的にはタスクによって異なる可能性があり、ベンチマークの選択では生態学的妥当性を考慮する必要があります (原則 5)。 たとえば、自動運転車が十分に安全かどうかを判断する場合、最新の AI 支援安全ツールを備えていない人間と比較するのは、あまり有益な比較とは言えません。 関連する対照実験には何らかの運転支援技術が含まれるため、著者はこのベースラインと比較することを好む可能性があります。 または定性的な評価が必要な対話型タスク。著者らは、後者の複雑でオープンエンドなタスクのカテゴリは、ベンチマークするのが難しいものの、従来の AI 指標や従来の人間の知能指標を改良したものよりも生態学的妥当性が優れていると推測しています。 AGI が達成できるすべてのタスクをリストすることは不可能です。したがって、AI ベンチマークは生きたベンチマークである必要があります。したがって、このようなベンチマークには、新しいタスクを生成および識別するためのフレームワークを含める必要があります。 あるレベルで何かが AGI ではないと判断するには、人間が日常的に実行できるがシステムが適切に実行できない 5 つのタスクを見つけるだけです。 テスターによって追加された新しいタスクを含め、特定のパフォーマンス レベル (「プロトタイプ」、「通常」など) で仮想 AGI ベンチマークのほとんどに合格するシステムは、適切なレベルの一般性を備えていると想定できます (つまり、AGI がテストに失敗する可能性は理論的にはまだありますが、ある時点で失敗のケースが非常に特殊または非典型的になり、実際には問題になりません)。 AGI ベンチマークの開発は、困難で反復的なプロセスになります。それでも、人工知能研究の分野では、それは北斗七星レベルの目標のままです。 複雑な概念の測定は完璧ではないかもしれませんが、測定行為は目標を明確に定義するのに役立ち、進捗状況を測る基準を提供します。 AGIのリスクに関する議論人工知能に関する議論には、リスクに関する議論が含まれることがよくあります。 AI を定義する際に階層的なアプローチを採用すると、パフォーマンスと一般性のさまざまな組み合わせがさまざまな種類の AI リスクとどのように関連しているかについて、より微妙な議論が可能になります。 AI の機能レベルが上がるにつれて、誤用リスク、規制リスク、構造リスクなどの新たなリスクが発生します。 たとえば、「エキスパート AI」レベルでは、より多くの産業が機械知能が人間の労働に取って代わる閾値に達するにつれて、経済混乱や雇用喪失に関連する構造的なリスクが伴う可能性があります。一方、「専門家レベルの AGI」を実現することで、タスク実行エラーのリスクなど、「プロトタイプ AGI」や「通常の AGI」がもたらすリスクの一部を軽減できる可能性があります。 X リスクに関連する多くの問題は、「マスター AI」および「エキスパート AI」レベルで発生する可能性が最も高くなります (たとえば、AI はさまざまなタスクで人間のオペレーターよりも優れたパフォーマンスを発揮しますが、ミスアライメントの思考実験のように、人間のオペレーターを欺いて間違った目標を達成させる可能性があります)。 異なるレベル間の進歩が規制や外交を上回った場合、国際関係の不安定化などの体系的なリスクが懸念される可能性があります(たとえば、AIを最初に達成した国は地政学的/軍事的に大きな優位性を持つ可能性があり、複雑な構造的リスクを生み出す可能性があります)。 「エキスパート AI」(「新興 AI」、「有能な AI」、およびすべての「狭い」 AI カテゴリなど)の場合、リスクは人間の行動(偶発的、偶発的、または悪意による AI の誤用リスクなど)から生じる可能性が高くなります。 各レベルに関連するリスク プロファイルのより包括的な分析は、安全性/倫理的研究とポリシー開発のガイダンスを提供できる AGI 分類を開発するための重要なステップです。 能力と自律性機能は AI リスクの前提条件となりますが、AI システム (AGI システムを含む) は真空状態では動作しませんし、今後も動作することはありません。 代わりに、AI システムは特定のシナリオで特定のタスクを実行するために特定のインターフェースとともに展開されます。 これらのコンテキスト属性 (インターフェース、タスク、シナリオ、エンド ユーザー) は、リスク プロファイルに大きな影響を与えます。 AGI の機能だけではリスクの観点から運命が決まるわけではなく、状況の詳細と併せて考慮する必要があります。 たとえば、AGI システムのユーザー インターフェイスのアフォーダンスを考えてみましょう。機能が継続的に成長することで、新しいインタラクション パラダイムが実現しますが、それが決定されるわけではありません。 代わりに、システム設計者とエンドユーザーは、安全性を含むさまざまな考慮事項のバランスをとる人間と AI の相互作用のモデルを決定します。著者らは、表 2 に示すように、6 つのレベルの自律性を使用して人間とロボットの相互作用のパラダイムを説明することを提案しています。 これらの自律性のレベルは AGI のレベルと相関しています。 AGI 機能の向上により、より高いレベルの自律性が「実現」される可能性があります。 人間と AI の相互作用に関して慎重に選択を行うことは、最先端の AI モデルを安全かつ責任を持って導入する上で非常に重要です。 特定のインタラクションパラダイムが理想的であるためには、共通性のいくつかの側面が必要になる場合があります。 たとえば、自律性レベル 3、4、5 (「協力者」、「専門家」、「エージェント」) は、AI システムが特定のメタ認知能力 (人間に助けを求めるタイミングの学習、心の理論モデリング、社会情動的スキル) でも優れたパフォーマンスを発揮する場合にのみ、うまく機能する可能性があります。 著者のレベル 5 の自律性 (「エージェントとしての AI」) の定義に暗黙的に含まれるのは、この完全に自律的な AI は、人間による継続的な監視がなくても一貫した方法で動作できるだけでなく、人間に相談するタイミングも認識しているということです。 より優れたタスク仕様、プロセスギャップの橋渡し、出力評価を通じて人間と AI の連携をサポートするインターフェースは、HCI 分野が AI システムとの対話における課題と機会に対応できるようにするための重要な研究分野です。 リスク評価フレームワークとしての人間とコンピュータの相互作用パラダイム上記の表 2 は、AGI レベル、自律性レベル、およびリスク間の相互作用を示しています。 モデルのパフォーマンスと汎用性の向上により、インタラクション パラダイム (潜在的に完全に自律的な AI を含む) のオプションが増えます。 これらの相互作用パラダイムは、新しいリスクのカテゴリを導入します。 モデル機能とインタラクション設計の相互作用により、モデル機能のみを考慮する場合よりも、より微妙なリスク評価と責任ある展開決定が可能になります。 表 2 には、著者らが提案した 6 つの自律性レベルごとに具体的な例も示されています。 自律性の各レベルについて、著者は、そのインタラクション パラダイムを「解き放つ」対応するパフォーマンスと一般性のレベル (つまり、そのパラダイムが正常に展開および採用される可能性が高い、またはそうなる可能性のある AGI のレベル) を示しています。 著者らの「ロック解除」レベル予測では、多くの場合、限定的な AI システムが一般的な AI システムよりも高いパフォーマンス レベルを持つことが求められます。 例えば、著者らは、専門的な狭義の AI であろうと、新興の AI であろうと、AI をアドバイザーとして使うことは可能であると主張しています。 この違いは、汎用システムの場合、能力開発が不均一になる可能性が高いという事実を反映しています。 たとえば、レベル 1 の AGI (「AGI プロト」) は、特定のサブタスク セットでレベル 2 またはレベル 3 のパフォーマンスを達成する可能性が高くなります。 AGI の能力のこの不均一性により、AGI は、その特定の強みと一致する特定のタスクを実行する際に、より高いレベルの自律性を実現できる可能性があります。 AGI システムを人間の使用という観点から考えると、モデルの進歩と人間と AI の相互作用パラダイムの進歩との相互作用について考えることができます。 モデルの進歩と人間と AI の相互作用パラダイムの進歩の相互作用。モデル研究の役割は、システムの機能が AGI への道に沿って継続的に進歩し、そのパフォーマンスと汎用性を向上させるのを支援することだと考えられます。 このようにして、AI システムの能力はますます人間の能力と重なっていきます。むしろ、HAI 研究の役割は、新しい AI システムが人間にとって使用可能かつ有用であることを保証するものであり、それによって AI システムが人間の能力をうまく拡張できるようにすることであると考えられます。 |
>>: よりスマートなモバイルプラットフォームを構築するため、Ant mPaaS5.0がYunqiカンファレンスで発表されました
人工知能(AI)、特にChatGPTなどの生成型AI製品の開発は、過去1年間、主要メディアの見出しを...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
ChatGPT によってウェブサイトのデータが盗まれるのを防ぎたいですか?ついに解決策が見つかりまし...
近年、人工知能の台頭の勢いに乗って生体認証技術が急速に発展し、顔認識に代表される一連のサブセクターが...
[[187760]]産業用ロボットは、産業分野における多関節マニピュレータまたは多自由度機械装置です...
編集者注: 量子コンピューティングと機械学習の融合は、急成長している研究分野となっています。人々の期...
今年、業界内では「AI 記者会見でない記者会見はない」というジョークが飛び交っています。まさにその通...
設置環境Gym は、強化学習アルゴリズムの開発と比較のためのツールキットです。gym ライブラリとそ...
フィナンシャル・タイムズによると、シティグループは5年以内に投資銀行部門の技術・ビジネススタッフの5...
「もし誰かが(ディープラーニングが)壁にぶつかったと言うなら、ディープラーニングではできないことの...
数学はすべての科目の基礎であり、数学の学習には終わりがありません。ビジネスに携わっている場合、または...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...