米国国防高等研究計画局(DARPA)はかつて、第3波AIの概念を提唱しました。その議論では、第3波AIの重要な部分は汎用人工知能を実現することです。つまり、現在の人工知能は依然として統計情報に大きく依存しており、モデルに渡されるデータの分布が変化すると(タスクが変化すると)、期待する効果を得ることが困難になります。従来の AI では、ほとんどの AI アルゴリズムは、対応する生物学的基盤を見つけることに熱心ですが、そのような対応の必要性を疑問視する人も多くいます。また、飛行機の発明と同様に、飛行機の飛び方は実際には鳥の飛び方とは大きく異なります。しかし、より優れたアルゴリズムが発見されるまでは、人間の脳から学習する方がよい選択かもしれません。 AIは人間の脳から学ぶ必要があるため、人間が世界を探索するプロセスはAIにとって最高の教師になることができ、哲学は人間が世界を探索するための最も神秘的で強固な基盤です。多くの学者も哲学に注目し始めており、それを幻想的な「基盤」と見なすだけでなく、哲学的なアイデアをAIアルゴリズムに真に統合しようとし始めています。 そこで、本稿でも、科学的認知の不変性(Hard To Vary、HTV)から始めて、HTVの存在の必要性と、内部変動性と外部変動性に基づく広い意味でのAIにおけるこの不変性の測定と達成方法を紹介します。最後に、認知不変性を達成するための、今提案されたいくつかの具体的な基準を紹介します。 HTVとは何ですか?図1: デイビッド・ドイチュはTEDトークでHTVの必要性を提唱した[4] 簡単に言えば、科学的認知不変性とは、私たちが提案する理論は変化してはならないことを意味します。以下は、Wiki による HTV の比較的完全な定義です。
(学者が理論を決定したい場合、その理論は不変(変化しにくい)であることが最善です。そのような理論は、すべての詳細が明確で、互いに密接に関連している必要があります。この理論の結果を推論したい場合、進むべき道は1つしかありません。この道(理論)の詳細を置き換えると、理論は有効ではなくなります。)[5] この観点から見ると、神話は(少なくとも今のところは)人間が世界をどのように認識しているかについての極めて否定的な例です。たとえば、古代ギリシャ神話では。季節の始まりはこうです。冥界の神ハデスが春の女神ペルセポネを誘拐し、結婚を強要しました。結婚後、ハデスは春の女神を解放したが、定期的に戻ってくるように頼んだ。魔法の力で、彼女は毎年本当に冥界に戻らざるを得なくなるのです。彼女の母親である大地の女神デメテルは悲しみのあまり、大地を寒く不毛にしてしまい、地上は冬になってしまいました。ここで不変性があるかどうかという問題はさておき、その内部論理についてだけ話しましょう。冬がデメテルの悲しみによって引き起こされるのであれば、地球上のあらゆる場所で同時に発生するはずです。だから、もし古代ギリシャ人が、オーストラリアが最も暑かったのはデメテルが最も悲しかった時だったと知っていたら…彼らは自分たちの理論が間違っていることに気づいたはずだ。 事実が物語にもたらす矛盾に加えて、四季の説明はさまざまな他の物語に置き換えることができます。たとえば、新しい物語では、春の神を強制的に連れ戻す理由は結婚契約ではなく復讐です。なぜなら、ここでのペルセポネは解放されたのではなく、逃げたからです。それ以来、彼女は毎年春になると戻ってきて、春の力でハデスに復讐するようになりました。彼女は春の空気を使ってハデスの領土を冷やし、その熱を地面に放射して私たちの夏を作り出したのです。これは元の神話と同じ現象を説明するものであり、現実とも一致しています。しかし、現実についてのその主張は、多くの点で正反対です。これが可能なのは、元の神話の詳細は、神話自体を除いて季節とは関係がないためです。 上記のストーリーが長すぎて理解しにくい場合は、もっと簡単な例を挙げましょう。過去の神話では、雨は竜王によって制御され、雷公と典穆は雷と稲妻を担当していました。このようなストーリーは変更が非常に簡単です。人物を変更するだけです。たとえば、雷公をトールに変更すると、まったく同じ結果を達成できますが、内部の説明は完全に異なり、それぞれ古代中国の神話とマーベルを表しています。 これがHTVが持ち出された理由です。もし、今の科学もこのような話のようで、実は内部ロジックを簡単にいじって、全く同じ結果が出せるのだとしたら、恐ろしいですね。これは、現在のAIブラックボックスモデルが、AI実践者以外には信頼されにくい理由でもあります。では、不変性を実現するために、これらの神話に欠けているものは何でしょうか?季節についての当初の説明に戻ると、欠けている重要な要素は、理論の内部演繹論理によって課せられる制約です。季節に関する現代科学的な説明は、太陽光線と地球の軸の傾きに関する一連の厳密な幾何学的導出を伴うため、良い例です。傾斜角などの自由なパラメータもいくつかありますが、解釈の大部分は変更できない幾何学的推論から得られます。もちろん、このような制約の存在は、私たちが確立したい知識の一貫性を前提としています。 HTVでできることAI業界は現在活況を呈しており、すでにいくつかの企業が完全自動運転車を発売し、GoogleのDuplexシステムは自然言語による会話を行える能力で人気を集めています。最近の GPT3 モデルは、非常に説得力のあるストーリーを書くことができ、テスト中にテキスト外のタスクを実行することさえできることが示されています (論文のゼロショット学習セクション)。しかし、人工知能ではできないことがまだたくさんあります。今日の AI システムには、人間レベルの常識的な理解力が欠けており、ロボットによる物体の操作が不器用で、恣意的な推論が苦手です。もうひとつの問題は、今日の AI は人間のようにほんの数例から学習することができず、トレーニングには膨大な量のデータが必要になることです。しかし、最も重要なのは、今日の AI システムは、DARPA が狭義の AI と呼ぶ狭い範囲に限定されており、トレーニング データの分布の範囲内でのみ、トレーニングされたタスクを実行できるということです。今日の AI システムは、トレーニング データの分布外で動作するように要求されると、通常は失敗します。 つまり、現在の AI は帰納法の結果に重点を置きます。しかし、ここに矛盾があります。AIが本当に人間の脳から学びたいのであれば、学者がポパーが提唱した認識論を回避することは難しいでしょう。この認識論では、彼は帰納法に反対し、科学的知識の成長と発展には帰納法は必要ないと信じていました。現在、多くの機械学習、さらには多くの科学研究は、本質的にはベイズ帰納法と同等です。さらに、今日非常に人気のある見解は、すべての人工知能システムが近似的にソロモンオフ帰納法であるというものです。 討論番組で誰かが言っていたように、哲学は検証するためよりも、むしろ反証するために使われるのです。そしてAIはほぼ不可能な「検証」を目指しています。簡単に言えば、AI は理論を生成できることを望んでおり、その理論は完全に正確でなければなりません。しかし、これは明らかに不可能です。ポパーの見解では、理論は常に、経験から直接学んだものではなく、問題を解決するために生まれた「大胆な推測」であった。たとえば、星は実は太陽であり、太陽よりも遠くにあるという大胆な推測は、紀元前 450 年にアナクサゴラスによって初めて提唱されました。 AI 研究者はそのような推測がどのように生成されるかに非常に興味を持っていましたが、ポッパーはそのような推測がどのように生成されるかについてはあまり関心がなく、むしろ心理学者が答えるべき問題だと考えていました。結局のところ、推測の真実性はその情報源とは何の関係もありません。経験は、特に経験的検証の形で、どの推測を保持し、どの推測を捨てるべきかを教えてくれますが、ポパーの見解では、経験は常に理論的な色彩を帯びています。言い換えれば、フランシス・ベーコンが主張したように、完全に客観的に観察することは不可能なのです。 ポパーにとって、理論と観察のどちらが先かという問題は、鶏が先か卵が先かという問題によく似ていた。科学理論は観察に基づいていますが、ある程度、これらの観察は以前の科学理論に基づいており、さらに遡ると先史時代の科学の神話にたどり着くことができます。したがって、理論の経験的検証は、一部の理論が間違っていることを証明し、他の理論を維持する役割を果たしますが、ポパーは、基本的にすべての理論は外部からの印象からではなく「内部」から来ると主張しました。反証可能性が理論が科学的であるかどうかの鍵であるならば、神、悪魔、幽霊の行動について反証可能な予測をする神話に基づく理論は科学的であると考えられるべきでしょうか?ポパーは「反証可能性の度合い」という概念を通じて、これらの明らかに非科学的な理論を科学の領域からある程度排除するという課題に取り組んだが、この原則の妥当性は依然として不明である。 したがって、HTV の存在は必要である。なぜなら、HTV は科学的理論と非科学的理論を区別するための代替基準として使用できると思われるからである。同様に、AI はモデルがインテリジェントになると主張しているため、HTV は AI モデル出力の有効性を証明するためにも使用できます。 AIとHTVの関係一般的に言えば、HTV は次のように説明できます。特定の理論に対して、同等の説明がいくつ存在するか。たとえば、機械学習のコンテキストでは、HTV 原則は、それぞれ固定数のパラメータを持つさまざまな種類のモデル アーキテクチャに個別に適用できます。より多くのパラメータを持つモデルは、より大きなクラスの関数を表現できるため、より適応性があります。 表面的には、HTV 原理は、古典的な統計におけるバイアスと分散のトレードオフの 1 つの側面、つまり、パラメータが多すぎるモデルはトレーニング データに過剰適合する可能性が高くなり、テスト データの一般化能力が低下することに関連しているように見えます。ただし、ここで関心があるのは、トレーニング分布内での従来の一般化ではなく、外挿 (分布外のモデル機能) であることに注意してください。バイアスと分散のトレードオフは、分布全体の一般化のみを扱うため、HTV の原則とはほとんど関係ありません。さらに、機械学習では、モデルにパラメータが追加されるにつれて、バイアスと分散のトレードオフが崩れることが示されており、例えば、ある閾値を超えると「二重降下」曲線につながります[6]。したがって、今のところ、パラメータを増やすことは常に役に立ちますが、害になることはありません。したがって、バイアスと分散のトレードオフの存在自体が疑問視されることになります。バイアスと分散のトレードオフを適用するモデルと適用しないモデルをどのように区別するかは、現在も研究が続けられている分野です。同時に、過剰適合の問題は通常、より大きなデータセットで補うことができます。したがって、大規模なモデルは本質的に悪いわけではなく、利用可能なデータの量に依存するだけです。 したがって、HTV は実際にはオッカムの剃刀の原理に近いと思われます。簡単に言えば、この原則は、モデル (パラメータ) が単純であればあるほど良いということを意味します。単純なモデルで実現できることを実現するために、複雑なものを使用する必要はありません。コルモゴロフ複雑度を使用すると、この原理を適切に測定できます (AI にどのように適用するかについては後で説明します)。 文字列 s の記述 d(s) の長さが最小 (つまり、最小のビット数を使用) の場合、これは s の最小記述と呼ばれ、d(s) の長さ (つまり、最小記述のビット数) は s のコルモゴロフ複雑度であり、K(s) と表記されます。最短の説明の長さは、記述言語の選択に依存しますが、言語を変更してもその影響は限定されます (この結果は不変性定理と呼ばれます)。 AI では、このシンプルさは次の 2 つの方法で測定できます。
AIモデルのHTVを測定する方法AI モデルの HTV プロパティを測定するには、まず AI モデルで HTV プロパティがどのように現れるかを明らかにする必要があります。産業界におけるディープラーニングの応用における共通の問題は、それが極めて不安定であるということです。例えば、画像認識の分野では、照明条件、画像解像度、画像表示形式などがすべてディープラーニング モデルの障害となる可能性があります。もう一つのよく知られた例は、DeepMind 社がコンピュータ ゲーム「StarCraft」用に開発した AlphaStar システムです。特定のマップとキャラクターの場合、モデルは人間を簡単に倒すことができますが、この能力は他のキャラクターやマップには一般化できず、個別に再トレーニングする必要があります。これらの問題はすべて、AI モデルがトレーニング データの分布外でタスクを完了すること、つまりトレーニング中とは異なる条件下でタスクを完了することが難しいことを示しています。 HTV は、優れたモデルは新しいシナリオで新しいタスクを最高レベルで、最低のコストで完了する必要があることを示してくれます。 したがって、訓練されたモデルに対応して、[1]では2つの概念が定義されています。
これら 2 つの特性に対応して、AI モデルにおけるこれら 2 つの特性の実現度を適切に測定できれば、いわゆる汎用人工知能 (AGI) をより適切に実現できます。このセクションの残りの部分では、これら 2 つの特性が AI で何に対応するか、またこれらの特性を測定する概念的な方法について個別に紹介します。 内部の柔軟性内部柔軟性は、同じ予測を生成しながらモデル/理論を内部的に変更できる範囲として定義されます。入力変数 x に基づいて出力 y を予測するという一般的な問題を考えてみましょう。科学者は、既存のシステムに関連する事前の知識、そして多くの場合、事前に知られている科学法則を持ち込むことから始めます。次に、この事前の知識を使用して、関係性の機能形式を導き出すか推測し、それをデータに適合させて、それがどの程度うまく機能するかを確認します。重要なのは、関数が比較的単純に保たれているため、理解しやすいということです。正確な予測に加えて、理解することが暗黙的に求められています。対照的に、機械学習では、実践者は予測精度のみに焦点を当てているため、大きなブラックボックス機能を受け入れることができます。レオ・ブリーマンは、ニューラルネットワークのような大規模なマルチパラメータ関数を使用する場合、興味深い事実が生じることを指摘しました。それは、多数のモデルが任意のデータセット{x, y}に対して同じエラー(損失)を持つ可能性が高いということです[8]。これは、実際のアプリケーションと同様に、データにノイズがある場合には常に当てはまります。彼はこれを、4人の人物が1人の死を目撃する日本映画にちなんで「羅生門効果」と名付けた。法廷では、二人は同じ事実を目撃したと証言したが、何が起こったのかについての解釈は非常に異なっていた。この興味深い現象はニューラル ネットワークでも見られます。異なるランダム初期化でトレーニングされたディープ ニューラル ネットワークは、同じ精度を達成しながらも、内部的には異なる動作 (異なる機能を使用するなど) をする可能性がありますが、これはあまり認識されていない事実です。ディープラーニング モデルの羅生門集合のサイズを測定することは、同等の最小値の数を決定することと同じです。これはレベルセット問題であり、私たちの知る限り、この分野ではあまり研究が行われておらず、このセットのサイズを計算する簡単な方法はありません。 外部の柔軟性では、分布の外側を予測する能力をどうやって実現するのでしょうか? モデルは、外側への推論をより大胆に行う必要があり、これを外挿と呼びます。外部中断能力を測定するために、外部柔軟性の概念も提案されています。外部柔軟性を測定するために、ここでも単純な関数 y = f(x) をモデル化し、それをデータセット {(x, y)} に適合させようとしていると仮定できます。外部変動を測定するには、データセットの変化にモデルを適応させるために f(x) をどの程度変更する必要があるかを直感的に把握する必要があります。これをさらに理解するには、k 最近傍法と物理ベースのシミュレーションという 2 つの非常に異なる予測モデルを検討し、コア崩壊型超新星の最大圧力を質量の関数として計算します。最初のモデルは柔軟性があり、任意の関数 y = f(x) に適用できますが、2 番目のモデルは特定の目的に合わせて調整されています。非常に柔軟なモデルのもう 1 つの例は、ニューラル ネットワーク ベースのオプティマイザーです (データセットに基づいて予測を行うために、まずニューラル ネットワークをデータに適合させます)。 これを定量的に行うには、モデルが新しいデータセットに適応する際の変化を定量化する方法が必要です。アルゴリズム情報理論は、これら両方の問題に対処するのに役立ちます。チューリング マシンとデータセット D1 が与えられた場合、D1 のアルゴリズム情報 (コルモゴロフ複雑度とも呼ばれます) は、選択した特定のチューリング マシンを使用して D1 を複製する最短プログラムのビット文字列 s1 の長さです。 H(D1) = length(s1)と表記される。ここで、別のデータセット DAI でトレーニングされた人工知能アルゴリズム sAI があり、D2 で最適に動作するためにどれだけ変更する必要があるかを測定するとします。 s1 と sAI 間の相対アルゴリズム情報 (H(s1|sAI) と表記) は、sAI が与えられた場合に s1 をコピーする最短の変更アルゴリズムの長さです。したがって、これは sAI が D2 で最適に動作するために必要な変更の量を測る指標となります。残念ながら、この複雑さを計算することは不可能です。ただし、D2 を複製するための最適な手順を見つけようとする代わりに、この複雑さの近似値を利用することができます。精度マージンを指定し(可能な限り多くの可能性を列挙)、指定した範囲内で D2 を再現するために必要な sAI の長さの最小の変化を探します。 sAI の大きさは気にせず、新しいデータ DAI に対応するために sAI をどれだけ変更する必要があるかだけを気にすることに注意してください。したがって、この「HTV」の概念は「オッカムの剃刀」とは異なります。 DAI (AI 用に設計された初期データセット) と D2 の設定方法はまだ指定されていません。明らかに、これらのデータセットはランダムに生成することはできません。ノー・フリー・ランチ定理は、考えられるあらゆる問題を平均すると、すべてのアルゴリズムは同等であるということを述べています。したがって、ランダムに選択されたデータセットから別のデータセットに外挿しようとする場合、すべてのアルゴリズムは同等になります。私たちは、ショレが知能を厳密に定義しようとしたときに直面した状況と非常によく似ています。ショレの解決策は、問題空間を人間が解決できる一連の問題に制限することでした。ジョリーは、自然界は、客観性(さまざまな対象が存在する)、基本的な物理学、主観性(目標を持つ主体が存在する)、数と算術、基本的な幾何学と位相幾何学などの一連の非常に基本的な前提に従っていると指摘しています。また、D1 と D2 の生成は、一連の事前ルールに準拠する必要があるとも主張できます。もっと簡単に言えば、D1 と D2 は物理現象によって生成されると言えます。これにより、問題/データ空間が十分に制約され、外挿が可能になります。 モデルにHTVソリューションを学習させる方法
前のセクションでは、HTV と AI の関係について比較的表面的に説明しました。HTV が AI アルゴリズムに本当に影響を与えるためには、HTV が AI のどのような問題を具体的に解決できるか、またその解決方法など、まだ決定すべき詳細が数多くあります。 「変化しにくい説明の学習」は、まず HTV が AI で解決できる問題を明確に定義する優れた試みです (図 2 を参照)。 図2:HTVはAIの問題に対応している[7] 簡単に言えば、問題は、データ分布が変化すると最適解が変化する可能性があり、不変性が失われるということです。これを検証するために、著者は意図的に 2 セットのデータを生成し、従来のトレーニング方法に従って、異なる初期化パラメータ (白い円) の下で 2 つの局所最適解 (星印) を取得しました。ただし、2 セットのデータを個別にトレーニングすると、生成されたデータの特殊性により、2 セットのデータの損失面は直線上で最小値に達します (左下の図は垂直線、右下の図は水平線)。すると、この線上のすべての点が局所最適解となり、多くの局所最適解が生成されます。この場合、初期化パラメータによって (0.8,0.8) の最適解が得られるようにしない限り (確率はほぼ 0、1/*∞* に相当)、上図の右上隅にある最適解を見つけることは基本的に困難です。 この例では、下の 2 つの図の左下にあるソリューションが HTV の原則に準拠しているのに対し、他のソリューションは変更が非常に容易であることがわかります。データが増えると、これらの変更が非常に容易なソリューションのほとんどは役に立たなくなります。著者は、より現実的な例を使用して、HTV が AI でどのような効果を達成する必要があるかを説明しました (図 3 を参照)。 図3:HTVが解決できること[7] 図3は2種類のメモを示しています。左側のメモは他のチェスレコードでは使いにくい(チェスレコードのサイズが変わると役に立たなくなる)ですが、右側のメモは使用できます。例えば、3 冊目のチェスブックがある場合、チェスブックのサイズ比は図 3 とはまったく異なります。このとき、左図のようなシーンが現れ、矢印を使用するとエラーが発生しやすくなります。図 3 の 2 倍の大きさのチェス盤を想像してください。矢印が指す位置は、元のチェス盤のちょうど半分のマス目である可能性があります。ただし、記号による記述を使用する場合、この問題は発生しません。 上記の例は、HTV の重要性を間接的に示しています。図表ベースのメモは変更が簡単です。矢印が曲がったり、チェスの記録が変更されたりすると問題が発生します。ただし、テキストを使用して各移動を表現する場合、方法が確実であるため、より多くのチェスの記録に適用しやすくなります。したがって、著者は最適な解決策として右側のノートに似たノートを見つけることを望んでいます。 この問題を解決するために、著者らは入力をマスクするのではなく勾配をマスクする AND マスクを提案しました。著者はまずデータを複数の部分に分割し、それぞれを環境内で生成されたデータとして識別します(通常のトレーニングのバッチと同様)。通常のトレーニングでは、各バッチに対して平均と同様の操作を実行するため、図4に示す問題が発生します。バッチAとバッチBの勾配方向は完全に矛盾していますが、最終的にはその影響は保持されます。 図4: 矛盾[7] どの勾配をマスクするかを決定するために、各環境(バッチ)で得られたパラメータθに対して、そのパラメータθのもとで各環境(次式のe、つまりバッチ)の損失関数を比較し、このパラメータILC(Invariant Learning Consistency)を求めます。簡単に言えば、より多くのデータによって認識される勾配方向のみを保持するということです。著者が言及した幾何平均もこの意味を表現するためのものでもあります。 この記事では、上記の特定の解決策 (AND マスク) に加えて、トレーニング結果が HTV にならない原因となる一般的な問題もいくつか概説しています (そのうちのいくつかは実際に解決されています)。
最後に、著者は生成したデータに基づいて自分のアイデアを検証し、自分の方法が CIFAR 10 で一定の利点を持っていることを決定しました。すべての実験比較には一定の制限がありますが、この記事で提案されたアイデアと HTV を AI に組み込むアイデアは学ぶ価値があります。 要約するHTVに関しては、将来的にこの性質をモデルの損失関数に定量的に追加することができれば、AGIが人間に一歩近づくことが予測されます。もちろん、この記事全体を通しての前提は、AI の学習対象が依然として人間の脳であるならば、AI の研究過程で、人間の脳の機能とは関係ないけれども依然として有効なアルゴリズムがいくつか発見されるとしても、それは悪い考えではないということです。要約すると、DARPA が第 3 の波の AI、あるいはさらに高度な AI と呼ぶものを実現するには、意図したタスクを達成するためのより包括的な損失を発見する必要があります。 |
<<: 6G はテクノロジーにおける最大の投資の 1 つになりますが、何が欠けているのでしょうか?
>>: 人工知能1年後:パンデミックはテクノロジーの発展にどのような影響を与えたのでしょうか?
AI による影の検出と除去、反射ベースの影の検出と除去方法に向けて、概要: 影は画像によく見られる要...
モノのインターネット (IoT) は、絶えず複製されるエンティティのネットワークのようなもので、これ...
2019年も残り1か月余りとなり、各種年間総括も迫ってまいりました。今年の AI の発展を振り返る...
[[405574]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
テクノロジートラベラー北京ニュース 1 月 3 日:ケネス・リブブレヒトは、この寒い冬に暖かく快適な...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
2025年までに、世界中に約750億個のIoTデバイスが存在すると予想されています。スマートデバイス...
今年に入ってからは、ChatGPTやGPT-4などの技術の応用により、深層合成製品やサービスが増加し...
ディープラーニング技術の成熟に伴い、AIは最先端技術から徐々に普及しつつあります。最先端のテクノロジ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[259716]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
ティム・アンダーソン編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:...