盲目的に大規模モデルを追求して計算能力を積み上げないでください。シュム、カオ・イン、マー・イーは、AIを理解するための2つの基本原則、シンプルさと自己一貫性を提案した。

過去2年間、「優れた計算能力を活用して奇跡を起こす」大規模モデルは、人工知能分野のほとんどの研究者の追求傾向になりました。しかし、その背後にある膨大な計算コストとリソース消費もますます明らかになってきています。一部の科学者は、大規模なモデルを真剣に検討し、積極的に解決策を模索し始めています。新しい研究によると、AI モデルの優れたパフォーマンスを実現するために、必ずしもヒープ計算能力とヒープサイズに依存する必要はありません。

ディープラーニングは10年間人気を博してきました。過去10年間の研究と実践において、ディープラーニングの可能性とボトルネックが多くの注目と議論を集めてきたことは言うまでもありません。

その中で、最も顕著なボトルネックの次元は、ディープラーニングのブラックボックス性（説明可能性の欠如）と「大きな力は奇跡を生む」（モデルパラメータがますます大きくなり、コンピューティングパワーの要件がますます大きくなり、コンピューティングコストがますます高くなる）です。さらに、モデルの安定性が不十分であったり、セキュリティ上の脆弱性があったりといった問題もあります。

本質的に、これらの問題は、ディープニューラルネットワークの「オープンループ」システムの性質によって部分的に発生します。ディープラーニングのB面の「呪い」を解くには、単にモデルサイズを拡大し、計算パワーを積み重ねるだけでは不十分で、人工知能システムを構成する基本原理に基づいて、根源をたどり、新しい視点（クローズドループなど）から「知能」を理解する必要がある。

7月12日、人工知能分野で著名な中国の科学者3人、馬怡、曹穎、沈向陽がarXivに共同で論文「知能の出現のための簡素化と自己一貫性の原理について」を発表し、深層ネットワークを理解するための新しい枠組みである圧縮閉ループ転写を提案した。

このフレームワークには、AIモデルの学習プロセスにおける「何を学習するか」と「どのように学習するか」にそれぞれ対応する、簡潔性と自己一貫性という2つの原則が含まれています。これらは、人工知能/自然知能の2大基礎であると考えられており、国内外の人工知能研究分野で広く注目を集めています。

論文リンク:

出典：http://arxiv.org/pdf/2207.04630.pdf

3 人の科学者は、真の知能には説明可能性と計算可能性という 2 つの特性がなければならないと考えています。

しかし、過去 10 年間の人工知能の進歩は、主に「力ずく」でモデルをトレーニングするディープラーニング手法に基づいていました。この場合、AI モデルは知覚と意思決定のための機能モジュールも取得できますが、学習された特徴表現は暗黙的であり、解釈が難しいことがよくあります。

さらに、モデルのトレーニングにコンピューティングパワーのみに依存することで、AI モデルの規模の継続的な拡大とコンピューティングコストの継続的な増加も招いています。また、ニューラルコラプスによる学習表現の多様性の欠如、モードコラプスによるトレーニングの安定性の欠如、モデルの適応性の低下と壊滅的な忘却に対する感度など、実際のアプリケーションでも多くの問題が発生しています。

3 人の科学者は、現在のディープネットワークでは、分類に使用される識別モデルのトレーニングと、サンプリングや再生に使用される生成モデルのトレーニングがほとんど別々に行われているため、上記の問題が発生すると考えています。このようなモデルは通常、監督または自己監督によってエンドツーエンドでトレーニングする必要があるオープンループシステムです。しかし、ウィーナー氏らは、このようなオープンループシステムでは予測の誤りを自動的に修正したり、環境の変化に適応したりすることはできないことをずっと以前から発見していた。

そのため、彼らは制御システムに「閉ループフィードバック」を導入することを提唱しており、これによりシステムが自らエラーを修正することを学習できるようになります。この研究では、識別モデルと生成モデルを使用して完全な閉ループシステムを形成することで、システムが自律的に（外部からの監視なしで）学習し、より効率的で安定し、適応性が高くなることも発見されました。

キャプション：左から右へ：ハリー・シャム（香港中文大学深圳校学長教授、米国工学アカデミー外国人会員、マイクロソフト元副社長）、イン・カオ（米国科学アカデミー会員、カリフォルニア大学バークレー校教授）、イー・マー（カリフォルニア大学バークレー校教授）。

知性の2つの原則：シンプルさと自己一貫性

この研究で、3人の科学者は、人工知能の構成を説明するための2つの基本原理、すなわち単純性と自己一貫性（「自己一貫性」とも呼ばれる）を提案し、視覚画像データモデリングを例にとり、単純性と自己一貫性という基本原理から圧縮された閉ループ転写フレームワークを導き出しました。

シンプルさ

いわゆるシンプルさとは、「何を学ぶべきか」を意味します。知能における簡素化の原則では、システムが計算効率の高い方法でコンパクトで構造化された表現を取得することが求められます。つまり、インテリジェントシステムは、実際のセンサーデータ内の有用な構造をシンプルかつ効果的にシミュレートできる限り、世界の任意の構造化モデルを使用できます。システムは学習モデルの品質を正確かつ効果的に評価でき、使用されるメトリックは基本的かつ一般的で、計算と最適化が容易である必要があります。

ビジュアルデータモデリングを例にとると、簡素化の原則では、次の目標を達成する (非線形) 変換 f を見つけようとします。

圧縮: 高次元の感覚データ x を低次元の表現 z にマッピングします。

線形化: 非線形部分多様体上に分布する各タイプのオブジェクトを線形部分空間にマッピングします。

スカリフィケーション: 独立した、または最大限に矛盾した基底を持つサブスペースに異なるクラスをマッピングします。

つまり、高次元空間内の一連の低次元部分多様体上に配置される可能性のある現実世界のデータは、独立した一連の低次元線形部分空間に変換されます。このモデルは「線形識別表現」(LDR) と呼ばれ、圧縮プロセスは図 2 に示されています。

図 2: 通常は多数の非線形低次元サブマニフォールドに分散されている高次元の感覚データを、サブマニフォールドと同じ次元を持つ独立した線形サブスペースのセットにマッピングするための線形および識別的な表現を求めています。

LDR モデルファミリには、節約の本質的な尺度があります。つまり、LDR が与えられれば、すべてのサブスペースにわたるすべての特徴によって広がる合計「ボリューム」と、各クラスの特徴によって広がる「ボリューム」の合計を計算できます。これら 2 つのボリュームの比率は、LDR モデルがどれだけ優れているかを自然に表します (大きいほど優れている傾向があります)。

情報理論によれば、分布の量はその速度の歪みによって測定できます。

2022 年に Ma Yi 氏のチームが発表した研究「ReduNet: レート削減最大化の原則に基づくホワイトボックスディープネットワーク」では、ガウスレート歪み関数を使用し、一般的なディープネットワーク (ResNet など) を選択してマッピング f(x, θ) をモデル化すると、コーディングレートを最小限に抑えることができることが示されています。

図 5: 非線形マッピング f の構成要素。左: 投影勾配上昇の反復としての ReduNet のレイヤー。これは、拡張または圧縮線形演算子、非線形ソフトマックス、スキップ接続、および正規化から正確に構成されます。中央と右: それぞれ ResNet と ResNeXt の 1 つのレイヤー。

賢明な読者なら、このような図が、ResNet (図 5、中央) や ResNeXt の並列列 (図 5、右) や専門家の混合 (MoE) など、人気の「実証済みの」ディープネットワークと非常によく似ていることに気付いたかもしれません。

これは、最適化スキームを展開するという観点から、ある種のディープニューラルネットワークに対する強力な説明を提供します。現代のディープネットワークが登場する前から、ISTA や FISTA などのスパース性を追求する反復最適化スキームは、学習可能なディープネットワークとして解釈されていました。

実験を通じて、彼らは、圧縮によって、アーキテクチャやパラメータを含むディープニューラルネットワークを完全に解釈可能なホワイトボックスとして推論する建設的な方法が得られることを実証しました。つまり、そのレイヤーは、簡素化を促進する原則的な目標に向けて反復的かつ段階的に最適化されます。したがって、このようにして得られたディープネットワーク (ReduNet) では、データ X を入力として開始し、各レイヤーの演算子とパラメーターが完全に順方向展開された方法で構築され、初期化されます。

これは、ランダムに構築され初期化されたネットワークから始めて、バックプロパゲーションによってグローバルな調整を行うという、ディープラーニングの一般的な手法とは大きく異なります。一般的に、対称的なシナプスと複雑な形式のフィードバックが必要であるため、脳が学習メカニズムとしてバックプロパゲーションを利用する可能性は低いと考えられています。ここで、フォワードアンローリングの最適化は、ハードワイヤードできる隣接するレイヤー間の操作のみに依存するため、実装と活用が容易になります。

ディープネットワーク自体の役割が、反復的な (勾配ベースの) 最適化を実行してデータを圧縮、線形化、スパース化することであるということを理解すれば、過去 10 年間の人工ニューラルネットワークの「進化」を理解しやすくなります。特に、MLP から CNN、ResNet、Transformer に至るまで、手動選択のプロセスを経て登場した AI システムが少数である理由を説明するのに役立ちます。

対照的に、ニューラルアーキテクチャ検索などのネットワーク構造のランダム検索では、一般的なタスクを実行するのに効果的なネットワークアーキテクチャは生成されていません。彼らは、成功したアーキテクチャは、データ圧縮のための反復的な最適化スキームをエミュレートする際に、ますます効率的かつ柔軟になるという仮説を立てています。これは、前述の ReduNet と ResNet/ResNeXt の類似点によって例証できます。もちろん、他にも多くの例があります。

自己一貫性

自己一貫性は「どのように学習するか」に関するもので、つまり、自律的な知能システムは、観察対象と再現者との間の内部的な差異を最小限に抑えることで、外部の世界を観察するための最も自己一貫性のあるモデルを求めます。

簡素化の原則だけでは、学習したモデルが外部世界を認識するデータ内のすべての重要な情報を取得することを保証するものではありません。

たとえば、クロスエントロピーを最小化することで各クラスを 1 次元の「ワンホット」ベクトルにマッピングすることは、一種の節約術として考えることができます。優れた分類器を学習できるかもしれませんが、学習した特徴は「ニューラル崩壊」と呼ばれるシングルトンに崩壊してしまいます。この方法で学習された特徴には、元のデータを再現するのに十分な情報が含まれていません。より一般的なクラスの LDR モデルを考慮した場合でも、速度削減の目的だけでは、環境特徴空間の正しい次元が自動的に決定されるわけではありません。特徴空間の次元が低すぎると、学習したモデルはデータに適合しなくなります。一方、高すぎると、モデルはデータに適合しすぎてしまいます。

彼らの見解では、知覚の目標は予測可能な知覚内容をすべて学習することです。インテリジェントなシステムは、圧縮された表現から観測データの分布を再生成でき、どれだけ努力してもこの分布を独自に区別できないようにする必要があります。

この論文では、自己一貫性と簡素化という 2 つの原則は相互に補完し合うものであり、常に一緒に使用する必要があることを強調しています。自己一貫性だけでは、圧縮や効率性の向上は保証されません。

数学的および計算的には、過剰パラメータ化されたモデルを使用して任意のトレーニングデータを適合させることや、データ分布の固有の構造を学習せずに同じ次元のドメイン間で 1 対 1 のマッピングを確立して一貫性を確保することが容易です。圧縮を通じてのみ、インテリジェントシステムは高次元知覚データ内の固有の低次元構造を発見し、将来の使用のためにこれらの構造を最もコンパクトな方法で特徴空間に変換して表現することができます。

さらに、圧縮を通じてのみ、過剰パラメータ化の原因を簡単に理解できます。たとえば、DNN が通常数百のチャネルに対して行う特徴ブースティングは、高次元の特徴空間での圧縮のみを目的としている場合は、過剰適合につながることはありません。ブースティングは、データの非線形性を減らすのに役立ち、圧縮と線形化を容易にします。後続のレイヤーの役割は圧縮 (および線形化) を実行することであり、一般的にレイヤーの数が多いほど圧縮効果は高くなります。

LDR などの構造化表現への圧縮の特殊なケースでは、この論文では自動エンコーディングのクラス (詳細については元の論文を参照) を「転写」と呼んでいます。ここでの難しさは、目標を計算的に扱いやすくし、物理的に達成可能にすることです。

レート低下 ΔR は、劣化した分布間の明示的な一次距離尺度を提供します。しかし、これは部分空間またはガウス分布の混合に対してのみ機能し、一般的な分布には機能しません。代わりに、内部構造化表現 z の分布は、元のデータ x ではなく、サブスペースまたはガウス分布の混合であるとしか予想できません。

これは、「自己矛盾のない」表現の学習に関するかなり深い疑問につながります。自律システムは、外部世界の内部モデルが正しいことを確認するために、データ空間の違いを測定する必要があるのでしょうか。

答えはノーです。

重要なのは、x と x^ を比較するために、エージェントは同じマッピング f を介してそれぞれの内部特徴 z = f(x) と z^ = f(x^) を比較するだけでよく、z がコンパクトかつ構造化されることを理解することです。

z 空間における分布の違いを測定することは、実際には明確に定義されており、有効です。おそらく、違いを内部的に測定することを学習することは、独立した自律システムとしての脳が自然知能で実行できる唯一のことです。

これにより、実質的に「閉ループ」フィードバックシステムが作成されます。全体のプロセスは図 6 に示されています。

図 6: 非線形データサブマニホールドの LDR への圧縮された閉ループ転写 (z と z^ の差を内部的に比較して最小化することにより)。これにより、エンコーダ/センサー f とデコーダ/コントローラー g の間で自然な追跡と逃走ゲームが発生し、デコードされた x^ (青い破線) の分布が、観測されたデータ x (黒い実線) の分布を追跡して一致するようになります。

DNN 分類器 f またはジェネレータ g のいずれかを個別に学習するという一般的な方法は、閉ループシステムのオープンエンド部分を学習することとして解釈できます (図 6)。現在普及しているこのアプローチは、制御分野では問題が多くコストがかかることが長い間知られてきたオープンループ制御と非常によく似ています。このような部分をトレーニングするには、目的の出力 (クラスラベルなど) を監視する必要があります。データ分布、システムパラメーター、またはタスクが変化すると、このようなオープンループシステムの展開は本質的に安定性、堅牢性、または適応性に欠けることになります。たとえば、教師あり設定でトレーニングされた深層分類ネットワークは、新しいカテゴリのデータを使用して新しいタスクを処理するように再トレーニングされると、壊滅的な忘却に悩まされることがよくあります。

対照的に、閉ループシステムは本質的に安定性と適応性に優れています。実際、ヒントンらは 1995 年にこの点を提唱しました。識別部分と生成部分は、それぞれ完全な学習プロセスの「起床」段階と「睡眠」段階として組み合わせる必要があります。

ただし、ループを閉じるだけでは十分ではありません。

この論文では、あらゆるインテリジェントエージェントは自己批判を通じて学習できるように内部ゲームメカニズムが必要であると主張しています。ここで紹介するのは、一般的に効果的な学習方法としてのゲームの概念です。つまり、現在のモデルまたは戦略を繰り返し適用して敵対的な批判に対抗し、閉ループを通じて受け取ったフィードバックに基づいてモデルまたは戦略を継続的に改善するのです。

このようなフレームワークでは、エンコーダfは2つの役割を果たします。つまり、レート低下ΔR(Z)を最大化することでデータxの表現zを学習することに加えて(セクション2.1で行ったように)、データxと生成されたx^の違いを積極的に検出するフィードバック「センサー」としても機能する必要があります。デコーダー g も 2 つの役割を果たします。つまり、f によって検出された x と xˆ の差を関連付けるコントローラーであり、また、目標を達成するために全体的なコーディングレートを最小限に抑えようとするデコーダーでもあります (所定の精度で)。

したがって、タプル (z, f, g) の最適な「節約的」かつ「自己矛盾のない」表現は、組み合わせ率の削減の効用に基づくのではなく、f(θ) と g(η) の間のゼロ和ゲームの均衡点として解釈できます。

上記の議論は、監督された状況における 2 つの原則の実行です。

しかし、この論文では、彼らが提案した圧縮された閉ループ転写フレームワークは、自己監督と自己批判を通じて自己学習が可能であることを強調しています。

さらに、レート削減によって学習した構造の明示的な（サブスペース型）表現が見つかったため、新しいタスク/データを学習するときに過去の知識がより簡単に保持され、自己一貫性を維持する事前（メモリ）として機能します。

最近の経験的研究では、これにより、壊滅的な忘却に悩まされることなく、良好な LDR 表現を段階的に学習できる、固定メモリを備えた初の自己完結型ニューラルシステムが実現できることが示されています。このような閉ループシステムの場合、忘却 (ある場合) は非常にエレガントです。

さらに、古いカテゴリーの画像をレビューのためにシステムに再度提示すると、学習した表現がさらに強化されます。これは人間の記憶と非常によく似た機能です。ある意味では、この制約された閉ループ定式化は、これらの特徴が脳にとって理想的であると仮定すると、視覚記憶の形成がベイズ的かつ適応的になることを本質的に保証します。

図 8 に示すように、このように学習されたオートエンコーダは、サンプルの一貫性が良好であるだけでなく、学習された特徴は明確で意味のあるローカルな低次元 (薄い) 構造も示しています。

図 8: 左: CIFAR-10 データセット (10 カテゴリの 50,000 枚の画像) の教師なし設定で学習されたオートエンコーダー x と対応するデコード済み x^ の比較。右: 10 のカテゴリに対する教師なし学習機能の t-SNE、およびいくつかの近傍とそれに関連する画像の視覚化。数百次元の特徴空間から投影された視覚化された特徴内の局所的な薄い（ほぼ 1D）構造に注目してください。

さらに驚くべきことは、トレーニング中にクラス情報を一切提供しなくても、クラスに対して学習された特徴にサブスペースまたは特徴依存のブロック対角構造が現れ始めることです (図 9)。したがって、学習された特徴の構造は、霊長類の脳で観察されるカテゴリー選択領域に似ています。

図 9: 閉ループ転写による 10 クラス (CIFAR-10) に属する 50,000 枚の画像の教師なし学習特徴間の相関関係。クラスと一致するブロック対角構造が、何の監督もなく出現します。

ユニバーサル学習エンジン: 3Dビジョンとグラフィックスの融合

この論文は、シンプルさと一貫性により、ディープネットワークの役割は外部観測と内部表現の間の非線形マッピングのモデルとなることが明らかになったと結論付けています。

さらに、この論文では、閉ループ圧縮構造は自然界に遍在し、脳（感覚情報の圧縮）、脊髄回路（筋肉の動きの圧縮）、DNA（タンパク質の機能情報の圧縮）などの生物学的例に見られるように、すべての知的生物に当てはまることを強調しています。したがって、圧縮された閉ループ転写は、あらゆる知的行動の背後にある普遍的な学習エンジンである可能性があると彼らは主張している。これにより、知的な生物やシステムは、一見複雑で整理されていない入力から低次元構造を発見して抽出し、それを記憶して利用できるコンパクトで整理された内部構造に変換できるようになります。

このフレームワークの汎用性を説明するために、この論文では、3D 認識と意思決定 (LeCun 氏はこれらが自律型インテリジェントシステムの 2 つの主要モジュールであると考えています) という 2 つの追加タスクについて研究しています。この記事では、3D 認識におけるコンピュータービジョンとコンピューターグラフィックスのクローズドループについてのみ紹介します。

デビッド・マーが影響力のある著書「ビジョン」で提唱した 3D ビジョンの古典的なパラダイムは、「分割統治」アプローチを提唱しており、3D 認識タスクを、低レベルの 2D 処理 (エッジ検出、輪郭スケッチなど)、中レベルの 2.5D 解析 (グループ化、セグメンテーション、図と地など)、高レベルの 3D 再構築 (ポーズ、形状など)、認識 (オブジェクトなど) まで、いくつかのモジュールプロセスに分割しています。一方、圧縮された閉ループ転写フレームワークは、「ジョイントビルド」の考え方を提唱しています。

知覚は圧縮された閉ループ転写ですか?もっと正確に言えば、世界にある物体の形状、外観、さらにはダイナミクスの 3D 表現は、知覚されたすべての視覚的観察を適切に解釈するために私たちの脳内で開発された最もコンパクトで構造化された表現である必要があります。もしそうなら、これら 2 つの原則は、コンパクトで構造化された 3D 表現が求められる内部モデルであることを示唆しています。これは、次の図に示すように、閉ループ計算フレームワーク内でコンピュータービジョンとコンピューターグラフィックスを統合できる、また統合すべきであることを意味します。

図10: コンピュータビジョンとグラフィックスの閉ループ関係、視覚入力のためのコンパクトで構造化された3Dモデル

コンピュータビジョンは通常、すべての 2D 視覚入力に対して内部 3D モデルを再構築して認識する順方向のプロセスとして説明され、コンピュータグラフィックスは内部 3D モデルをレンダリングしてアニメーション化する逆のプロセスを表します。これら 2 つのプロセスを閉ループシステムに直接組み合わせると、計算上および実用上の大きなメリットがもたらされます。ジオメトリ、視覚的外観、ダイナミクス (スパース性や滑らかさなど) の豊富な構造をすべて、すべての視覚入力と最大限にコンパクトで一貫性のある統合 3D モデルで一緒に使用できます。

コンピュータビジョンの認識技術は、コンピュータグラフィックスが形状と外観の空間でコンパクトなモデルを構築し、リアルな 3D コンテンツを作成するための新しい方法を提供するのに役立ちます。一方、コンピュータグラフィックスにおける 3D モデリングおよびシミュレーション技術は、コンピュータビジョンアルゴリズムによって分析された実際のオブジェクトやシーンの特性と動作を予測、学習、検証できます。ビジョンとグラフィックスのコミュニティでは、長い間「合成による分析」の手法を実践してきました。

外観と形状の統一された表現ですか?イメージベースのレンダリングは、与えられた一連の画像から学習して新しいビューを生成するもので、簡潔で一貫性のある原理で視覚とグラフィックスのギャップを埋めようとする初期の試みと見ることができます。特に、プレノプティックサンプリングでは、アンチエイリアス画像が最小限の数の画像で実現できることがわかります (節約)。

より幅広いインテリジェンス

知能の神経科学

基本的な知能原理が脳の設計に大きな影響を与えると予想されます。簡素化と自己一貫性の原理は、霊長類の視覚システムに関するいくつかの実験的観察に新たな光を当てます。さらに重要なことは、将来の実験で探すべきターゲットが明らかになることです。

私たちは、内部的に簡潔で予測的な表現のみを求めることで「自己監督」を達成し、圧縮閉ループ転写を通じて学習された最終的な表現に構造が自動的に現れるようにするのに十分であることを実証しました。

たとえば、図 9 は、教師なしデータの転写が、異なるカテゴリを区別する特徴を自動的に学習し、脳内で観察されるカテゴリ選択的表現を説明していることを示しています。これらの特徴は、霊長類の脳におけるスパース符号化とサブスペース符号化の広範な観察にももっともらしい説明を与えます。さらに、最近の神経科学の研究では、視覚データのモデリング以外にも、脳内に現れる他の構造化された表現（「場所細胞」など）も、空間情報を可能な限り圧縮してエンコードした結果である可能性があることが示唆されています。

最大符号化率削減 (MCR2) 原理は、エネルギー最小化を通じてベイズ推論の枠組みを提供しようとする認知科学における「自由エネルギー最小化原理」と精神的に似ていると言えます。しかし、自由エネルギーの一般的な概念とは異なり、速度低下は閉じた形式で表現できるため、計算的に扱いやすく、最適化も簡単です。さらに、これら 2 つの原則の相互作用は、正しいモデル (クラス) の自律的な学習は、最小化のみではなく、この効用のクローズドループ最大化ゲームを通じて達成されるべきであることを示唆しています。したがって、圧縮された閉ループ転写フレームワークは、ベイズ推論を実際に実装する方法について新たな視点を提供すると研究者らは考えています。

このフレームワークは、脳が使用する全体的な学習アーキテクチャを解明すると考えられており、バックプロパゲーションを介してランダムネットワークから学習する必要なく、最適化スキームを展開してフィードフォワードセグメントを構築することができます。さらに、学習を導くための閉ループフィードバックシステムを形成するフレームワークの補完的な生成部分があります。

最後に、このフレームワークは、圧縮された閉ループ転写と共鳴する計算スキームである「予測コーディング」の脳のメカニズムに関心を持つ多くの神経科学者が探し求めている、とらえどころのない「予測誤差」信号を明らかにします。計算を容易にするために、入力された観測値と生成された観測値の違いは、表現の最終段階で測定する必要があります。

より高いレベルの知性を目指して

Ma Yi らの研究によると、圧縮された閉ループ転写は、1995 年に Hinton らが提案したフレームワークよりも計算上扱いやすく、スケーラブルであることが示唆されています。さらに、再帰的に学習された非線形エンコーダ/デコーダマッピング (通常はディープネットワークとして表現されます) は、本質的に、外部の整理されていない生の感覚データ (視覚、聴覚など) と内部のコンパクトで構造化された表現との間の重要な「インターフェイス」を提供します。

しかし、彼らはまた、これら 2 つの原理が必ずしも知能のすべての側面を説明するわけではないことも指摘しています。高レベルの意味論的、記号的、または論理的推論の出現と発展の背後にある計算メカニズムは、依然として不明です。今日に至るまで、この高レベルの記号知能は継続的な学習から生まれるのか、それともハードコードされなければならないのかについては議論が続いています。

3 人の科学者の見解では、サブスペースなどの構造化された内部表現は、より高レベルの意味的または記号的概念の出現に必要な中間ステップであり、各サブスペースは個別の (オブジェクト) カテゴリに対応します。このような抽象的な個別の概念間のその他の統計的、因果的、または論理的関係は、各ノードがサブスペース/カテゴリを表す、コンパクトで構造化された（たとえば、スパース）グラフとしてさらに簡略化され、モデル化できます。グラフは、自己一貫性を確保するためにオートエンコーディングを通じて学習できます。

彼らは、高レベルの知能（共有可能な記号的知識を持つ）の出現と発達は、個々のエージェントによって学習されたコンパクトで構造化された表現に基づいてのみ可能であると推測しています。したがって、彼らは、高度な知能（もし存在するならば）の出現のための新しい原理は、知能システム間の効果的な情報交換や知識移転を通じて探求されるべきだと示唆している。

さらに、より高レベルの知能には、この記事で提案した 2 つの原則と共通する 2 つの点があるはずです。

説明可能性: すべての原則は、測定可能な目標、関連する計算アーキテクチャ、学習された表現の構造など、知能の計算メカニズムをホワイトボックスとして明らかにするのに役立つはずです。
計算可能性: 新しいインテリジェントな原理は、計算的に扱いやすく、スケーラブルで、コンピューターまたは自然物理学によって実装可能で、最終的には科学的証拠によって確認される必要があります。

説明可能性と計算可能性があって初めて、現在の高価で時間のかかる「試行錯誤」アプローチに頼ることなく AI を進歩させることができ、「大きいほど良い」という力ずくのアプローチを主張するのではなく、これらのタスクを完了するために必要な最小限のデータとコンピューティングリソースを説明できるようになります。知性は、最も機知に富んだ者だけが持つ特権ではありません。正しい原則を守れば、誰でも、自律性、能力、効率性が最終的には動物や人間のそれを模倣、あるいは上回る、大規模から小規模まで、次世代のインテリジェントシステムを設計、構築できるはずです。

論文リンク:

https://arxiv.org/pdf/2207.04630.pdf

<<: ByteDanceは、従来の4倍の速度を誇る高性能トレーニングおよび推論エンジンLightSeqを発表した。

>>: 人工知能は偏見を排除するのに役立ちますか?