「GPT-4 は単にデータを圧縮しているだけです。」Ma Yi 氏のチームはホワイトボックス Transformer を作成しました。説明可能なビッグモデルが登場するのでしょうか?

AGI からどれくらい離れているのでしょうか?

ChatGPTによって引き起こされた新たなAI爆発の後、一部の研究者は、大規模言語モデルは観察を通じて因果推論を行う能力を持っているが、新しい因果シナリオを積極的に推論する能力が欠けていると指摘した。これは、楽観的な予測と比較すると、AGI が依然として複雑で遠い目標であることを意味します。

AI コミュニティでは、ニューラルネットワークの学習プロセスは単なるデータセットの圧縮である可能性があるという見方が常にありました。

最近、バークレー校と香港大学の馬怡教授率いる研究チームが最新の研究結果を発表しました。GPT -4を含む現在のAIシステムは圧縮を行っています。

彼らは、新たに提案されたディープネットワークアーキテクチャである CRATE を使用してこれを数学的に検証しました。

さらに注目すべきは、CRATE はホワイトボックス Transformer であり、ほぼすべてのタスクでブラックボックス Transformer に匹敵するだけでなく、優れた解釈可能性も備えていることです。

これを踏まえて、馬毅教授はツイッターで興味深い洞察も共有した。現在のAIは単にデータを圧縮しているだけなので、データ内の相関関係や分布を学習することしかできず、因果関係や論理的推論、抽象的な思考能力は実際には備わっていない。したがって、近年のディープラーニングは大量の高次元およびマルチモーダルデータの処理とモデリングの実験で大きな成功を収めているにもかかわらず、今日の AI はまだ AGI ではありません。

しかし、この成功の多くは、データ分布内の圧縮可能な低次元構造を効果的に学習し、その分布を簡潔な（つまり、コンパクトで構造化された）表現に変換するディープネットワークの能力によるものです。このような表現は、視覚、分類、認識、セグメンテーション、生成などの多くの下流タスクを支援するために使用できます。

表現学習は圧縮符号化と復号化によって実現される

これらの実践の背後にある共通の問題をより正式に表現するために、特定のデータセットからのサンプルを高次元空間 ℝ^D 内のランダムベクトル x として考えることができます。

通常、x の分布は、それが存在する空間よりもはるかに低い固有の次元を持ちます。一般的に言えば、表現を学習するということは、通常、f(・)などの連続マッピング関係を学習することを意味します。これは、xを別の空間ℝ^d（通常は低次元空間）のいわゆる特徴ベクトルzに変換できます。人々はこのようなマッピングを通じて次のことを期待しています。

x の低次元の固有構造をコンパクトかつ構造化された方法で見つけ、z を使用してそれを表現できるため、分類や生成などの後続のタスクに役立ちます。特徴 z は、元のデータ x の (学習された) コンパクトなエンコードとして見ることができるため、マッピング f はエンコーダーとも呼ばれます。

このように、表現学習の根本的な問題（これは本研究の中心的な問題でもある）は次のようになります。

表現の質を測定するために、数学的原理によって保証された効果的な測定方法はあるでしょうか?

概念的には、表現 z の品質は、後続のタスクに対して x に関する最も関連性が高く十分な情報をどれだけうまく見つけられるか、そしてその情報をどれだけ効率的に表現できるかによって決まります。

長い間、学習した特徴の「十分性」と「良さ」は、特定のタスクに応じて定義されるべきだと考えられてきました。たとえば、分類問題では、クラスラベル y を予測するには z だけで十分です。

このタイプの表現学習におけるディープラーニングまたはディープネットワークの役割を理解するために、Tishby と Zaslavsky (2015) は論文「ディープラーニングと情報ボトルネックの原理」で情報ボトルネックフレームワークを提案しました。この論文では、特徴の良さを測定する 1 つの方法は、z と y の間の相互情報量を最大化し、z と x の間の相互情報量を最小化することです。

ただし、近年の一般的な手法では、まず大規模なディープニューラルネットワーク (ベースモデルとも呼ばれる) を事前トレーニングして、タスクに依存しない表現を学習します。学習された表現は、複数の特定のタスクに合わせて微調整されます。研究によると、このアプローチはさまざまなデータモダリティを使用して多くの実用的なタスクを効果的かつ効率的に処理できることがわかっています。

ここでの表現学習は、特定のタスクの表現学習とは大きく異なることに注意してください。タスク固有の表現学習では、z が特定の y を予測するだけで十分です。タスクに関係なく、学習された表現 z は、データ x の分布に関する重要な情報のほぼすべてをエンコードする必要があります。つまり、学習された表現 z は、x の固有構造のよりコンパクトで構造化された表現であるだけでなく、ある程度の信頼度で x を回復することもできます。

したがって、タスクに関係なく、学習された（特徴）表現の良さを測る原則的な尺度は何であるべきかという疑問が自然に生じます。

研究者たちは、次の（逆）マッピング（デコーダーまたはジェネレーターとも呼ばれる）を通じて z から x をどれだけうまく復元できるかを見て、表現 z が x に関する十分な情報をエンコードしているかどうかを確認することが効果的な方法（おそらく唯一の方法）であると考えています。

エンコーダfは通常は非可逆なので、その逆写像がxを正確に復元するとは期待できないが、近似値が得られる。

通常、デコードされた x が x に最も近くなるように、サンプル数（たとえば、期待される平均二乗誤差を最小化することによって）または緩和された分布の意味で最適なエンコードとデコードのマッピングを探します。

研究者はこのプロセスを圧縮エンコードとデコード、または圧縮自動エンコードと呼んでいます。この考え方はオートエンコーダの本来の目的と非常によく一致しており、x が線形低次元構造を持つ場合への古典的な主成分分析の一般化として見ることができます。

過去 11 年間にわたる広範な実験により、ディープネットワークは非線形エンコードおよびデコードマッピングのモデル化に非常に効果的であることが明確に実証されています。

ディープラーニングのほぼすべてのアプリケーションは、f または g のいずれかを部分的または完全に学習することによって、このようなエンコードまたはデコードスキームを実装することに依存していますが、これらは別々に学習することも一緒に学習することもできます。

概念的にはデコーダー g はエンコーダー f の「逆」マッピングになるはずですが、実際にはエンコーダーとデコーダーのアーキテクチャがどのように関連しているかは不明でした。多くの場合、デコーダーのアーキテクチャ設計はエンコーダーとはほとんど関係がなく、実験テストやアブレーション実験を通じて選択されることが多いです。

表現学習のための優れた理論的枠組みは、エンコーダーとデコーダーのアーキテクチャ間の関係を明確に明らかにするはずであると想像できます。そして、まさにそれがこの研究が達成しようとしていることです。

研究者らは、これまでに提案された関連方法を要約し、以下の状況に分類しました。

圧縮を通じて現代のディープネットワークのブラックボックスを開きます。
トランスフォーマーモデルと圧縮。
ノイズ除去拡散モデルと圧縮。
低次元メトリックの推進: スパース性とレート削減。
展開する最適化: ネットワークの解釈と設計のための統一パラダイム。

詳細については原文論文を参照してください。

本研究の目的と貢献

彼らは理論と実践の間に橋を架けます。この目的のために、本研究ではより完全で統一されたフレームワークを提案します。

一方で、この新しいフレームワークは、圧縮エンコード/デコード (または自動エンコード)、レート削減、ノイズ除去拡散など、ディープネットワークに基づく一見異なる多くのアプローチを統一的に理解できるようにします。

一方、このフレームワークは、研究者が、数学的に完全に解釈可能であるだけでなく、大規模な現実世界の画像やテキストデータセットのほぼすべての学習タスクで競争力のあるパフォーマンスを達成できるディープネットワークアーキテクチャを導出または設計できるように導くことができます。

上記の観察に基づいて、彼らはホワイトボックスのディープネットワーク理論を提唱しました。より具体的には、彼らはコンパクトで構造化された表現を学習するための統一された目標、つまり原理に基づいた良さの尺度を提案しています。学習された表現については、この目的は、コーディングレートの削減の観点から見た本質的な複雑さと、スパース性の観点から見た外在的な複雑さの両方を最適化することを目指します。彼らはこの目標をスパースレート削減と呼んでいます。図 3 は、この目標の背景にある直感を示しています。

この目的を最適化するために、彼らは、展開された目的関数に対して勾配降下法のような反復最適化スキームをエミュレートする一連の増分マッピングを学習することを提案しています。これにより、Transformer のようなディープネットワークアーキテクチャが自然に実現され、これは完全に「ホワイトボックス」になります。つまり、最適化の目的、ネットワークオペレーター、学習された表現は完全に数学的に解釈可能です。

彼らはこのホワイトボックスのディープアーキテクチャを CRATE または CRATE-Transformer と名付けました。これは Coding-RATE transformer の略です。彼らはまた、これらの増分マッピングが分布の意味で可逆的であること、そしてその逆マッピングが本質的に同じクラスの数学演算子で構成されていることを数学的に証明しました。

したがって、エンコーダー、デコーダー、またはオートエンコーダーにほぼ同じ CRATE アーキテクチャを使用できます。図4は自動エンコードプロセスを示しており、各エンコード層f^𝓁とデコード層g^{L-𝓁}は（部分的に）可逆的です。

下の図は、CRATE ホワイトボックスディープネットワーク設計の「メインループ」を示しています。

CRATE は、入力データ X をトークンのシーケンス Z^1 に前処理した後、分布のローカルモデルを連続的に圧縮して Z^{ℓ+1/2} を生成し、グローバル辞書に対してスパース化を実行して Z^{ℓ+1} を取得することにより、データを低次元サブスペースの標準構成に変換するディープネットワークを構築します。これらのモジュールを繰り返し積み重ね、バックプロパゲーションを使用してモデルパラメータをトレーニングすることで、強力で解釈可能なデータ表現を得ることができます。

CRATE エンコーダーアーキテクチャの 1 つのレイヤーを以下に示します。完全なアーキテクチャは、これらのレイヤーのチェーンと、いくつかの初期トークナイザー、前処理ヘッダー、そして最後にタスク固有のヘッダーで構成されます。

下の図はエンコーダー層とデコーダー層を比較したもので、どちらも部分的に可逆的であることがわかります。

より理論的かつ数学的な説明については、原著論文を参照してください。

実験的評価

このフレームワークが実際に理論と実践を結び付けることができることを実証するために、研究チームは画像とテキストデータに対して広範な実験を行い、従来のトランスフォーマーが優れているさまざまな学習タスクと設定で CRATE モデルの実際のパフォーマンスを評価しました。

次の表は、さまざまなデータセットにおけるさまざまなサイズの CRATE の Top-1 精度を示しています。

表 2 は、トレーニングセットと検証セットにおける CRATE ベースモデルと MAE ベースモデルの平均再構築損失を示しています。

驚くべきことに、概念的および構造的な単純さにもかかわらず、 CRATE は、教師あり学習による画像分類、画像と言語の教師なしマスク補完、画像データの自己教師あり特徴学習、次の単語予測による言語モデリングなど、すべてのタスクと設定でブラックボックスの同等のシステムよりも優れています。

さらに、CRATE モデルには他の実用的な利点もあります。各レイヤーとネットワークオペレーターには統計的および幾何学的な意味があり、学習したモデルの解釈可能性はブラックボックスモデルよりも大幅に優れており、その機能には意味的な意味があります (つまり、オブジェクトを背景から簡単に分割し、共有部分に分離できます)。

下の図は、各レイヤーℓにおけるレイヤーごとのトークンZ^ℓ表現を視覚化したものです。

下の図は、教師あり CRATE からの自己注意マップを示しています。

リソースの制約により、彼らは実験において意図的に現状のベストを追求しなかったことに注意してください。そうすると、大規模なエンジニアリング開発や微調整が必要になるからです。

それでも、これらの実験により、新たに提案されたホワイトボックスディープネットワーク CRATE モデルが一般的に効果的であり、さらなるエンジニアリングの開発と改善のための強固な基盤を築くことが確実に検証されたと研究者らは述べています。

<<: マテリアル界のImageNet、大規模6次元マテリアル実写データベースOpenSVBRDFを公開

>>: 人工知能における計算能力、アルゴリズム、データに関する簡単な説明

「GPT-4 は単にデータを圧縮しているだけです。」Ma Yi 氏のチームはホワイトボックス Transformer を作成しました。説明可能なビッグモデルが登場するのでしょうか?

表現学習は圧縮符号化と復号化によって実現される

本研究の目的と貢献

実験的評価

機械学習のパフォーマンスを最適化するために必要な 6 つの指標

サイバーセキュリティにおける人工知能の役割と6つの製品オプション

8つの一般的なアルゴリズムのアイデアを説明する1つの記事

実践に最適なオープンソース機械学習プロジェクト 30 件をすぐに集めましょう。

これまでで最も詳細なAIサイバー攻撃の分類ガイド

人工知能のこれらの5つのトレンドが世界に影響を与えることは注目に値する。

インテリジェントソフトウェアが現代の製造業に革命を起こす

推薦する

AT&T Business: ゼロトラストは AI アプリケーションのリスクを軽減する万能薬

メタユニバースアバタープロジェクトが暴露されました！ザック・スナイダーのライトセーバーが3秒で512GBのハードドライブに変形

コンピュータニュース 2016年第9号 (人工知能、革命の喪失)

Yirendai - Yiren Hive Fintech AI 実践: Hive Robot

AI 株神: 機械学習を使って株価を予測するには?

マッキンゼーのレポート：これらの業界が人工知能に転換しなければ、ますます取り残されることになる

人工知能はどこにでもありますが、計画とコーディングは始めましたか?

最も強力なオープンソースのビッグモデルの所有者が変わりました。李開復はチームを率いて多くの世界チャートでトップに躍り出、40万件のテキストを処理して記録を破った。

マイクロソフト、テンセント、インテルがキュウリを栽培する理由：AIのせい

ReConフレームワークは、AIビッグモデルが嘘を検出するのに役立ちます。Avalonゲームでインテリジェントエージェントが欺瞞に対処する方法を見てみましょう。

28 歳の中国人 Meta ソフトウェアエンジニアが、次のような理由で年収 37 万ドルの仕事を辞めました...

オープンソースの人工知能ソフトウェア 15 種類、あなたのお気に入りはどれですか?

人工知能の将来の発展における4つの主要なトレンドについての簡単な議論