OpenAIの最強のライバルトレーニングAIがLLMブラックボックスを分解し、ビッグモデルの「魂」を予期せず垣間見る

OpenAIの最強のライバルトレーニングAIがLLMブラックボックスを分解し、ビッグモデルの「魂」を予期せず垣間見る

大規模なモデルの「ブラックボックス」を解体するために、人類解釈可能性チームは、新しいモデルをトレーニングすることで単純なモデルを理解する方法を説明した論文を発表しました。

Anthropic が発表した研究では、人工知能の魂を見ることができたと主張している。次のようになります:

写真

写真

論文アドレス: https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-fsa

研究者らの見解では、この新しいモデルは、元のモデルのニューロンの動作原理と構成メカニズムを正確に予測し、理解することができるという。

Anthropic の説明可能性チームは最近、シミュレートされた AI システムで抽象的な高次元特徴空間を因数分解することに成功したと発表しました。

「AIブラックボックス」を理解するための説明可能なAIの作成

研究者たちはまず、非常に単純な512個のニューロンを持つAIにテキストを予測するトレーニングを行い、次に「オートエンコーダー」と呼ばれる別のAIに最初のAIの活性化パターンを予測するトレーニングを行った。

オートエンコーダーは、一連の特徴(高次元 AI のニューロンの数に対応)を構築し、これらの特徴が実際の AI のニューロンにどのようにマッピングされるかを予測するように求められます。

元の AI のニューロン自体は理解しにくいものでしたが、新しい AI のシミュレートされたニューロン (または「機能」) は一義的で、各機能が特定の概念または機能を表すことがわかりました。

たとえば、機能 #2663 は「神」という概念を表します。

写真

それを活性化する最強の訓練フレーズは、「ヨセフス」の記録から来ています。「神が吹雪を降らせたとき、彼はセフォリスに行きました。」

上部のアクティベーションはすべて「神」のさまざまな使用法に関するものであることがわかります。

このシミュレートされたニューロンは、実際のニューロンのグループ (407、182、および 259 を含む) で構成されているようです。

これらの実際のニューロン自体は「神」とはほとんど関係がありません。たとえば、ニューロン 407 は主に英語以外の文字 (特にアクセント付きのラテン文字) と非標準のテキスト (HTML タグなど) に反応します。

しかし、機能レベルではすべて順調です。機能 2663 がアクティブになると、テキストに「bless」、「forbid」、「damn」、または「-zilla」が出現する可能性が高くなります。

この AI は、「神」の概念とモンスターの名前の「神」を区別しません。これは、単純な AI にはこのタスクを具体的に処理するのに十分な神経リソースがないためである可能性があります。

しかし、AI の機能が増えるにつれて、状況は変わります。

写真

ツリーの下部では、特徴が増えるにつれて、AI が数学的な用語で「the」をどのように理解しているかがわかります。

まず、数学用語の「the」にはなぜ特別な特徴があるのでしょうか。これはおそらく、特定の「the」の後には「分子」や「余弦」などの数学用語が続くはずであることを知るという AI の予測ニーズによるものと思われます。

研究者が訓練した最小の AI には 512 個の特徴しかなく、「the」の特徴は 1 つだけだったが、16,384 個の特徴を持つ最大の AI では、その特徴は機械学習における「the」の特徴、複素解析における「the」の特徴、位相幾何学と抽象代数における「the」の特徴へと分岐していた。

したがって、システムがより多くのシミュレートされたニューロンを持つ AI にアップグレードされた場合、「神」を表す特徴は 2 つに分割される可能性があります。1 つは宗教における「神」の意味を表し、もう 1 つはモンスターの名前における「神」の意味を表します。

後に、キリスト教に神が存在するかもしれないし、ユダヤ教に神が存在するかもしれないし、哲学に神が存在するかもしれない、など。

研究チームは、実際のニューロンとそれに対応するシミュレートされたニューロンの 412 セットに対して主観的な解釈可能性の評価を実施し、シミュレートされたニューロンの解釈可能性が全体的に優れていることを発見しました。

写真

「神」などの一部の機能は、特定の概念に固有のものです。

最も解釈しやすいものも含め、他の多くの高度に解釈可能な機能は、大文字や小文字、英語や他のアルファベットなど、テキストを表すために使用される「形式」です。

写真

これらの特徴はどの程度一般的でしょうか? つまり、同じテキスト データで 2 つの異なる 4096 特徴の AI をトレーニングした場合、それらの AI は 4096 特徴のほとんど同じものを持つでしょうか? どちらにも「神」を表す特徴がいくつかあるでしょうか?

それとも、最初の AI が「神」と「ゴジラ」を一緒にし、2 番目の AI がそれらを分離するのでしょうか? 2 番目の AI には「神」を表す機能がまったくなく、そのスペースを使用して最初の AI が理解できない他の概念を保存するのでしょうか?

研究チームがテストを実行したところ、2 つの AI モデルが非常に似ていることがわかりました。

平均すると、最初のモデルに特徴があった場合、2 番目のモデルで最も類似した特徴の相関の中央値は 0.72 になります。

写真

AIの魂を見る

その後の作品はどうなるのでしょうか?

5月に、OpenAIはGPT-4(非常に大きい)にGPT-2(非常に小さい)を理解させようと試みました。彼らは、GPT-4 に GPT-2 の 307,200 個のニューロンのそれぞれを調べさせ、発見した内容を報告させました。

GPT-4 は、実際のニューロンをシミュレートされたニューロンに投影し、シミュレートされたニューロンを分析する技術をまだ習得していないため、興味深い結果と無意味な結果が混在していることがわかりました。

結果は控えめなものだったが、それは野心的な試みだった。

人類学的説明可能性の記事の AI とは異なり、GPT-2 はかつて世間に感銘を与えた本物の (ただし非常に小さい) AI です。

しかし、研究の最終的な目標は、主流の AI システムを説明できるようにすることです。

人類学的解釈可能性チームは、いくつかの理由から、まだそこに到達していないことを認めています。

まず、オートエンコーダをスケールアップすることは困難です。 GPT-4(またはAnthropicの同等物であるClaude)のようなシステムを説明するには、ほぼ同じサイズの説明AIが必要です。

しかし、この規模で AI をトレーニングするには、膨大な計算能力と資金援助が必要です。

第二に、説明のスケーラビリティも問題です。

たとえ神やゴジラ、その他すべてのもののシミュレートされたニューロンをすべて見つけ、それらがどのように接続されているかを示す巨大なグラフを描いたとしても。

研究者は、何百万もの特徴と接続を伴う複雑な相互作用を必要とする、より複雑な質問に答える必要があります。

したがって、何らかの自動化されたプロセス、つまり、ある種のより大規模な「GPT-4 に GPT-2 が何をしているかを知らせる」プロセスが必要になります。

最後に、これらすべては人間の脳について何を教えてくれるのでしょうか?

人間もニューラル ネットワークを使用して概念を推論し、処理します。

人間の脳には多くのニューロンがあり、GPT-4 も同様です。

人間が利用できるデータも非常に少なく、日常生活ではほとんど登場しない概念(イカなど)も数多くあります。

より大きな脳もシミュレートしているのでしょうか?

これはまだ非常に新しい研究分野ですが、人間の視覚皮質のニューロンは AI モデルで観察されるパターンと同様に、ある程度超局所的な方法で特徴をエンコードすることを示唆する予備的な調査結果がいくつかあります。

参考: https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-fsa

<<: 

>>:  マイクロソフトリサーチアジア、ウェイ・フル氏:人工知能における基礎イノベーションの第2次成長曲線

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIと機械学習ベースのソフトウェアソリューションが小売業界にどのような変化をもたらしているか

人工知能とその応用は間違いなくこれらの分野に革命をもたらし、新たな方向へと導いてきました。その応用範...

企業内で AI 分析を導入し拡張する方法

[[415863]]多くの組織の AI 分析に対する要望と、組織の規模や能力との間のギャップは拡大し...

ライブクイズゲーム「Winning with Ease」は止められない、Baidu AIが150万の現金獲得にあなたを招待します!

「2進数では、1+1=?」答えが2の場合、残念ながら150万を逃してしまいます。これは頭​​の体操...

将来、仮想現実、人工知能、そして人体はどのように融合するのでしょうか?

仮想現実や人工知能などのテクノロジーが人体とどのように統合されるかを探ります。将来、仮想現実と現実の...

残念ながら、自然言語理解はAIがまだ克服していない分野である。

わずか数年で、ディープラーニングのアルゴリズムは大きな進歩を遂げました。チェスのゲームで世界最高のプ...

AI導入によるエッジインテリジェンスの強化

エッジに AI を導入すると、強力なリアルタイム分析と処理を実現できる可能性があります。使用例には、...

データとAIが現代の人事慣行をどのように変えているのか

今日の人事チームにはバランスを取ることが求められています。一方では、データと AI の力を活用してビ...

Keras を使用して、30 行未満のコードで最初のニューラル ネットワークを記述します。

[51CTO.com クイック翻訳] 私が初めて AI に触れたときのことを振り返ると、いくつかの...

東京オリンピックでロボットが美しい風景になる

[[413763]]最近、4年に一度のオリンピックがついに東京で開催されました。フィールドでは、世界...

GitHub CEO: AIはプログラマーに取って代わることはできない

GitHub の CEO である Thomas Dohmke 氏は最近、人工知能とソフトウェア開発の...

覚えておいてください!私たちの未来に影響を与えるのはビッグデータや人工知能ではなくブロックチェーンです!

[[216863]]私たちの未来に影響を与えるそれは「ビッグデータ」でも「モノのインターネット」で...

MITの新しい研究により、物体間の潜在的な関係性を理解し、AIが人間のように世界を「見る」ことが可能になった。

[[441262]]人々がシーンを観察するとき、通常はシーン内のオブジェクトとそれらの間の関係を観...

...

ICLR 2022|スピードこそすべて!完全なバイナリ化 BiBERT による超圧縮

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...