ニューラルネットワークの説明不可能性は、AI の分野では常に「長年の」問題となってきました。 しかし、今は、ある程度の進歩がみられるようです。 ChatGPT の最大のライバルである Claude を開発している Anthropic 社は、辞書学習を使用して約 500 個のニューロンを約 4,000 個の解釈可能な特徴に分解することに成功しました。 写真 具体的には、ニューロンは解釈不可能ですが、この分解の後、Anthropic は各特徴が異なる意味を表していることを発見しました。たとえば、ニューロンの一部は DNA 配列を担い、他のニューロンは HTTP リクエストや法律文書などを表しており、解釈可能であることを意味します。 写真 これらの機能のいずれかを人工的に刺激することで、モデルが期待どおりの出力を出すように誘導できます。 たとえば、DNA 機能をオンにするとモデルは DNA を出力し、アラビア語テキスト機能をオンにするとモデルはアラビア語テキストを出力します。 写真 アントロピックは興奮してこう述べた。 彼らのアプローチは、AI の説明不可能性という大きな障害を克服する可能性が高い。 言語モデルの仕組みを理解すれば、モデルが安全かどうか、社会や企業に採用されるべきかどうかを判断することが容易になります。 写真 詳しく見てみましょう。 辞書学習による言語モデルの分解まず、言語モデルだけに関して言えば、その解釈不可能性は、ネットワーク内のほとんどのニューロンが「多意味的」であるという事実に主に反映されています。 つまり、無関係な複数の事柄に反応できるのです。 たとえば、小規模な言語モデル内のニューロンは、学術的な引用、英語の会話、HTTP リクエスト、韓国語のテキストなど、さまざまなコンテンツに対して同時に強く活性化する可能性があります。 写真 これにより、ニューラル ネットワークの各部分の特定の機能と相互作用を理解することができず、ネットワーク全体の動作を推測できなくなります。 では、多義性を引き起こす原因は何でしょうか? 昨年早くも、Anthropic は、潜在的な要因の 1 つは「重ね合わせ」であると推測していました。 これは、モデルが多数の無関係な概念を少数のニューロンに圧縮する操作を指します。 写真 同時に、Anthropic は、辞書学習、つまり物事の最も重要な特徴を抽出し、最終的には辞書を引くように新しい知識を獲得できるようにすることが、この問題の解決策であるとも指摘しました。 以前、彼らは重ね合わせのおもちゃのモデルを提案し、次のことを証明しました。
2 つ目は、辞書学習を使用して、重ね合わせを示すモデルで超完全な特徴基底を見つけることです。 3 番目は、最初の 2 つの方法を組み合わせることです。 実験により、方法 1 では多義性を排除するのに十分ではなく、方法 2 では深刻な過剰適合の問題があることが示されました。 そこで、チームはスパースオートエンコーダと呼ばれる弱い辞書学習アルゴリズムを採用しました。 トレーニングされたモデルから学習した特徴を生成することができ、モデルニューロン自体よりも意味的にスケーラブルな分析単位を提供します。 全体として、このアルゴリズムは、ニューラル ネットワークのアクティベーションでの辞書学習を使用する方法や分離など、多くの過去の研究に基づいて構築されています。 結果として得られたエンコーダーは、重ね合わせから解釈可能な特徴を抽出することに「説得力のある成功」を達成しました。 具体的には、Anthropic は 512 個のニューロンを持つ単層 MLP トランスフォーマーを使用し、最終的に 80 億のデータ ポイントを持つ MLP アクティベーションでスパース オートエンコーダーをトレーニングして、MLP アクティベーションを比較的解釈しやすい特徴に分解します。拡張係数は 1 倍 (512 個の特徴) から 256 倍 (131072 個の特徴) の範囲になります。 Anthropic チームは、すべての解釈可能性分析を A/1 と呼ばれる単一の実行にまとめました。これには、それぞれ意味が注釈付けされた 4,096 個の機能が含まれており、必要に応じて手動でアクティブ化できます。 以下にそれらを視覚化したものを示します。 写真 7つの主要な結論を含む統合された長いレポートが発表されました。現在、Anthropic は上記の結果をすべてレポートの形で公開しています。 レポートのタイトルは「単一意味性に向けて: 辞書学習による言語モデルの分解」です。 この記事は非常に長く、4つの部分に分かれています。
一般的に、重要な結論は 7 つあります。 1. スパースオートエンコーダーを使用すると、意味的に比較的単純な特徴を抽出できますが、学習した特徴のほとんどは比較的解釈可能です。 2. スパースオートエンコーダは、ニューラル基盤ではほとんど目に見えない解釈可能な特徴を生成します。 3. スパースオートエンコーダの特徴は、トランスフォーマーの生成に介入してガイドするために使用できます。 たとえば、Base64 機能を有効にすると、モデルは Base64 テキストを生成し、Arabic 機能を有効にすると、アラビア語テキストが生成されます。 4. スパースオートエンコーダは比較的一般的な特徴を生成します。特徴は、自身のモデルニューロンよりも、互いに類似しています (「普遍性」セクションに対応)。 5. オートエンコーダのサイズを大きくすると、特徴が「分割」されるように見えます。たとえば、小さな辞書内の Base64 機能は、大きな辞書では 3 つに分割され、それぞれの意味はより微妙ですが、解釈可能です (「機能の分割可能性」セクションに対応)。 6. わずか 512 個のニューロンで数万の特徴を表現できます。 7. 機能を「有限状態オートマトン」に似たシステムに接続して、複雑な動作 (HTML 関数の生成など) を実現できます。 写真 もう一つコメント欄では、一部のネットユーザーが次のようにコメントした。 ニューロンは神秘的な箱のようなもので、Anthropic の研究は箱の中を覗く方法を研究することに相当する。 写真 明らかに、この作業はまだ始まりに過ぎません。 Anthropic 社は解釈可能性に関わる研究者やエンジニアの採用も強化している。 写真 クリックすると、給与は25万ドル(約180万人民元)から52万ドルの間であり、研究内容は上記のレポートと密接に関連していることがわかります。 レポートリンク: https://transformer-circuits.pub/2023/monosemantic-features/index.html 参考リンク: https://twitter.com/anthropicai/status/1709986949711200722 |
<<: 76ページのレビュー+300以上の参考文献で、Tiandaチームは大規模言語モデルアライメント技術を包括的に紹介しています。
>>: GPT-4 が Nature の査読者になる?スタンフォード大学と清華大学の卒業生による約5,000の論文がテストされ、その結果の50%以上が人間の査読者と一致した。
マイクロソフトは、動画や画像に基づいて感情を識別するサービスを含む、人工知能を活用した顔認識ツールの...
2017 年 3 月 9 日、ハッカー アンダーグラウンド テクノロジーの専門家であり作家でもある...
[[320195]]ビッグデータにより自動運転の未来が可能になります。自動運転は自動車メーカーの間で...
[[432947]] JAVA ベースで開発された Weka は、機械学習やデータマイニングに適した...
日常のコミュニケーションでは、対話の効果を高めるために、口調、感情表現、間、アクセント、リズムなどの...
序文これは「JavaScript のデータ構造とアルゴリズムを学ぶ」の最後のブログです。これは、面接...
ChatGPT などの一般的な大規模モデルは数百の機能をサポートしていますが、一般的な日常的なユーザ...
世界中で白熱した議論を巻き起こしたLK-99論争が終結した後、ネイチャー誌の見出しに再び「室温超伝導...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
写真しかない場合、どのようにして人物のリアルなデジタルアバターを作成するのでしょうか? 2020年の...
宝くじで生計を立てる可能性はどれくらいありますか? 2005年、MITの学生グループが集まり、ギャン...
人工知能(AI)技術は静かに人間の生活を変えています。顔認証、顔スワイプ決済、新型コロナウイルス感染...
中国、日本、韓国の囲碁名人数十人がこのゲームに挑み、アルファ碁は1敗もせずに60連勝した。その後、世...
ザッカーバーグ氏は最近また大きなトラブルに巻き込まれた。リチャード・ブルーメンソール議員(プライバシ...