GPT に代表される大規模言語モデルは、これまでも、そしてこれからも、並外れた成果を達成し続けますが、不均衡なトレーニング セットによって引き起こされるバイアスなど、よく知られた問題も抱えています。 この問題に対処するため、スタンフォード大学の研究者数名が、意味ベクトルを調整して言語モデルの動作に介入し、言語モデルが望ましい結果を出力できるように導くことができると主張する新しいニューラルアーキテクチャ「バックパック」を提案しました。このプロジェクトのコードとモデルが公開されました。 論文アドレス: https://arxiv.org/abs/2305.16765 プロジェクトアドレス: https://backpackmodels.science 論文の筆頭著者であり、スタンフォード大学のコンピューターサイエンスの博士課程の学生であるジョン・ヒューイット氏は、バックパックはトランスフォーマーの代替として表現力を拡張し、制御による解釈可能性を実現するための新しいインターフェースを提供できると述べています。バックパックは、各単語の k 個の非文脈的意味ベクトルを学習し、それによって教師なしの方法で単語の予測される使用法を解きほぐします。 導入まず、「CEO は _ であると信じている」という文の前半部分があると仮定します。私たちの問題は、この文の性別分布に対するニューラル言語モデルの偏りを排除することです。直感的に、この文の性別による偏見は「CEO」という言葉から来ていることがわかります。なぜなら、「CEO」を「看護師」に置き換えると、偏見が逆転するからです。 CEO への偏見を排除するためには、モデルを介入させて、CEO という単語が出てくるすべてのコンテキストに適用する必要があります。 理想的には、モデルのコンテキストを変更せず、予測可能な効果をもたらす介入を行いたいと考えています。一般的に、説明可能性と制御の両方の理由から、グローバルに適用される簡単にアクセスできるインターフェース(非コンテキスト表現など)を介して介入を実装することを好みます。 しかし、Transformer の場合、コンテキスト表現が入力のモノリシック関数であるため、このような介入を実現するのは困難です。単一関数とは、内部に論理分岐を持ち、入力に基づいて異なるロジックを実行できる関数です。 Transformer モデルへの介入は、状況に応じて複雑な非線形効果をもたらします。しかし、私たちは、モデルが豊かで正確な介入を実現し、あらゆるコンテキストで状況を予測でき、表現力も豊かであることを願っています。このようにして、そのようなモデルは Transformer の実行可能な代替モデルになる可能性があります。 これらの課題に対処するために、私たちは、非文脈的表現の対数線形結合を予測する新しいニューラル アーキテクチャ、Backpack を提案します。彼らのアプローチは、語彙内の各単語を、単語のさまざまな学習された側面を表す非文脈的意味ベクトルのセットとして表現することです。 たとえば、「科学」という単語の意味ベクトルは、科学の種類、科学とテクノロジーとの関係、受け入れられている科学的概念、科学的プロセスのさまざまな側面(複製または実験)をエンコードできます(下の表 1 を参照)。意味ベクトルは、単語の古典的な意味を学習するのではなく、さまざまなコンテキストにおける単語の潜在的な役割のより一般的な側面を学習します。実際、意味ベクトルは、古典的な単語ベクトルのマルチベクトル一般化として見ることができます。 図 1: Transformer はシーケンスのモノリシック関数ですが、Backpack の出力は、学習した単語のさまざまな側面の非文脈的な加重合計です。 意味ベクトルに介入する場合、さまざまなコンテキストで介入結果を予測可能にするために、Backpack はシーケンス内の各単語を、シーケンス内のすべての単語の意味ベクトルの線形結合として表現します。 Backpack の表現力は、この線形結合の重みをシーケンス全体の関数として計算するネットワーク モデルから生まれます。ちなみに、研究者が実験に使用したネットワークモデルはTransformerです。意味ベクトルはコンテキストに基づいて大まかに選択されるため、特定のドメインに特化することができます。各意味は特定のコンテキストでのみ有用であると学習でき、有用かどうかを予測できます。つまり、予測に対する意味の寄与は対数線形パターンに従い、意味ベクトルへの介入はコンテキストに関係なく均等に適用されます (重みが非負のスカラーになるまで)。 研究者の実験は、バックパック言語モデルが確かに表現力豊かであり、意味ベクトルに介入することでモデルの説明と制御に役立つことを示しています。実験では、研究者らは 500 億の OpenWebText トークンで Backpack 言語モデルをトレーニングしました。この Backpack モデルのコンテキスト ネットワークには 1 億 2,400 万のパラメーターがあり (意味ベクトルには 4,600 万のパラメーターがあります)、1 億 2,400 万のパラメーターを持つ Transformer のパープレキシティを達成できますが、より高い解釈可能性が必要な場合は、より大きなモデルが必要になります。研究者らはまた、意味ベクトルを通じて豊富な単語の意味概念を具体的にエンコードする方法も実証しました。 4つの語彙類似性データセット(SimLex999など)の定量分析結果によると、1億7000万のパラメータを持つBackpackの意味ベクトルは、60億のパラメータを持つGPT-J-6B Transformerの単語埋め込みよりも優れており、このタスク専用の方法の現在の最高性能に近いものです。研究者らはまた、意味ベクトルがバックパック言語モデルの制御メカニズムを提供できることも示した。 たとえば、職業上の性別のステレオタイプを持つ単語(「CEO」や「看護師」など)の場合、この性別の偏りに関連する意味ベクトルが学習されることがよくあります。研究者は、この意味ベクトルの振幅を減らすことで、限られた環境における文脈予測における性別の違いを大幅に減らすことができることを発見しました。 表 1: 左側は、豊富なドメイン固有の参照を持つ「science」という単語を表すセンス ベクトルの例です。右側は、センス ベクトルを非文脈的な方法で編集し (MacBook を HP に関連付ける)、結果として得られる文脈予測を変更する例です。 バックパックアーキテクチャまず、Backpack アーキテクチャの一般的な形式を定義し、次に、連続 bag-of-words word2vec (CBOW) と self-attention-only ネットワークが Backpack の特殊なケースであることを示します。 バックパック全般 バックパックはシンボルシーケンスです ベクトルシーケンスへのマッピング ここで各記号x_iは有限語彙Vに属し、 。ここでo_iはコンテキストシーケンスx_{1:n}内のx_iのバックパック表現と呼ばれます。 意味ベクトル。各x∈Vに対して、バックパックはk個の意味ベクトルを構築します。 で 。センス ベクトルは、word2vec や GloVe などの従来の非文脈的単語表現に似たマルチベクトルです。 加重合計。シーケンスx_{1:n}の場合、要素x_iの表現o_iは、文脈における単語の予測意味ベクトルの重み付き合計です。文脈上の重みが与えられている場合、 Backpackのコンテキスト化された重みは、シーケンスx_{1:n}全体の(非線形)コンテキスト関数によって定義されます。 で バックパックという名前は、バックパックがバッグ(言葉の袋に似ている)に似ているが、バックパックの方が整理されているという事実に由来しています。単語のバッグと同様に、バックパック表現も非文脈的意味の加重合計です。ただし、この加重合計の重みは順序付けられたシーケンスに依存するため、バックパックはより順序付けられています。 バックパックモデル。バックパックモデルは、特定の出力空間Y上の確率をバックパック表現o_{1:n}の対数線形関数として定義する確率モデルです。 ここで、は線形変換です。バックパック モデルの表現は対数線形パターンを示しているため、予測に対する有意性ベクトルの寄与も対数線形パターンを示しています。これにより、E を介して語彙に意味ベクトルを投影して検査し、それがあらゆるコンテキストでの予測にどのように貢献するかを確認できます。 モデルは、LSTM や Transformer などの一般的なディープ ニューラル ネットワークを使用してパラメータ化できます。これらのネットワークの出力表現は、シーケンス全体の (比較的) 制約のない関数であるため、Backpack ではありません。それに比べて、バックパックの表現力は限られているようだ。その表現o_iは非コンテキストベクトルである。 スカラーによって重み付けされた合計。シーケンス要素間のコンテキスト関係は、重み α によってのみ表すことができます。それにもかかわらず、研究者の実験は、表現力の高い文脈化された重みネットワークが意味ベクトルの加重和を通じて複雑な機能を表現できることを示しています。たとえば、新たに提案された 1 億 7000 万パラメータの Backpack 言語モデルは、1 億 2400 万パラメータの Transformer モデルを使用して α を計算し、1 億 2400 万パラメータの Transformer 言語モデルと同じ損失を実現します。 研究者らは、連続バッグ・オブ・ワードと単層アテンションがバックパックの特殊なケースであることを数学的に証明しましたが、ここでは詳しくは説明しません。詳細については、元の論文を参照してください。 Backpackによる言語モデリング研究者らはパラメータ化にBackpackを使用し、ニューラル自己回帰言語モデルを定義しました。シーケンス内の次のトークンの確率については、標準的なソフトマックスパラメータ化を使用しました。ここでは、 ロジットへのマッピング 重みマトリックス バックパック表現o_jは意味ベクトルC(x)と文脈化重みα_jによって定義されることを思い出してください。以下では、まず式(1)の予測意味ベクトルCのパラメータ化を導入し、次に文脈重みネットワークAのパラメータ化を導入する。 o_j が Backpack によってパラメータ化される場合、そのモデルは Backpack 言語モデルと呼ばれることがあります。 意味をパラメータ化する 意味機能について 、各x∈Vを これらの埋め込みはフィードフォワードネットワークに渡される。 : 埋め込み/射影行列Eは(9)の出力行列と密接に関係している。ここで、ルックアップ テーブルを使用してすべての k × |V| 意味ベクトルを定義できますが、k が増加すると、パラメーターの数は非常に多くなります。そこで研究者がここで行ったのは、単語を に埋め込み、共有重みを使用して に増幅することです。これは、単語の種類間で観察される関連する意味効果を説明するかもしれません。コンテキストに応じた重みのパラメータ化 研究者たちは、マルチヘッド キーワード クエリ セルフ アテンションのレイヤーを備えた標準の Transformer を使用してそれをパラメーター化し、埋め込まれたシーケンスを Transformer に渡しました。 ここでは、適切な自己回帰マスクと何らかの位置表現を使用して、予測される意味 ℓ=1,...,k ごとに行列 と が存在する行列 を計算します。 これら k 個の意味をヘッドと見なし、各ヘッドについて、コンテキスト化された重みによって単語への注意の分布を定義します。 バックパック言語モデルのトレーニング実験このセクションでは、ハイパーパラメータ、データと最適化のプロセス、Backpack および Transformer 言語モデルのトレーニングの評価と結果など、研究者が検証のために実施した実験を紹介します。ここでは詳細には触れませんが、研究者は、優れた言語モデリングのパフォーマンスを達成するには、k > 1 の意味ベクトルを学習する必要があることを強調しています。 表 2: 言語モデリングのパフォーマンス。すべてのモデルは、OWT で 500,000 のトークン バッチ サイズで 100,000 ステップトレーニングされています。 PPL インデックスの場合は低いほど良く、精度インデックスの場合は高いほど良いです。これらのモデルのパラメータは比較できないことに注意してください。各 Backpack コンテキスト化ネットワークには、同等のサイズの Transformer があります。 Backpack 言語モデルは、各 Backpack 言語モデルおよび Backpack のコンテキスト化ネットワークと同等の仕様を持つ Transformer 言語モデルと比較すると、ほぼ同等のパフォーマンスを発揮することがわかります。 Backpack には、主に意味ベクトルから得られるパラメーターがさらにあることに注意してください。研究者たちは、トレーニング中に、Backpack 言語モデルは Transformer よりも収束に時間がかかることを発見しました。興味深いことに、Small Backpack と Transformer はほぼ同じ OWT パープレキシティを達成していますが、Backpack 言語モデルは LAMBADA と Wikitext では大幅に優れたパフォーマンスを発揮する一方で、BLiMP ではパフォーマンスが低下しています。 意味ベクトルにおける創発的構造以下の定性的および定量的実験では、語彙の類似性と関連性を計算する際の意味ベクトルの有効性を検証します。これらの結果は、意味ベクトルが介入を実施するための高レベルのインターフェースとして機能できることを示唆しています。 意味の視覚化 実験経験に基づいて、トレーニングされたバックパック モデルは、特定の意味ベクトル インデックスをさまざまな予測効果に関連付けます。これらの効果を説明するために、研究者は単語xの意味ℓを取り、この意味を単語の埋め込みに投影しました。 。これはまさに、(スカラーまでの)有意性がモデルの予測にどのように寄与するかということであることに注意してください。研究者たちは、その投影下で最高得点の単語を報告することによって意味ベクトルの役割を説明した。 以下の表 3 は意味の一部を視覚化したものです。たとえば、意味 12 はほぼすべての単語の幅広い関連概念をエンコードしているようです。意味 3 は、x の特定のバイナリ分布の特定のケースをエンコードしています。意味 14 は、動詞の関連オブジェクトと名詞の関連修飾語句の依存関係をエンコードしているようです。 表 3: 多くの単語にわたる同じ意味インデックスが、意味、関連性、予測的使用法のきめ細かい概念をどのようにエンコードするかを視覚化したもの。 単語関係テスト 下の表4からわかるように、Sense 12(同義語のセンス)は、RG-65上のGPT-J-6Bを除いて、GPT-2-1.5BやGPT-J-6Bなどの埋め込みと同等かそれ以上のパフォーマンスを発揮し、すべてのデータセットで優れたパフォーマンスを発揮します。意味 14 は動詞の目的語の意味であり、動詞の類似性 (VerbSim3500) でのみ優れたパフォーマンスを発揮しますが、意味の最小類似性は名詞の語彙の類似性 (SimLex999) で特に優れたパフォーマンスを発揮します。これは、トレーニング タスクが大きく異なり、意味ベクトルが大量の語彙情報をエンコードしているにもかかわらず、提案された方法が現在の最良の方法に匹敵することを示しています。 制御のための意味ベクトル最後に、研究者らはいくつかの具体的な事例を用いて概念実証デモンストレーションを実施し、意味ベクトルを使用して言語モデルの動作を制御できることを示しました。 限定されたトピックに関するコンテンツを生成する 下の図 2 では、生成されたトピックが Backpack の意味介入によって制御され、Transformer の PPLM と比較されています。 ジェンダーバイアスの軽減 研究者たちは、多くの職業名詞(看護師、CEO、教師など)10 の意味ベクトルには性別の固定観念が含まれており、これらの固定観念は代名詞を通じて一貫して表現されていることを発見しました。研究者たちは、意味を 10 分の 1 に減らす (1 未満のスカラーを掛ける) ことで、これらの職業名詞における Backpack の性別による偏りを軽減できることを発見しました。 表 5: 限定された設定における代名詞に基づく性別による偏見の軽減。 図 3: 「看護師が部屋に入ってきたとき」という文の前半では、バックパック言語モデルは「看護師」という単語の意味を 0 (完全に削除) から 1 (元のケース) に変更することで条件付き確率分布に影響を与えます。 知識編集 研究者らは、この新しい手法を知識編集に応用することも研究した。知識編集とは、世界に関する知識についてのモデルの予測を編集することを指します。特に、固有名詞に関連する多くの単語が、その名詞の意味ベクトル内に位置付けられることに留意する必要があります。定性的な概念実証実験では、研究者はターゲット単語(MacBook など)の意味ベクトルを編集して別の単語(Apple など)との関連を削除し、それらの関連をさらに別の単語(HP など)に置き換えました。ご想像のとおり、この介入により、予測結果で MacBook と HP が関連付けられることになります。 表 6: Backpack からのサンプル。Apple は MacBook の意味埋め込みの外側に投影され、Apple の元の位置は HP に置き換えられています。 3 番目のサンプルも同様で、アメリカンフットボールのチームとアスリートに関連しています。太字部分はプロンプトです。 |
<<: PromptAppGPT メジャーアップデート! AIアシスタントの開発と運用のハードルはゼロ:AutoGPTはわずか数十行のコードで実装可能
>>: GPT-4はMITの学位を取得できない、MITの研究チームは「不正行為」と反応したが、ネットユーザーはそれを信じない
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
Redis のメモリ オーバーフローの問題は、通常、次のような状況によって発生します。データが多す...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[208848]]人工知能は世界を席巻しており、AIの重要な分野の1つであるコンピュータービジョン...
7月10日、2021年世界人工知能会議(WAIC)が上海で閉幕した。 2011年以来、ビッグデータ...
過去数年間、機械学習 (ML) と人工知能 (AI) の専門家は、以前は完全に人間が実行できると考え...
ここ数年、世界的な自動運転はまだ発展途上であったとすれば、各国の政策の推進により、自動運転に関する最...
順序先月、上司が「大規模ウェブサイトのアルゴリズムとアーキテクチャに関する簡単な説明」という講義をし...
この分野の専門家は、AI技術が従業員に大きな変化をもたらし、企業のビジネスのやり方を変えていると述べ...
スマートグリッドは、供給者から消費者に電力を供給する相互接続されたコンポーネントの複雑なシステムです...
[[411053]]ファーウェイは7月9日、2021年世界人工知能大会およびアセンド人工知能サミッ...