30年以上前の主張が覆された？大規模モデルは人間レベルのシステム一般化能力を持つ

人間には「類推による学習」能力があることがわかっています。つまり、新しい概念を学習した後、すぐにそれを使用して関連する使用法を理解できるのです。たとえば、子どもが「ジャンプ」の仕方を知っていれば、「部屋を2回ジャンプして横切る」ということが何を意味するのか理解できます。

この能力を機械が獲得するのは非常に困難です。 1980 年代後半、哲学者で認知科学者のジェリー・フォーダーとゼノン・ピリシンは、人工ニューラルネットワークには体系的に結合できる能力が欠けていると主張しました。何十年もの間、この分野の研究者はニューラルネットワークに何らかの一般化機能を持たせようとしてきましたが、その機能には限界があります。そのため、ジェリー・フォーダーとゼノン・ピリシンの見解についても議論が続いています。

現在、ニューヨーク大学とポンペウ・ファブラ大学の研究者らが共同で、ChatGPTのようなツールの組み合わせ一般化を実行する能力を向上させる可能性のある、Meta-learning for Compositionality (MLC)と呼ばれる新しい手法を提案している。

実験結果によると、MLC 法は既存の方法よりも優れているだけでなく、人間レベルの体系的一般化 (SG) 機能も示し、場合によっては人間よりも優れていることもあります。組み合わせ一般化機能は、汎用人工知能 (AGI) を実現するための大規模言語モデル (LLM) の基礎でもあります。

この研究は、AI モデルが強力な組み合わせ一般化機能を持つことができることを示しており、これは画期的なことです。この研究論文はネイチャー誌に掲載された。

論文アドレス: https://www.nature.com/articles/s41586-023-06668-3

方法の紹介

MLC アプローチでは、ニューラルネットワークは、一連のエピソードにわたってスキルを向上させるために継続的に更新されます。あるシナリオでは、MLC に新しい単語が提示され、その単語を組み合わせて使用するように求められました。たとえば、「ジャンプ」という単語は、「ジャンプ回数」、「適切な回数ジャンプする」などの新しい単語の組み合わせを作成するために使用されます。その後、MLC は異なる単語を含む新しいシナリオを受け取り、そのたびにニューラルネットワークの組み合わせスキルが向上します。

下の図に示すように、4 つのプリミティブは入力単語から出力シンボルへの直接マッピングであり、それぞれが特定の色の円です。たとえば、「dax」は赤い円 (RED) に対応し、「wif」は緑の円 (GREEN) に対応し、「lug」は青い円 (BLUE) に対応します。「fep」、「blicket」、「kiki」はパラメータを持つ関数です。

関数 1 (fep) は、前のプリミティブを引数として受け取り、その出力を 3 回繰り返します (例: "dax fep" は RED RED RED)。関数 2 (blicket) は、前のプリミティブと次のプリミティブを引数として受け取り、特定の交互のシーケンスで出力を生成します (例: "wif blicket dax" は GREEN RED GREEN)。最後に、関数 3 (kiki) は、前の文字列と次の文字列を入力として受け取り、逆の順序で連結して出力します (例: "dax kiki lug" は BLUE RED)。この研究では、関数 3 の引数が他の関数によって生成されるケース (「wif blicket dax kiki lug」が BLUE GREEN RED GREEN になるなど) もテストしました。

下の図 4 に示すように、MLC 実装では標準の seq2seq トランスフォーマーが使用されます。このアーキテクチャには、クエリ入力と学習サンプルを処理するエンコーダートランスフォーマーと、出力シーケンスを生成するデコーダートランスフォーマーの 2 つのニューラルネットワークが連携して動作します。エンコーダーとデコーダーの両方に 3 つのレイヤーがあり、各レイヤーに 8 つのアテンションヘッドがあり、入力と隠し埋め込みのサイズは 128、フィードフォワード隠しサイズは 512 で、ReLU の代わりに GELU アクティベーション関数が使用されます。アーキテクチャ全体には合計約 140 万のパラメーターがあります。

エンコーダーネットワーク (図 4 (下)) は、クエリ入力シーケンスと一連の調査サンプル (入力/出力シーケンスのペア) を組み合わせた連結ソース文字列を処理します。デコーダーネットワーク (図 4 (上)) は、エンコーダーからメッセージを受信し、出力シーケンスを生成します。

MLC は、メモリベースのメタ学習に標準的なトランスフォーマーアーキテクチャを使用します。具体的には、各シーンは、ランダムに生成された潜在文法によって定義された特定の seq2seq タスクを提示します。

実験結果

MLC の能力を実証するために、この研究では疑似言語を使用した教育学習実験で MLC と人間を比較しました。主な結果は次のとおりです。

人間は強い体系性を示しますが、純粋な代数的推論から逸脱することもある帰納的バイアスにも依存します。

MLC は実験において人間レベルのシステム一般化 (SG) を実現します。 MLC はランダムに応答すると、1 対 1 のマッピングやアイコンの連結などのバイアスなど、人間のようなエラーパターンも生成します。

MLC は、人間の行動を予測する上で、より厳密なシステムモデルや基本的な seq2seq モデルよりも優れています。また、いくつかの指標では人間のパフォーマンスを上回ります。共同で最適化された MLC モデルは、人間の反応のニュアンスをうまく捉えます。

MLC はメタ学習を通じて SCAN や COGS などのシステム一般化ベンチマークで高い精度を達成しますが、基本的な seq2seq はこれらのテストで失敗します。

研究では、完全に体系的だが厳密に確率的なシンボリックモデルと、完全に柔軟だが非体系的なニューラルネットワークと比較すると、MLC のみが人間のパフォーマンスを模倣するために必要な体系的な一般化と柔軟性を実現していることがわかりました。

次に、具体的な実験報告の発表をいくつか見てみましょう。

上記の図 2 に示すように、この研究では参加者 (n = 25) に 14 の学習指示 (入力/出力ペア) のカリキュラムを提供し、参加者に 10 のクエリ指示に対する出力を作成するように求めました。

結果は、80.7%のケースで、参加者が代数標準に正確に一致する出力シーケンスを生成できたことを示しました（図2b（i）のアスタリスクで示されています）。長さがわかっている場合、2 倍の長さの出力シーケンスの確率パフォーマンスは 2.8% であり、シーケンスが長くなると指数関数的に減少します。注目すべきは、参加者が 72.5% の確率で、トレーニング中に見られたよりも長い出力シーケンスに正しく一般化したことです (例は図 2b(i) の最後の指示に示されています)。これは、ニューラルネットワークがしばしば苦手とするタイプの一般化です。

下の図 3 に示すように、これはオープンインストラクションタスクの結果です。異なる人間の参加者 (n=29) は、7 つの未知のインストラクションの出力とそれらの関係について合理的な推測を行うように求められました (一連の色付きの円で応答: fep fep または fep wif)。実験中、参加者は結果に影響を与える入力例や出力例を見ることはできませんでした。

29 人の参加者のうち、17 人 (約 58.6%) が図 3a、b (左) に類似した応答パターンを示しており、これは 3 つの誘導バイアスと完全に一致しています。すべての回答のうち、29人中18人が1対1（62.1%）に従い、29人中23人（79.3%）がアイコニックタンデムに従い、2人を除く全員が相互排他性に従い、各指示に対して独自の回答を出しました（29人中27人、93.1%）。

要約すると、MLC アプローチは、合成タスクの動的なストリームを通じてニューラルネットワークのトレーニングをガイドし、それによって人間のパフォーマンスを模倣するために必要なシステムの一般化と柔軟性を実現します。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<: 清華大学の光電子コンピューティングにおける新たなブレークスルー：チップの性能が1万倍向上、研究がネイチャー誌でトップに

>>: 快手は快易のビッグモデルの助けを借りてコメントエリアでのインテリジェントな返信を実現する「AI小快」をテスト中