自己一貫性を利用して大規模モデルの推論能力を向上させたGoogleは、ベンチマークの数学問題の75％を解決しました。これはGPT-3よりも20％高い数値です。

言語モデルはさまざまな NLP タスクで目覚ましい成功を収めていますが、その推論能力は不十分な場合が多く、モデルのサイズを単純に増やすだけではこの問題を解決できません。これに基づいて、Wei et al. (2022) は、言語モデルに、人が推論タスクを解決するときに採用する可能性のある推論プロセスを模倣した一連の短い文を生成するように促す、思考促進の連鎖を提案しました。

現在、Google Research の研究者は、大規模言語モデルの推論精度を大幅に向上させる「自己一貫性」と呼ばれるシンプルな戦略を提案しています。

論文アドレス: https://arxiv.org/pdf/2203.11171.pdf

論文の著者の一人であり、Google Brainの創設メンバーでもあるQuoc Le氏は本日、この自己矛盾のない方法はGSM8Kベンチマークの数学問題の75%を解くことができ、既存の方法を大幅に上回るとツイートした。

画像出典: https://twitter.com/quocleix/status/1513632492124663808

簡単に言えば、複雑な推論タスクには通常、正しい答えにたどり着くことができる複数の推論パスがあります。自己一貫性のある方法では、思考プロンプトの連鎖を通じて言語モデルから一連の異なる推論パスをサンプリングし、最も自己一貫性のある答えを返します。

このアプローチは、さまざまな算術および常識推論ベンチマークで自己整合的に評価され、追加のトレーニングや補助モデルを必要とせずに、さまざまな言語モデルの精度を堅牢に向上させることができます。最近の大規模言語モデル PaLM-540B と組み合わせると、私たちの自己一貫性のあるアプローチにより、いくつかのベンチマーク推論タスクのパフォーマンスが SOTA レベルまで向上します。

この方法は完全に教師なしであり、事前トレーニング済みの言語モデルは、追加の人間による注釈を必要とせず直接使用でき、追加のトレーニング、補助モデル、または微調整も必要ありません。

この研究では、LaMDA-137B（Thoppilan et al.、2022）、PaLM-540B（Chowdhery et al.、2022）、GPT-3 175B（Brown et al.、2020）を含む3つの大規模言語モデルにおけるさまざまな算術および常識推論タスクの自己一貫性を評価します。研究者たちは、さまざまなサイズの言語モデルに対して、自己矛盾のない方法によって推論能力を大幅に向上できることを発見しました。貪欲なデコード（Wei et al.、2022）を介して単一の思考チェーンを生成する場合と比較して、自己矛盾のないアプローチは、下の図 2 に示すように、すべての推論タスクの精度を大幅に向上させるのに役立ちます。

多様な推論経路における自己一貫性

人間の顕著な特徴の一つは、異なった考え方をすることである。深い思考を必要とするタスクでは、複数の解決策があり、それらはすべて同じ正解につながる可能性が高いと想定するのは自然なことです。したがって、研究者らは、言語モデルデコーダーからサンプリングすることによって、このプロセスを言語モデルでシミュレートできると示唆している。

以下の表 1 に示すように、モデルは数学の問題に対して複数の可能な応答を生成し、最終的に同じ正解 (出力 2、4、5 など) につながる可能性があります。言語モデルは完璧な推論器ではないため、モデルが誤った推論パスを生成したり、特定の推論ステップで間違いを犯したりする可能性があり (出力 1 と 3 など)、このソリューションが同じ答えに到達する可能性は低くなります (表 1 の 26 と 14)。

つまり、想定される推論プロセスが正しい場合、たとえそれが多様であったとしても、推論プロセスが間違っている場合よりも最終的な答えの一貫性が高くなる傾向があります。

研究者たちは、自己一貫性法を通じてこの直感を活用することを提案している。具体的な手順は次のとおりです。

まず、言語モデルに手動で記述された一連の思考連鎖の例が提示されます。
次に、言語モデルのデコーダーから候補出力のセットがサンプリングされ、異なる候補推論パスのセットが生成されます。
最後に、生成された回答の中から最も一貫性のある回答を選択して結果を統合します。

実験調査において、研究者らは、思考連鎖プロンプトを思考と組み合わせると、単一の生成パスのみを考慮した思考連鎖のみを使用するよりもはるかに優れた結果が得られることを発見しました。

実験結果

私たちは、さまざまな算術および常識推論ベンチマークで、提案された自己矛盾のないアプローチを既存の方法と比較する一連の実験を実施しました。このアプローチにより、幅広いモデルスケールにわたって各言語モデルの推論精度が大幅に向上することがわかりました。

具体的には、異なる推論パスにおける自己一貫性、つまり自己一貫性（マルチパス）を評価しました。結果は 10 回の実行で平均化され、各実行で 40 個の出力がデコーダーから独立してサンプリングされました。比較の基準となるのは、これまで大規模言語モデルのデコードに使用されてきた貪欲デコード（シングルパス）と呼ばれる、単一の思考チェーンの貪欲デコードです。

算数推論の結果は以下の表2に示されています。 LaMDA-137B の場合、自己一貫性戦略により、各タスクで貪欲デコード (シングルパス) に比べて大幅なパフォーマンス向上が達成され、AddSub、ASDiv、AQuA、GSM8K タスクで絶対精度がほぼ 10% 向上し、MultiArith タスクと SVAMP タスクではそれぞれ 23.9% と 14.4% 向上しました。

より大きな PaLM540B モデルの場合、自己一貫性戦略によってパフォーマンスが大幅に向上し、ASDiv、AQuA、SVAMP、GSM8K でそれぞれ 7.9%、12.5%、7.6%、17.9% という大幅な向上が達成されました。

常識的推論の結果は以下の表3に示されています。 LaMDA-137B モデルの場合、自己一貫性戦略によりすべてのタスクの精度が大幅に向上し、StrategyQA と CommonsenseQA の絶対精度が 2% ～ 5% 向上し、ARC イージーセットと ARC チャレンジセットの絶対精度がそれぞれ 4.0% と 4.7% 向上しました。

同様に、より大きな PaLM540B モデルは、StrategyQA で 6.3% の改善、ARC-challenge で 3.5% の改善という一貫した成果を達成しました。

下の図 3 は、デコーダーから異なる数の推論パスをサンプリングすることによる、自己一貫性デコードと貪欲デコード (シングルパス) のパフォーマンス比較を示しています。より多くの推論パス (たとえば 40) をサンプリングすると、一貫してパフォーマンスが向上することがわかります。ここでも、推論パスに多様性を導入することの重要性が強調されます。

この研究では、小規模サンプル学習における自己整合法とアンサンブルベースの方法のパフォーマンスを比較します。結果を以下の表 5 に示します。自己無撞着法と比較すると、積分ベースの方法で得られるゲインははるかに小さくなります。

生成品質を向上させるためのもう 1 つの一般的なアプローチは、サンプルアンドランクです。このアプローチでは、デコーダーから複数のシーケンスがサンプリングされ、各シーケンスのログ確率に基づいて、または追加でトレーニングされた再ランク付けに基づいてランク付けされます。

この研究では GPT-3 モデルを使用し、以下の図 4 に示す結果が得られました。サンプルアンドソートアプローチでは、追加のサンプリングシーケンスとソートによって精度が向上しますが、自己整合アプローチと比較すると、その向上ははるかに小さくなります。

詳細については原文論文を参照してください。

<<: DAMOアカデミーは、初めて半教師あり知識注入を使用して、新しい事前トレーニング済み対話モデルを立ち上げ、大幅な改善を達成しました。

>>: GoogleはAIを活用して古い地図情報を更新