自己一貫性を利用して大規模モデルの推論能力を向上させたGoogleは、ベンチマークの数学問題の75%を解決しました。これはGPT-3よりも20%高い数値です。

自己一貫性を利用して大規模モデルの推論能力を向上させたGoogleは、ベンチマークの数学問題の75%を解決しました。これはGPT-3よりも20%高い数値です。

言語モデルはさまざまな NLP タスクで目覚ましい成功を収めていますが、その推論能力は不十分な場合が多く、モデルのサイズを単純に増やすだけではこの問題を解決できません。これに基づいて、Wei et al. (2022) は、言語モデルに、人が推論タスクを解決するときに採用する可能性のある推論プロセスを模倣した一連の短い文を生成するように促す、思考促進の連鎖を提案しました。

現在、Google Research の研究者は、大規模言語モデルの推論精度を大幅に向上させる「自己一貫性」と呼ばれるシンプルな戦略を提案しています。

論文アドレス: https://arxiv.org/pdf/2203.11171.pdf

論文の著者の一人であり、Google Brainの創設メンバーでもあるQuoc Le氏は本日、この自己矛盾のない方法はGSM8Kベンチマークの数学問題の75%を解くことができ、既存の方法を大幅に上回るとツイートした。

画像出典: https://twitter.com/quocleix/status/1513632492124663808

簡単に言えば、複雑な推論タスクには通常、正しい答えにたどり着くことができる複数の推論パスがあります。自己一貫性のある方法では、思考プロンプトの連鎖を通じて言語モデルから一連の異なる推論パスをサンプリングし、最も自己一貫性のある答えを返します。

このアプローチは、さまざまな算術および常識推論ベンチマークで自己整合的に評価され、追加のトレーニングや補助モデルを必要とせずに、さまざまな言語モデルの精度を堅牢に向上させることができます。最近の大規模言語モデル PaLM-540B と組み合わせると、私たちの自己一貫性のあるアプローチにより、いくつかのベンチマーク推論タスクのパフォーマンスが SOTA レベルまで向上します。

この方法は完全に教師なしであり、事前トレーニング済みの言語モデルは、追加の人間による注釈を必要とせず直接使用でき、追加のトレーニング、補助モデル、または微調整も必要ありません。

この研究では、LaMDA-137B(Thoppilan et al.、2022)、PaLM-540B(Chowdhery et al.、2022)、GPT-3 175B(Brown et al.、2020)を含む3つの大規模言語モデルにおけるさまざまな算術および常識推論タスクの自己一貫性を評価します。研究者たちは、さまざまなサイズの言語モデルに対して、自己矛盾のない方法によって推論能力を大幅に向上できることを発見しました。貪欲なデコード(Wei et al.、2022)を介して単一の思考チェーンを生成する場合と比較して、自己矛盾のないアプローチは、下の図 2 に示すように、すべての推論タスクの精度を大幅に向上させるのに役立ちます。

多様な推論経路における自己一貫性

人間の顕著な特徴の一つは、異なった考え方をすることである。深い思考を必要とするタスクでは、複数の解決策があり、それらはすべて同じ正解につながる可能性が高いと想定するのは自然なことです。したがって、研究者らは、言語モデルデコーダーからサンプリングすることによって、このプロセスを言語モデルでシミュレートできると示唆している。

以下の表 1 に示すように、モデルは数学の問題に対して複数の可能な応答を生成し、最終的に同じ正解 (出力 2、4、5 など) につながる可能性があります。言語モデルは完璧な推論器ではないため、モデルが誤った推論パスを生成したり、特定の推論ステップで間違いを犯したりする可能性があり (出力 1 と 3 など)、このソリューションが同じ答えに到達する可能性は低くなります (表 1 の 26 と 14)。

つまり、想定される推論プロセスが正しい場合、たとえそれが多様であったとしても、推論プロセスが間違っている場合よりも最終的な答えの一貫性が高くなる傾向があります。

研究者たちは、自己一貫性法を通じてこの直感を活用することを提案している。具体的な手順は次のとおりです。

  • まず、言語モデルに手動で記述された一連の思考連鎖の例が提示されます。
  • 次に、言語モデルのデコーダーから候補出力のセットがサンプリングされ、異なる候補推論パスのセットが生成されます。
  • 最後に、生成された回答の中から最も一貫性のある回答を選択して結果を統合します。

実験調査において、研究者らは、思考連鎖プロンプトを思考と組み合わせると、単一の生成パスのみを考慮した思考連鎖のみを使用するよりもはるかに優れた結果が得られることを発見しました。

実験結果

私たちは、さまざまな算術および常識推論ベンチマークで、提案された自己矛盾のないアプローチを既存の方法と比較する一連の実験を実施しました。このアプローチにより、幅広いモデルスケールにわたって各言語モデルの推論精度が大幅に向上することがわかりました。

具体的には、異なる推論パスにおける自己一貫性、つまり自己一貫性(マルチパス)を評価しました。結果は 10 回の実行で平均化され、各実行で 40 個の出力がデコーダーから独立してサンプリングされました。比較の基準となるのは、これまで大規模言語モデルのデコードに使用されてきた貪欲デコード(シングルパス)と呼ばれる、単一の思考チェーンの貪欲デコードです。

算数推論の結果は以下の表2に示されています。 LaMDA-137B の場合、自己一貫性戦略により、各タスクで貪欲デコード (シングルパス) に比べて大幅なパフォーマンス向上が達成され、AddSub、ASDiv、AQuA、GSM8K タスクで絶対精度がほぼ 10% 向上し、MultiArith タスクと SVAMP タスクではそれぞれ 23.9% と 14.4% 向上しました。

より大きな PaLM540B モデルの場合、自己一貫性戦略によってパフォーマンスが大幅に向上し、ASDiv、AQuA、SVAMP、GSM8K でそれぞれ 7.9%、12.5%、7.6%、17.9% という大幅な向上が達成されました。

常識的推論の結果は以下の表3に示されています。 LaMDA-137B モデルの場合、自己一貫性戦略によりすべてのタスクの精度が大幅に向上し、StrategyQA と CommonsenseQA の絶対精度が 2% ~ 5% 向上し、ARC イージー セットと ARC チャレンジ セットの絶対精度がそれぞれ 4.0% と 4.7% 向上しました。

同様に、より大きな PaLM540B モデルは、StrategyQA で 6.3% の改善、ARC-challenge で 3.5% の改善という一貫した成果を達成しました。

下の図 3 は、デコーダーから異なる数の推論パスをサンプリングすることによる、自己一貫性デコードと貪欲デコード (シングルパス) のパフォーマンス比較を示しています。より多くの推論パス (たとえば 40) をサンプリングすると、一貫してパフォーマンスが向上することがわかります。ここでも、推論パスに多様性を導入することの重要性が強調されます。

この研究では、小規模サンプル学習における自己整合法とアンサンブルベースの方法のパフォーマンスを比較します。結果を以下の表 5 に示します。自己無撞着法と比較すると、積分ベースの方法で得られるゲインははるかに小さくなります。

生成品質を向上させるためのもう 1 つの一般的なアプローチは、サンプル アンド ランクです。このアプローチでは、デコーダーから複数のシーケンスがサンプリングされ、各シーケンスのログ確率に基づいて、または追加でトレーニングされた再ランク付けに基づいてランク付けされます。

この研究では GPT-3 モデルを使用し、以下の図 4 に示す結果が得られました。サンプル アンド ソート アプローチでは、追加のサンプリング シーケンスとソートによって精度が向上しますが、自己整合アプローチと比較すると、その向上ははるかに小さくなります。

詳細については原文論文を参照してください。​

<<:  DAMOアカデミーは、初めて半教師あり知識注入を使用して、新しい事前トレーニング済み対話モデルを立ち上げ、大幅な改善を達成しました。

>>:  GoogleはAIを活用して古い地図情報を更新

ブログ    

推薦する

...

...

知能ロボット技術の応用と開発動向

王耀南院士が2020年国家ロボット開発フォーラムで報告著者プロフィール:王耀南、中国工程院院士、湖南...

OpenAIの主任科学者はスーパーAIを制御する方法を見つける計画を立てている

12月15日、OpenAIは設立当初から、たとえ人工知能が開発者よりも賢くなっても、全人類に利益をも...

1800億パラメータ、世界最高峰のオープンソース大型モデルFalconが正式発表! Crush LLaMA 2、GPT-4に近いパフォーマンス

一夜にして、世界で最も強力なオープンソースの大型モデル Falcon 180B がインターネット全体...

騒ぎの裏で、2020年はケータリングロボットにとって楽な年になるだろうか?

最近、ロボットに特化したレストランが広州に正式にオープンしました。客の出迎えから調理まで、一連の作業...

興味深く実用的なオープンソース人工知能プロジェクトトップ10

皆さんは多くの人工知能プロジェクトを見たり使用したりしたことがあると思いますが、そのほとんどは非常に...

人工知能とモノのインターネット: インターネット通信の未来

人工知能 (AI) とモノのインターネット (IoT) の登場により、通信およびインターネット技術業...

DAMOアカデミーの医療AIは、整形外科手術における歴史的課題を解決し、解剖学的位置を0.3秒で特定します。

「21世紀で最も成功した手術」として知られる人工股関節全置換術(THA)では、まもなく最新のAI技...

ホーキング博士:人工知能の台頭は人類文明の終焉をもたらす可能性がある

4月27日、北京国家会議センターで2017年グローバルモバイルインターネットカンファレンス(GMIC...

医療ロボットが登場し、医療分野は大きな変化を迎える

近年、人工知能の発展、技術の飛躍的進歩、その応用分野の漸進的な拡大に伴い、人々の生活と福祉の重要な一...

T1000が実現:我が国は液体金属駆動ロボットを開発中

[[247070]]液体ロボットといえば、誰もが真っ先に思い浮かべるのは映画「ターミネーター」のT1...

Hubo Technologyが「2019年グローバルフィンテックイノベーションTOP50」に選出されました

最近、世界をリードするインテリジェント金融検索エンジンであるHubo Technologyが「201...

コンピュータービジョンは建設業界をどのように変えているのでしょうか?

コンピュータービジョンは建設業界をどのように変えているのでしょうか?建設作業員は毎日、監視と監督を必...

リチャード・サットン:経験はAIの究極のデータであり、4つの段階が真のAIの開発につながる

はじめに:強力な人工知能の開発は近年の関心事となっています。単にラベル付けされたデータではなく、人間...