PaLMを超えて！北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

1,750億のパラメータを持つGPT-3や5,400億のパラメータを持つPaLMなど、大規模言語モデルは現代の自然言語処理技術の基礎と言えます。事前トレーニング済みのモデルは、下流のタスクに非常に強力な少量学習機能を提供します。

しかし、推論タスク、特に正しい答えを得るために複数段階の推論を必要とする問題は依然として課題です。

最近、研究者たちは、適切なプロンプトを設計することで、モデルが複数段階の推論を実行して最終的な答えを生成できるように誘導できることを発見しました。この方法は、思考連鎖推論とも呼ばれます。

Thinking Chainテクノロジーにより、算術ベンチマークGSM8Kの精度が17.9%から58.1%に向上しました。その後導入された投票自己一貫性メカニズムにより、精度はさらに74.4%に向上しました。

簡単に言えば、複雑な推論タスクには通常、正しい答えにたどり着くことができる複数の推論パスがあります。自己矛盾のない方法は、思考チェーンを通じて言語モデルから一連の異なる推論パスをサンプリングし、最も自己矛盾のない答えを返します。

最近、北京大学とマイクロソフトの研究者らは、3つの大きな革新を含む新しい自己矛盾のない方法であるDiVeRSeに基づいて、モデルの推論機能をさらに向上させました。

論文リンク: https://arxiv.org/abs/2206.02336

コードリンク: https://github.com/microsoft/DiVeRSe

まず、「異なるアイデア、同じ答え」という自己一貫性のあるアプローチ、つまり言語モデルから異なる推論パスをサンプリングすることに触発されて、DiVeRSe は多様性をさらに一歩進めます。「すべての道はローマに通ず」というコンセプトに従って、複数のプロンプトを使用して回答を生成することで、より完全で補完的な回答を生成できます。

研究者はまず、各質問に対して 5 つの異なるプロンプトを提供し、次に各プロンプトに対して 20 の推論パスをサンプリングし、最終的に各質問に対して 100 の回答推論パスを生成しました。

重要な問題は、異なるプロンプトをどのように取得するかです。サンプルライブラリを取得していると仮定すると、そこから K 個のサンプルをサンプリングしてプロンプトを作成し、それを 5 回繰り返すことができます。

例が十分でない場合は、プロンプトの多様性を向上させるために自己学習アプローチが使用されます。つまり、例の一部から疑似推論パスと <質問、回答> ペアが生成されます。

第二に、推論パスを生成する際に、言語モデルには前のステップでのエラーを修正するメカニズムがないため、最終的な予測結果に混乱が生じる可能性があります。 DiVeRSe は、各推論パスの正しさを検証して投票メカニズムを導く検証者のアイデアを活用します。つまり、すべての推論メカニズムが同じように重要であったり、優れているわけではありません。

ある質問に対して 100 の推論パスがあり、そのうち 60 は「答えは 110」となり、40 は「答えは 150」となるとします。検証者がいない場合（つまり、元の自己矛盾のない方法）、「答えは 110 です」が多数決なので、110 を最終答えと見なし、結果が 150 である 40 の推論パスを削除できます。

検証者は推論パスにスコアを付けます。関数 f はバイナリ分類器によってトレーニングされます。入力は質問 x、パス z、回答 y で、出力は肯定の確率です。

検証器では、「答えは 110 です」という 60 の推論パスの平均スコアが 0.3 で、「答えは 150 です」という 40 の推論パスの平均スコアが 0.8 であるとします。最終的な答えは150になるはずです。なぜなら40*0.8>60*0.3だからです。

3 番目に、答えは複数の推論ステップに基づいて生成されるため、パスが正しい答えを生成する場合、すべてのステップが最終的な正しさに貢献したと想定できます。ただし、間違った回答が生成された場合でも、すべての手順が間違っている、またはエラーの原因になっているわけではありません。

つまり、結果は間違っていても、中間のステップのいくつかは依然として正しいかもしれませんが、正しい方向から外れた後続のステップのいくつかが最終的に間違った答えにつながります。 DiVeRSe は、各ステップにきめ細かいラベルを割り当てるメカニズムを設計し、最終的な答えを見るだけでなく、各ステップの推論に正しさを割り当てるステップ認識検証器を提案します。

本体は依然としてバイナリ分類器ですが、重要な問題はステップレベルのネガティブラベルをどのように取得するかです。最終的な答えが間違っている場合、人間の介入がなければどのステップが間違っているかがわからず、正しい答えはプロセスが正しいはずであることを意味するためです。

研究者らはサポートの概念を提案しました。たとえば、算数の課題では、中間結果が中間ステップの結果と同じである別の例が必要です。

研究者らは、これら 3 つの改善に基づいて 5 つの算術推論データセットで実験を行い、code-davinci-002 に基づく DiVeRSe メソッドが平均改善率 6.2% の新しい SOTA アルゴリズムを実現したことを発見しました。

2 つの常識推論タスクでは、DiVeRSe のパフォーマンスは PaLM ベースの自己一貫性 (-2.2%) よりもわずかに低くなっています。その理由は、常識推論タスクがオープンエンド生成タスクではなく複数選択タスクであるため、偽陽性の疑似例が多くなるためと考えられます。

帰納的推論タスクでは、DiVeRSeはCLUTRRタスクで95.9%を達成し、以前のSOTA微調整結果（+28.9%）を上回りました。

アブレーション実験では、投票検証メカニズムのパフォーマンスが大幅に向上していることがわかります。

ほとんどの実験では、投票検証をステップ対応バージョンに拡張すると、パフォーマンスが向上します。 GSM8K 上の code-davinci-002 の場合、ステップ認識バージョンの検証ツールによってパフォーマンスがわずかに低下します。

考えられる理由は、code-davinci-002 の方が強力で、GSM8K のより高品質の推論パスを生成できるため、ステップレベルの情報の必要性が減ることです。つまり、text-davinci は短い/不完全な推論パスを生成する可能性が高く、code-davinci は長いコンテンツを生成するのに適しています。

論文の筆頭著者は、2020年にノースイースタン大学でソフトウェア工学の学士号を取得し、現在は北京大学で修士号取得を目指して勉強している李易菲氏です。彼の主な研究分野は自然言語処理、特に大規模言語モデルにおけるプロンプトチューニングと推論です。

この記事の2番目の著者は、Microsoft Research AsiaのDKI研究者であるZeqi Linです。彼は北京大学で2014年に学士号、2019年に博士号を取得しました。彼の主な研究分野は、機械学習と、ソフトウェア分析およびデータ分析におけるその応用です。

<<: Nature のサブ出版物: 新しいアルゴリズムは、米国の 8 つの都市で 90% の精度で、1 週間前に 2 ブロック以内の犯罪を予測できます。

>>: 推奨される自動化およびオーケストレーションツール10選

ブログ

PaLMを超えて！北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

Tmall のプログラマーがハイエンドアルゴリズムを使用して女の子を探す

400 万のトークンコンテキスト、推論がさらに 46% 加速されました。最新のオープンソースソリューションはMITの結果をアップグレードし、推論コストをさらに削減します

顔認識システムに関するよくある質問8つ

誰もが知っておくべき 3 つの機械学習アルゴリズム

YouTubeの有名人動画を機械学習で分析したら、視聴数急増の秘密が分かった

ファーウェイ、2020年に向けて次世代マシンビジョンカメラと新製品を発表

自動運転について話しましょう

推薦する

人工知能とデータサイエンスに基づく実用的な分析システムの構築におけるシティバンクの実践経験

人工筋肉ロボットアームは本物そっくりで、白熱した議論を巻き起こす。7kgのダンベルを持ち上げる際、その「筋肉」がはっきりと見える。

ブロックチェーンのコア技術「ハッシュと暗号化アルゴリズム」を公開

女神の若々しい姿が全開！テンセントのAIモデルGFPGANがGitHubのホットリストで1位に

GIF 圧縮アルゴリズムの発明者が IEEE の最高栄誉賞を受賞

Safetensors は、高速、効率的、安全、使いやすい新しいディープラーニングツールです。

プログラマーにとって「朗報」：AI が人間のコード作成を支援することは信頼できるのか？

米国、政府による顔認識技術の使用禁止を再法制化へ

Ali Wensheng ビデオが Gen-2 と Pika に挑戦、1280×720 の解像度で圧迫感なし、3500 万のテキストビデオ表示効果

畳み込みニューラルネットワークが分かりませんか?怖がらないでください、このかわいい写真を見ればわかりますよ！

マイクロソフトがOpenAIの理事に就任、アルトマン氏が初めてQ*に回答：残念なリーク

ハイリアンと手を携えてデジタル変革の道を議論する

AIがフィンテックを変える4つの方法