PaLMを超えて!北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

PaLMを超えて!北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

1,750億のパラメータを持つGPT-3や5,400億のパラメータを持つPaLMなど、大規模言語モデルは現代の自然言語処理技術の基礎と言えます。事前トレーニング済みのモデルは、下流のタスクに非常に強力な少量学習機能を提供します。

しかし、推論タスク、特に正しい答えを得るために複数段階の推論を必要とする問題は依然として課題です。

最近、研究者たちは、適切なプロンプトを設計することで、モデルが複数段階の推論を実行して最終的な答えを生成できるように誘導できることを発見しました。この方法は、思考連鎖推論とも呼ばれます。

Thinking Chainテクノロジーにより、算術ベンチマークGSM8Kの精度が17.9%から58.1%に向上しました。その後導入された投票自己一貫性メカニズムにより、精度はさらに74.4%に向上しました。

簡単に言えば、複雑な推論タスクには通常、正しい答えにたどり着くことができる複数の推論パスがあります。自己矛盾のない方法は、思考チェーンを通じて言語モデルから一連の異なる推論パスをサンプリングし、最も自己矛盾のない答えを返します。

最近、北京大学とマイクロソフトの研究者らは、3つの大きな革新を含む新しい自己矛盾のない方法であるDiVeRSeに基づいて、モデルの推論機能をさらに向上させました。

論文リンク: https://arxiv.org/abs/2206.02336

コードリンク: https://github.com/microsoft/DiVeRSe

まず、「異なるアイデア、同じ答え」という自己一貫性のあるアプローチ、つまり言語モデルから異なる推論パスをサンプリングすることに触発されて、DiVeRSe は多様性をさらに一歩進めます。「すべての道はローマに通ず」というコンセプトに従って、複数のプロンプトを使用して回答を生成することで、より完全で補完的な回答を生成できます。

研究者はまず、各質問に対して 5 つの異なるプロンプトを提供し、次に各プロンプトに対して 20 の推論パスをサンプリングし、最終的に各質問に対して 100 の回答推論パスを生成しました。

重要な問題は、異なるプロンプトをどのように取得するかです。サンプル ライブラリを取得していると仮定すると、そこから K 個のサンプルをサンプリングしてプロンプトを作成し、それを 5 回繰り返すことができます。

例が十分でない場合は、プロンプトの多様性を向上させるために自己学習アプローチが使用されます。つまり、例の一部から疑似推論パスと <質問、回答> ペアが生成されます。

第二に、推論パスを生成する際に、言語モデルには前のステップでのエラーを修正するメカニズムがないため、最終的な予測結果に混乱が生じる可能性があります。 DiVeRSe は、各推論パスの正しさを検証して投票メカニズムを導く検証者のアイデアを活用します。つまり、すべての推論メカニズムが同じように重要であったり、優れているわけではありません。

ある質問に対して 100 の推論パスがあり、そのうち 60 は「答えは 110」となり、40 は「答えは 150」となるとします。検証者がいない場合(つまり、元の自己矛盾のない方法)、「答えは 110 です」が多数決なので、110 を最終答えと見なし、結果が 150 である 40 の推論パスを削除できます。

検証者は推論パスにスコアを付けます。関数 f はバイナリ分類器によってトレーニングされます。入力は質問 x、パス z、回答 y で、出力は肯定の確率です。

検証器では、「答えは 110 です」という 60 の推論パスの平均スコアが 0.3 で、「答えは 150 です」という 40 の推論パスの平均スコアが 0.8 であるとします。 最終的な答えは150になるはずです。なぜなら40*0.8>60*0.3だからです。

3 番目に、答えは複数の推論ステップに基づいて生成されるため、パスが正しい答えを生成する場合、すべてのステップが最終的な正しさに貢献したと想定できます。ただし、間違った回答が生成された場合でも、すべての手順が間違っている、またはエラーの原因になっているわけではありません。

つまり、結果は間違っていても、中間のステップのいくつかは依然として正しいかもしれませんが、正しい方向から外れた後続のステップのいくつかが最終的に間違った答えにつながります。 DiVeRSe は、各ステップにきめ細かいラベルを割り当てるメカニズムを設計し、最終的な答えを見るだけでなく、各ステップの推論に正しさを割り当てるステップ認識検証器を提案します。

本体は依然としてバイナリ分類器ですが、重要な問題はステップレベルのネガティブラベルをどのように取得するかです。最終的な答えが間違っている場合、人間の介入がなければどのステップが間違っているかがわからず、正しい答えはプロセスが正しいはずであることを意味するためです。

研究者らはサポートの概念を提案しました。たとえば、算数の課題では、中間結果が中間ステップの結果と同じである別の例が必要です。

研究者らは、これら 3 つの改善に基づいて 5 つの算術推論データセットで実験を行い、code-davinci-002 に基づく DiVeRSe メソッドが平均改善率 6.2% の新しい SOTA アルゴリズムを実現したことを発見しました。

2 つの常識推論タスクでは、DiVeRSe のパフォーマンスは PaLM ベースの自己一貫性 (-2.2%) よりもわずかに低くなっています。その理由は、常識推論タスクがオープンエンド生成タスクではなく複数選択タスクであるため、偽陽性の疑似例が多くなるためと考えられます。

帰納的推論タスクでは、DiVeRSeはCLUTRRタスクで95.9%を達成し、以前のSOTA微調整結果(+28.9%)を上回りました。

アブレーション実験では、投票検証メカニズムのパフォーマンスが大幅に向上していることがわかります。

ほとんどの実験では、投票検証をステップ対応バージョンに拡張すると、パフォーマンスが向上します。 GSM8K 上の code-davinci-002 の場合、ステップ認識バージョンの検証ツールによってパフォーマンスがわずかに低下します。

考えられる理由は、code-davinci-002 の方が強力で、GSM8K のより高品質の推論パスを生成できるため、ステップレベルの情報の必要性が減ることです。つまり、text-davinci は短い/不完全な推論パスを生成する可能性が高く、code-davinci は長いコンテンツを生成するのに適しています。

論文の筆頭著者は、2020年にノースイースタン大学でソフトウェア工学の学士号を取得し、現在は北京大学で修士号取得を目指して勉強している李易菲氏です。彼の主な研究分野は自然言語処理、特に大規模言語モデルにおけるプロンプトチューニングと推論です。

この記事の2番目の著者は、Microsoft Research AsiaのDKI研究者であるZeqi Linです。彼は北京大学で2014年に学士号、2019年に博士号を取得しました。彼の主な研究分野は、機械学習と、ソフトウェア分析およびデータ分析におけるその応用です。​

<<:  Nature のサブ出版物: 新しいアルゴリズムは、米国の 8 つの都市で 90% の精度で、1 週間前に 2 ブロック以内の犯罪を予測できます。

>>:  推奨される自動化およびオーケストレーションツール10選

ブログ    

推薦する

女神があなたを好きかどうか知りたいなら、AI マシンであなたの顔をスキャンするだけです。

[[281019]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

顧客サービスの革命: 現代のビジネスにおける広報ロボットの役割

人工知能 (AI) の登場により、企業の運営方法は劇的に変化し、PR ボットが顧客サービスの革命にお...

AIはスマートシティの人材採用に役割を果たすのでしょうか?

AI ツールとテクノロジーはスマート シティと IoT 主導の業界にとってゲームチェンジャーとなっ...

Lingzhi Unuo CTO Xu Ke: AI技術が従来の保険販売モデルのジレンマを打破

[51CTO.comより] 徐克氏は百度で検索とスマートレコメンデーションの分野で長年勤務。2015...

Daguan 推奨アルゴリズムの実装: 協調フィルタリングのアイテム埋め込み

レコメンデーションシステムの本質は、ユーザーのニーズが不明確な場合の情報過多の問題を解決し、ユーザー...

Googleの最新の「効率的なトランスフォーマー」では、トランスフォーマーの効率を向上させる方法を説明しています

トランスフォーマー モデルは現在、言語、視覚、強化学習などの分野での有効性から注目を集めています。た...

ドローン基地局は被災地の通信復旧にどのように役立つのでしょうか?

災害時において、通信は途切れることのできない生命線です。 [[412620]] 7月21日、河南省の...

第一回美団クラウド人工知能サミットが開幕、エコパートナーと協力して最もオープンなAIプラットフォームを構築

10月31日、中関村サイエンスパーク管理委員会の指導の下、美団クラウドが主催し、「AIの力で共存とW...

いくつかの一般的な暗号化アルゴリズムのPython実装

私たちは日常生活の中で、暗号化アルゴリズムによく遭遇します。今日は、これらの暗号化アルゴリズムの P...

ナレッジグラフは自然言語処理の未来でしょうか?

ナレッジグラフは NLP の未来でしょうか?今は2021年で、かつて全盛期だった多くの技術は長い間無...

...

推薦システムにおけるランキング学習のための独自のアルゴリズム: Schiram ランキング

著者 | 王昊レビュー | Chonglou近年、推奨システムにおけるランク付け学習の応用は非常に稀...

国家教科書委員会:ブロックチェーン、AIなどの分野を中心に新しい教科書が多数編纂されます!

[[312225]]テキスト | 梁玉山1月7日、教育省の公式サイトによると、国家教科書委員会はこ...

...

医療画像のインテリジェント認識:医療とAIを組み合わせた成功事例

医療画像のインテリジェント認識:医療とAIを組み合わせた成功事例医療画像認識はAIがすぐに導入できる...