PaLMを超えて!北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

PaLMを超えて!北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

1,750億のパラメータを持つGPT-3や5,400億のパラメータを持つPaLMなど、大規模言語モデルは現代の自然言語処理技術の基礎と言えます。事前トレーニング済みのモデルは、下流のタスクに非常に強力な少量学習機能を提供します。

しかし、推論タスク、特に正しい答えを得るために複数段階の推論を必要とする問題は依然として課題です。

最近、研究者たちは、適切なプロンプトを設計することで、モデルが複数段階の推論を実行して最終的な答えを生成できるように誘導できることを発見しました。この方法は、思考連鎖推論とも呼ばれます。

Thinking Chainテクノロジーにより、算術ベンチマークGSM8Kの精度が17.9%から58.1%に向上しました。その後導入された投票自己一貫性メカニズムにより、精度はさらに74.4%に向上しました。

簡単に言えば、複雑な推論タスクには通常、正しい答えにたどり着くことができる複数の推論パスがあります。自己矛盾のない方法は、思考チェーンを通じて言語モデルから一連の異なる推論パスをサンプリングし、最も自己矛盾のない答えを返します。

最近、北京大学とマイクロソフトの研究者らは、3つの大きな革新を含む新しい自己矛盾のない方法であるDiVeRSeに基づいて、モデルの推論機能をさらに向上させました。

論文リンク: https://arxiv.org/abs/2206.02336

コードリンク: https://github.com/microsoft/DiVeRSe

まず、「異なるアイデア、同じ答え」という自己一貫性のあるアプローチ、つまり言語モデルから異なる推論パスをサンプリングすることに触発されて、DiVeRSe は多様性をさらに一歩進めます。「すべての道はローマに通ず」というコンセプトに従って、複数のプロンプトを使用して回答を生成することで、より完全で補完的な回答を生成できます。

研究者はまず、各質問に対して 5 つの異なるプロンプトを提供し、次に各プロンプトに対して 20 の推論パスをサンプリングし、最終的に各質問に対して 100 の回答推論パスを生成しました。

重要な問題は、異なるプロンプトをどのように取得するかです。サンプル ライブラリを取得していると仮定すると、そこから K 個のサンプルをサンプリングしてプロンプトを作成し、それを 5 回繰り返すことができます。

例が十分でない場合は、プロンプトの多様性を向上させるために自己学習アプローチが使用されます。つまり、例の一部から疑似推論パスと <質問、回答> ペアが生成されます。

第二に、推論パスを生成する際に、言語モデルには前のステップでのエラーを修正するメカニズムがないため、最終的な予測結果に混乱が生じる可能性があります。 DiVeRSe は、各推論パスの正しさを検証して投票メカニズムを導く検証者のアイデアを活用します。つまり、すべての推論メカニズムが同じように重要であったり、優れているわけではありません。

ある質問に対して 100 の推論パスがあり、そのうち 60 は「答えは 110」となり、40 は「答えは 150」となるとします。検証者がいない場合(つまり、元の自己矛盾のない方法)、「答えは 110 です」が多数決なので、110 を最終答えと見なし、結果が 150 である 40 の推論パスを削除できます。

検証者は推論パスにスコアを付けます。関数 f はバイナリ分類器によってトレーニングされます。入力は質問 x、パス z、回答 y で、出力は肯定の確率です。

検証器では、「答えは 110 です」という 60 の推論パスの平均スコアが 0.3 で、「答えは 150 です」という 40 の推論パスの平均スコアが 0.8 であるとします。 最終的な答えは150になるはずです。なぜなら40*0.8>60*0.3だからです。

3 番目に、答えは複数の推論ステップに基づいて生成されるため、パスが正しい答えを生成する場合、すべてのステップが最終的な正しさに貢献したと想定できます。ただし、間違った回答が生成された場合でも、すべての手順が間違っている、またはエラーの原因になっているわけではありません。

つまり、結果は間違っていても、中間のステップのいくつかは依然として正しいかもしれませんが、正しい方向から外れた後続のステップのいくつかが最終的に間違った答えにつながります。 DiVeRSe は、各ステップにきめ細かいラベルを割り当てるメカニズムを設計し、最終的な答えを見るだけでなく、各ステップの推論に正しさを割り当てるステップ認識検証器を提案します。

本体は依然としてバイナリ分類器ですが、重要な問題はステップレベルのネガティブラベルをどのように取得するかです。最終的な答えが間違っている場合、人間の介入がなければどのステップが間違っているかがわからず、正しい答えはプロセスが正しいはずであることを意味するためです。

研究者らはサポートの概念を提案しました。たとえば、算数の課題では、中間結果が中間ステップの結果と同じである別の例が必要です。

研究者らは、これら 3 つの改善に基づいて 5 つの算術推論データセットで実験を行い、code-davinci-002 に基づく DiVeRSe メソッドが平均改善率 6.2% の新しい SOTA アルゴリズムを実現したことを発見しました。

2 つの常識推論タスクでは、DiVeRSe のパフォーマンスは PaLM ベースの自己一貫性 (-2.2%) よりもわずかに低くなっています。その理由は、常識推論タスクがオープンエンド生成タスクではなく複数選択タスクであるため、偽陽性の疑似例が多くなるためと考えられます。

帰納的推論タスクでは、DiVeRSeはCLUTRRタスクで95.9%を達成し、以前のSOTA微調整結果(+28.9%)を上回りました。

アブレーション実験では、投票検証メカニズムのパフォーマンスが大幅に向上していることがわかります。

ほとんどの実験では、投票検証をステップ対応バージョンに拡張すると、パフォーマンスが向上します。 GSM8K 上の code-davinci-002 の場合、ステップ認識バージョンの検証ツールによってパフォーマンスがわずかに低下します。

考えられる理由は、code-davinci-002 の方が強力で、GSM8K のより高品質の推論パスを生成できるため、ステップレベルの情報の必要性が減ることです。つまり、text-davinci は短い/不完全な推論パスを生成する可能性が高く、code-davinci は長いコンテンツを生成するのに適しています。

論文の筆頭著者は、2020年にノースイースタン大学でソフトウェア工学の学士号を取得し、現在は北京大学で修士号取得を目指して勉強している李易菲氏です。彼の主な研究分野は自然言語処理、特に大規模言語モデルにおけるプロンプトチューニングと推論です。

この記事の2番目の著者は、Microsoft Research AsiaのDKI研究者であるZeqi Linです。彼は北京大学で2014年に学士号、2019年に博士号を取得しました。彼の主な研究分野は、機械学習と、ソフトウェア分析およびデータ分析におけるその応用です。​

<<:  Nature のサブ出版物: 新しいアルゴリズムは、米国の 8 つの都市で 90% の精度で、1 週間前に 2 ブロック以内の犯罪を予測できます。

>>:  推奨される自動化およびオーケストレーションツール10選

ブログ    
ブログ    

推薦する

魔法は魔法に勝る、AIデータにはAIソリューションが必要

Kompprise が委託した「非構造化データ管理の現状」調査によると、人工知能は IT およびビジ...

ミッドジャーニー創設者:著作権の問題に対する解決策は今のところなく、AI生成画像はアーティストに取って代わることを意図したものではない

ミッドジャーニー火災以降、アーティストの道はますます狭くなっていった。最近、Midjourney や...

5G+自動運転車の時代において、Car OSの主導権を握るのは誰でしょうか?

「人間の情報に対する欲求は、原始人の食欲に似ています。食物から摂取するカロリーは欲求を満たすことが...

近年の人工知能の発展を理解する

近年、AIの波が押し寄せ、各界ではAIが人間の仕事に取って代わるドラマが相次いで上演されています。A...

フロントエンド: JavaScript でのバイナリ ツリー アルゴリズムの実装

[[359197]]次に、js データ構造のツリーを調べてみましょう。ここでのツリーは、幹と枝を持つ...

NLP とは異なり、データ駆動型手法と機械学習は、次の 3 つの理由により NLU に勝てません。

自然言語理解 (NLU) は人工知能における中核的なトピックの 1 つであり、最も困難かつ象徴的なタ...

.NET 6 でのハッシュ アルゴリズムの簡略化された使用

[[422468]]この記事はWeChatの公開アカウント「amazingdotnet」から転載した...

MITは、音声チャットを通じて実験を行うことができる実験科学者向けの大規模モデルアシスタントを構築しました。

現在、人工知能や自律実験は主にPythonなどの言語で書かれています。しかし、実験科学者全員がそのよ...

人工知能の時代に人権と民主主義をどう守るか

人工知能 (AI) システムは近年急速に普及しており、特に 2023 年には大規模言語モデル (LL...

「人間の顔」から「犬の顔」まで、AIはペット経済にも参入するのでしょうか?

[[334871]]原題:「人間の顔認識」から「犬の顔認識」まで、人工知能はペット経済にも参入する...

将来の成長の原動力は?ビッグデータ+人工知能が浸透し、私たちの生活を変える

画像ソース: Unsplash新世代情報技術の急速な発展に伴い、コンピューティング能力、データ処理能...

スマート充電インフラ: 電気自動車の充電における人工知能の貢献

政府の電気自動車推進のビジョンに後押しされ、電気自動車業界はここ数年で大きな勢いを増しています。さら...

2030年までにAI/自動化によって消滅する6つの技術職

翻訳者 | ジン・ヤンレビュー | Chonglou現在、人工知能と自動化は急速な発展段階に入ってお...

...