DeepMindは大規模なモデルで帰納法と演繹法を学習できるようにし、GPT-4の精度は13.7%向上した。

DeepMindは大規模なモデルで帰納法と演繹法を学習できるようにし、GPT-4の精度は13.7%向上した。

現在、大規模言語モデル (LLM) は、特にいくつかの例と中間ステップが与えられた場合に、推論タスクにおいて優れた能力を発揮します。しかし、プロンプト方式は LLM の暗黙の知識に依存することがよくあります。暗黙の知識が間違っていたり、タスクと一致していない場合、LLM は間違った回答を出します。

現在、Google、Mila Institute、その他の研究機関の研究者らが共同で新しい手法を研究しており、LLM が推論ルールを学習できるようにし、Hypotheses-to-Theories (HtT) と呼ばれる新しいフレームワークを提案しています。この新しい方法は、多段階の推論を改善するだけでなく、説明可能で転送可能であるという利点もあります。

論文アドレス: https://arxiv.org/abs/2310.07064

数値推論と関係推論の問題に関する実験では、HtT によって既存のプロンプト メソッドが改善され、精度が 11 ~ 27% 向上することが示されています。学習したルールは、異なるモデルや同じ問題の異なる形式に転送することもできます。

方法の紹介

一般に、HtT フレームワークは、従来の機械学習のトレーニング フェーズとテスト フェーズに似た、帰納フェーズと演繹フェーズの 2 つのフェーズで構成されます。

導入フェーズでは、まず LLM に一連のトレーニング例に基づいてルールを生成し、検証するように求められます。本研究では、CoTを用いてルールを宣言して回答を導き出し、ルールの頻度と正確性を判断し、頻繁に出現して正解につながるルールを収集してルールベースを形成します。

適切なルール ベースができたら、次のステップは、これらのルールを適用して問題を解決する方法を学ぶことです。この目的のために、本研究では演繹フェーズでプロンプトにルールベースを追加し、LLM がルールベースからルールを取得して演繹を実行し、暗黙的推論を明示的推論に変換することを要求します。

しかし、この研究では、非常に強力な LLM (GPT-4 など) でも、すべてのステップで正しいルールを取得するのが難しいことがわかりました。この目的のために、本研究では、LLM のコンテキスト検索機能を強化する XML タグ付けトリックを開発しました。

実験結果

HtT を評価するために、この研究では 2 つの多段階推論問題をベンチマークしました。実験結果は、HtT が少数ショットプロンプト法を改善することを示しています。著者らは、HtT をより包括的に理解するために、広範囲にわたるアブレーション研究も実施しました。

彼らは数値推論と関係推論の問題で新しい方法を評価します。数値推論では、GPT-4 と比較して精度が 21.0% 向上したことがわかりました。関係推論では、GPT-4 は精度が 13.7% 向上し、GPT-3.5 はさらに向上してパフォーマンスが 2 倍になりました。パフォーマンスの向上は主にルールの錯覚の減少から生まれます。

具体的には、以下の表 1 は、算術の基数 16、基数 11、基数 9 のデータセットの結果を示しています。すべての基本システムの中で、0 ショット CoT は両方の LLM でパフォーマンスが最も悪いです。

表 2 は、CLUTRR におけるさまざまな方法を比較した結果を示しています。 GPT3.5 と GPT4 では、0 ショット CoT のパフォーマンスが最も悪いことがわかります。少数ショットのヒント手法では、CoT と LtM は同様のパフォーマンスを示します。平均精度に関しては、HtT は両モデルのヒント方式を 11.1 ~ 27.2% 上回りました。 GPT3.5 は CLUTRR ルールの取得が悪くなく、GPT4 よりも HtT の恩恵を受けていることは注目に値します。これは、CLUTRR のルールが算術よりも少ないためである可能性があります。

GPT4 のルールを使用すると、GPT3.5 の CoT パフォーマンスが 27.2% 向上し、これは CoT パフォーマンスの 2 倍以上となり、GPT4 の CoT パフォーマンスに近づくことは注目に値します。したがって、著者らは、HtT が強い LLM から弱い LLM への知識蒸留の新しい形式として機能できると考えています。

表 3 は、HtT が GPT-4 (テキスト バージョン) のパフォーマンスを大幅に向上させることを示しています。 GPT3.5 では、テキスト入力を処理するときに幻覚ルール以外のエラーが発生することが多いため、この改善は重要ではありません。

<<: 

>>:  GPU の無駄遣いをやめよう: FlashAttention がアップグレードされ、長いテキストの推論速度が 8 倍に向上

ブログ    
ブログ    

推薦する

ナレッジグラフは人気があります。今すぐ選んでみませんか。

[51CTO.comより引用] モバイルインターネットの発展に伴い、あらゆるものの相互接続が可能に...

エッジ AI について知っておくべきことすべて

エッジ AI では、システムを他のシステムに接続する必要がないため、ユーザーはデータをリアルタイムで...

エッジにAIを導入する3つのメリット

AIワークロードをエッジで実行することで、経済性の向上、意思決定の迅速化、自動化が可能になります。誇...

TalkingDataはビッグデータとAIについて語ります

[51CTO.com からのオリジナル記事] Singularity University の CE...

人工知能はビジネスに大きな影響を与えます。AIは中小企業に5つの大きなメリットをもたらします。

市場のトレンドはどのくらいの速さで発展していますか? 特に人工知能に関しては。企業は驚くべき速度で ...

無人運転車の現状はどうなっているのでしょうか?

私たちはここ数年、自動運転車について話し合い、議論してきました。しかし、道路上では見かけません。これ...

ディープラーニングに加えて、これらの開発の方向性も理解する必要があります

[[214266]] AI の究極の未来は人間の知能に到達し、それを上回ることであることに疑いの余地...

JSPフォーラムツリー構造を実装するための特定のアルゴリズム

1. JSP フォーラムのデモテーブルの構造: テーブル名: mybbslist フィールド データ...

生成 AI: サイバーセキュリティにとっての恩恵か、それとも災いか?

脅威の状況が絶えず変化する中、高度なサイバー攻撃に対する防御手段として、生成型人工知能 (GAI) ...

スケッチが本物の顔に変わる? AI: はい、草はいくらでも大丈夫です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

クローズドループへ! DriveMLM: LLM と自動運転行動計画の完璧な組み合わせ!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

産業用ロボット市場は変化しており、今後は国産品の台頭が期待されます!

皆さんご存知のとおり、2013年以来、我が国は世界最大の産業用ロボットの需要と応用市場となっています...

UiPath: RPA の台頭が企業のデジタル化の青写真を描く

【51CTO.comオリジナル記事】 [[344118]]近年、ロボティック・プロセス・オートメーシ...

NeRFは線画に基づいてリアルな3D顔を生成し、詳細とスタイルを自由に変更できる。この論文はSIGGRAPHに提出されている。

非常にリアルで正確に制御可能な 3 次元の顔のモデリングは、デジタル ヒューマン構築における重要な課...