Microsoft は「プロンプト エンジニアリング」のみを使用して GPT-4 を医療の専門家にします。高度に調整された数々のモデルを上回り、専門的なテスト精度が初めて90%を超える

Microsoft は「プロンプト エンジニアリング」のみを使用して GPT-4 を医療の専門家にします。高度に調整された数々のモデルを上回り、専門的なテスト精度が初めて90%を超える

マイクロソフトの最新の研究は、迅速なエンジニアリングの力を再び証明しています——

追加の微調整や専門家の計画は必要ありません。GPT-4 はプロンプトだけで「専門家」になることができます。

GPT-4 は、最新のプロンプト戦略Medpromptを使用して、医療専門知識の分野における MultiMed QA の 9 つのテスト セットで最高の結果を達成しました。

MedQAデータセット(米国医師免許試験問題)では、MedpromptによりGPT-4は初めて90%を超える精度を達成し、 BioGPTやMed-PaLMなどの多くの微調整方法を上回りました

研究者らはまた、Medpromptの方法は普遍的で、医学だけでなく、電気工学、機械学習、法律などの専門職にも応用できると述べた。

この研究がX(旧Twitter)で共有されると、多くのネットユーザーの注目を集めました。

ウォートン校のイーサン・モリック教授、Artificial Intuitionの著者カルロス・E・ペレスらがこの記事を共有した。

Carlos E. Perez 氏は、「優れたプロンプト戦略は、微調整をはるかに上回ることができます」と述べています。

ネットユーザーの中には、ずっと前から同じ気持ちだったが、今その結果を見ると本当に「とてもクール」だと言う人もいる。

一部のネットユーザーも、これは本当に「過激」だと述べた。

GPT-4 は業界を変えるテクノロジーであり、プロンプトや微調整の限界に到達するにはほど遠い状態です。

組み合わせたプロンプト戦略、エキスパートに「変身」

Medprompt は、3 つの魔法の武器を含む複数のプロンプト戦略の組み合わせです。

  • 動的な少数ショットの選択
  • 自己生成の思考の連鎖
  • チョイスシャッフルアンサンブル

以下、一つずつ紹介していきましょう。

動的な少数ショットの選択

少数ショット学習は、モデルがコンテキストを迅速に学習できるようにする効果的な方法です。簡単に言えば、いくつかの例を入力し、モデルを特定のドメインに素早く適応させ、タスクの形式に従うことを学習することです。

特定のタスクプロンプトに対するこのような少数のサンプルの例は通常固定されているため、例の代表性と広範さに対する要件は高くなります。

これまでのアプローチでは、ドメインの専門家が手動で例を作成していましたが、それでも、専門家によってキュレーションされた固定された少数の例がすべてのタスクで代表的であるという保証はありません。

そこで、Microsoft の研究者は、動的な少数ショットの例のための方法を提案しました。

アイデアとしては、タスクのトレーニング セットは少数ショットの例のソースとして機能し、トレーニング セットが十分に大きい場合は、異なるタスク入力に対して異なる少数ショットの例を選択できるというものです。

具体的には、研究者らはまず text-embedding-ada-002 モデルを使用して、各トレーニング サンプルとテスト サンプルのベクトル表現を生成しました。次に、各テスト サンプルについて、ベクトルの類似性に基づいてトレーニング サンプルから最も類似した k 個のサンプルが選択されます。

微調整方法と比較すると、動的少数ショット選択ではトレーニング データを活用しますが、モデル パラメータを大幅に更新する必要はありません。

自己生成の思考連鎖

Chain of Thought (CoT) メソッドは、モデルに段階的に考えさせ、一連の中間推論ステップを生成する方法です。

従来の方法では、プロンプト思考チェーンを含む少数の例を専門家が手作業で作成する必要がありました。

ここで研究者たちは、GPT-4 に次のプロンプトを使用してトレーニング例の思考チェーンを生成するように単純に要求できることを発見しました。

しかし、研究者らは、この自動生成された思考の連鎖には誤った推論ステップが含まれている可能性もあると指摘し、エラーを効果的に減らすためのフィルターとして検証ラベルを設定しました。

Med-PaLM 2 モデルの専門家が手作りした思考チェーンの例と比較すると、GPT-4 によって生成された思考チェーンの根拠はより長く、段階的な推論ロジックはよりきめ細かくなっています。

オプションシャッフル統合

さらに、GPT-4 は複数選択の質問に答えるときにバイアスを持つ可能性があります。つまり、選択肢が何であっても、常に A を選択するか、常に B を選択する傾向があります。これが位置バイアスです。

この問題を軽減するために、研究者は元の選択肢の順序を入れ替えることを選択しました。たとえば、元のオプションが ABCD の場合、BCDA または CDAB に変更できます。

次に、GPT-4 に複数ラウンドの予測を行わせ、各ラウンドでオプションの異なる順序を使用します。これにより、GPT-4 はオプションの内容を「強制的に」考慮するようになります。

最後に、複数回の予測の結果に投票し、最も一貫性があり正しいオプションを選択します。

上記のプロンプト戦略を組み合わせたのが Medprompt です。テスト結果を見てみましょう。

複数のテストが最適

研究者らはテストに MultiMed QA 評価ベンチマークを使用しました。

Medprompt プロンプト戦略を使用した GPT-4 は、MultiMedQA の 9 つのベンチマーク データセットすべてで最高のスコアを達成し、Flan-PaLM 540B および Med-PaLM 2 を上回りました。

さらに、研究者らは、モデルがトレーニング データに過剰適合しているかどうかをテストするために使用される、「Eyes-Off」データ、つまり、トレーニングまたは最適化中にモデルが一度も見たことのないデータでのパフォーマンスについても Medprompt 戦略のパフォーマンスについて議論しました。

結果: Medprompt 戦略と組み合わせた GPT-4 は、複数の医療ベンチマーク データセットで良好なパフォーマンスを発揮し、平均精度は 91.3% でした。

研究者らは、MedQA データセットに対してアブレーション実験も実施し、3 つのコンポーネントが全体的なパフォーマンスにどの程度寄与しているかを調査しました。

その中で、思考チェーンを自動生成するステップがパフォーマンスの向上に最も貢献します。

そして、GPT-4 によって自動的に生成された思考チェーンは、Med-PaLM 2 の専門家によってキュレーションされたものよりも高いスコアを獲得しました。

最後に、研究者らは、電気工学、機械学習、哲学、専門会計、専門法律、専門心理学の問題を網羅する MMLU ベンチマークの 6 つの異なるデータセットを使用して、Medprompt のクロスドメイン一般化機能を調査しました。

NCLEX (米国看護師免許試験) の質問を含む 2 つの追加データセットも追加されました。

結果によると、これらのデータセットでの Medprompt のパフォーマンスは MultiMedQA 医療データセットでのパフォーマンスと同様であり、平均精度が 7.3% 向上しました。

論文リンク: https://arxiv.org/pdf/2311.16452.pdf

<<:  コンピュータービジョン GPT の瞬間!カリフォルニア大学バークレー校の3つの巨人が最初の純粋なCV大規模モデルを発表し、その推論はAGIの火花を示した

>>:  13 の視覚言語タスクをクリアしましょう!ハルビン工業大学がマルチモーダル大型モデル「九天」をリリース、性能が5%向上

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

自動運転車が公道を走るのを妨げているものは何でしょうか?

イーロン・マスク氏は、テスラが2020年末までに完全自動運転車を開発すると繰り返し強調している。 「...

機械学習の本質は数理統計学ですか?答えはそれほど単純ではないかもしれない

AI 初心者の多くは、次のような同様の疑問を抱いているかもしれません。機械学習と数理統計の本質的な違...

速報です!ヒントンがロボットスタートアップに参入、同社は9000万ドルの新規投資を受ける

チューリング賞受賞者であり、ディープラーニングの父であるジェフリー・ヒントンの次の旅が決まりました。...

Google は、開発者が独自のモデルを構築できるようにエンドツーエンドの AI プラットフォームをリリースしました。

Google は一連の人工知能ツールをリリースしました。これらすべての新しいツールとサービスの核と...

G7、先進的なAIシステムを開発する企業の行動規範に合意へ

10月30日、主要7カ国(G7)が月曜日に高度な人工知能(AI)システムを開発する企業向けの行動規範...

AIがサプライチェーンと物流に与える影響

1. サプライチェーンにおける人工知能の応用テクノロジーの変革の可能性のため、多くの業界で AI の...

...

数百万の量子ビットを実現するにはどうすればよいでしょうか?量子コンピューティング企業がユニバーサル量子コンピューティングソリューションを拡大

光ファイバーを光子のメモリとして使用し、光子メモリを使用してフォールトトレラント量子コンピューティン...

データ サイエンティストが 95% の時間使用する 11 の基本分布

前回のレビュー「データ サイエンティストが 95% の時間に使用する 11 個の基本チャート」に続き...

2021 年の人工知能の最新動向を示す 15 のグラフ

2021年AIインデックスレポートは、スタンフォード大学の人間中心AI研究所と、ハーバード大学、経済...

人工知能の発展には限界が必要

一般的な理解によれば、人工知能とは、手動でしかできないタスクを、人間以​​外のツールで完了できること...

ChatGPTが公式検出ツールを削除、AIテキストは識別できないことを認める

OpenAI は、何の発表もなく、ひっそりと AI テキスト検出ツールをシャットダウンし、ページは直...

TikTokの背後にあるAIの仕組み

エンジニアの視点から TikTok 推奨システムのアーキテクチャを探ります。 TikTok は、ユー...

人工知能が不動産ビジネスの成長を加速させる方法

人工知能 (AI) は、今後最も期待されるテクノロジーの 1 つです。テクノロジーがビジネスに与える...

OpenAIがテキストから動画を生成するAIジェネレーター「Sora」をリリース

OpenAI が Sora をリリースし、テキストからビデオへの AI コンテンツ生成競争に参入。 ...