Microsoft は「プロンプト エンジニアリング」のみを使用して GPT-4 を医療の専門家にします。高度に調整された数々のモデルを上回り、専門的なテスト精度が初めて90%を超える

Microsoft は「プロンプト エンジニアリング」のみを使用して GPT-4 を医療の専門家にします。高度に調整された数々のモデルを上回り、専門的なテスト精度が初めて90%を超える

マイクロソフトの最新の研究は、迅速なエンジニアリングの力を再び証明しています——

追加の微調整や専門家の計画は必要ありません。GPT-4 はプロンプトだけで「専門家」になることができます。

GPT-4 は、最新のプロンプト戦略Medpromptを使用して、医療専門知識の分野における MultiMed QA の 9 つのテスト セットで最高の結果を達成しました。

MedQAデータセット(米国医師免許試験問題)では、MedpromptによりGPT-4は初めて90%を超える精度を達成し、 BioGPTやMed-PaLMなどの多くの微調整方法を上回りました

研究者らはまた、Medpromptの方法は普遍的で、医学だけでなく、電気工学、機械学習、法律などの専門職にも応用できると述べた。

この研究がX(旧Twitter)で共有されると、多くのネットユーザーの注目を集めました。

ウォートン校のイーサン・モリック教授、Artificial Intuitionの著者カルロス・E・ペレスらがこの記事を共有した。

Carlos E. Perez 氏は、「優れたプロンプト戦略は、微調整をはるかに上回ることができます」と述べています。

ネットユーザーの中には、ずっと前から同じ気持ちだったが、今その結果を見ると本当に「とてもクール」だと言う人もいる。

一部のネットユーザーも、これは本当に「過激」だと述べた。

GPT-4 は業界を変えるテクノロジーであり、プロンプトや微調整の限界に到達するにはほど遠い状態です。

組み合わせたプロンプト戦略、エキスパートに「変身」

Medprompt は、3 つの魔法の武器を含む複数のプロンプト戦略の組み合わせです。

  • 動的な少数ショットの選択
  • 自己生成の思考の連鎖
  • チョイスシャッフルアンサンブル

以下、一つずつ紹介していきましょう。

動的な少数ショットの選択

少数ショット学習は、モデルがコンテキストを迅速に学習できるようにする効果的な方法です。簡単に言えば、いくつかの例を入力し、モデルを特定のドメインに素早く適応させ、タスクの形式に従うことを学習することです。

特定のタスクプロンプトに対するこのような少数のサンプルの例は通常固定されているため、例の代表性と広範さに対する要件は高くなります。

これまでのアプローチでは、ドメインの専門家が手動で例を作成していましたが、それでも、専門家によってキュレーションされた固定された少数の例がすべてのタスクで代表的であるという保証はありません。

そこで、Microsoft の研究者は、動的な少数ショットの例のための方法を提案しました。

アイデアとしては、タスクのトレーニング セットは少数ショットの例のソースとして機能し、トレーニング セットが十分に大きい場合は、異なるタスク入力に対して異なる少数ショットの例を選択できるというものです。

具体的には、研究者らはまず text-embedding-ada-002 モデルを使用して、各トレーニング サンプルとテスト サンプルのベクトル表現を生成しました。次に、各テスト サンプルについて、ベクトルの類似性に基づいてトレーニング サンプルから最も類似した k 個のサンプルが選択されます。

微調整方法と比較すると、動的少数ショット選択ではトレーニング データを活用しますが、モデル パラメータを大幅に更新する必要はありません。

自己生成の思考連鎖

Chain of Thought (CoT) メソッドは、モデルに段階的に考えさせ、一連の中間推論ステップを生成する方法です。

従来の方法では、プロンプト思考チェーンを含む少数の例を専門家が手作業で作成する必要がありました。

ここで研究者たちは、GPT-4 に次のプロンプトを使用してトレーニング例の思考チェーンを生成するように単純に要求できることを発見しました。

しかし、研究者らは、この自動生成された思考の連鎖には誤った推論ステップが含まれている可能性もあると指摘し、エラーを効果的に減らすためのフィルターとして検証ラベルを設定しました。

Med-PaLM 2 モデルの専門家が手作りした思考チェーンの例と比較すると、GPT-4 によって生成された思考チェーンの根拠はより長く、段階的な推論ロジックはよりきめ細かくなっています。

オプションシャッフル統合

さらに、GPT-4 は複数選択の質問に答えるときにバイアスを持つ可能性があります。つまり、選択肢が何であっても、常に A を選択するか、常に B を選択する傾向があります。これが位置バイアスです。

この問題を軽減するために、研究者は元の選択肢の順序を入れ替えることを選択しました。たとえば、元のオプションが ABCD の場合、BCDA または CDAB に変更できます。

次に、GPT-4 に複数ラウンドの予測を行わせ、各ラウンドでオプションの異なる順序を使用します。これにより、GPT-4 はオプションの内容を「強制的に」考慮するようになります。

最後に、複数回の予測の結果に投票し、最も一貫性があり正しいオプションを選択します。

上記のプロンプト戦略を組み合わせたのが Medprompt です。テスト結果を見てみましょう。

複数のテストが最適

研究者らはテストに MultiMed QA 評価ベンチマークを使用しました。

Medprompt プロンプト戦略を使用した GPT-4 は、MultiMedQA の 9 つのベンチマーク データセットすべてで最高のスコアを達成し、Flan-PaLM 540B および Med-PaLM 2 を上回りました。

さらに、研究者らは、モデルがトレーニング データに過剰適合しているかどうかをテストするために使用される、「Eyes-Off」データ、つまり、トレーニングまたは最適化中にモデルが一度も見たことのないデータでのパフォーマンスについても Medprompt 戦略のパフォーマンスについて議論しました。

結果: Medprompt 戦略と組み合わせた GPT-4 は、複数の医療ベンチマーク データセットで良好なパフォーマンスを発揮し、平均精度は 91.3% でした。

研究者らは、MedQA データセットに対してアブレーション実験も実施し、3 つのコンポーネントが全体的なパフォーマンスにどの程度寄与しているかを調査しました。

その中で、思考チェーンを自動生成するステップがパフォーマンスの向上に最も貢献します。

そして、GPT-4 によって自動的に生成された思考チェーンは、Med-PaLM 2 の専門家によってキュレーションされたものよりも高いスコアを獲得しました。

最後に、研究者らは、電気工学、機械学習、哲学、専門会計、専門法律、専門心理学の問題を網羅する MMLU ベンチマークの 6 つの異なるデータセットを使用して、Medprompt のクロスドメイン一般化機能を調査しました。

NCLEX (米国看護師免許試験) の質問を含む 2 つの追加データセットも追加されました。

結果によると、これらのデータセットでの Medprompt のパフォーマンスは MultiMedQA 医療データセットでのパフォーマンスと同様であり、平均精度が 7.3% 向上しました。

論文リンク: https://arxiv.org/pdf/2311.16452.pdf

<<:  コンピュータービジョン GPT の瞬間!カリフォルニア大学バークレー校の3つの巨人が最初の純粋なCV大規模モデルを発表し、その推論はAGIの火花を示した

>>:  13 の視覚言語タスクをクリアしましょう!ハルビン工業大学がマルチモーダル大型モデル「九天」をリリース、性能が5%向上

ブログ    

推薦する

...

...

ヘルスケアにおける6つの新たなテクノロジートレンド

ヘルスケア業界におけるテクノロジーの浸透は、この分野の専門家のほぼすべての業務に影響を及ぼしています...

2025年までにロボットが8000万人の労働者に取って代わるのでしょうか?職を失った人はどうすればいいのでしょうか?

同紙によると、世界経済フォーラムがロボット革命に関する報告書を発表し、世界的な警戒を呼び起こした。同...

AI時代のIVRテスト:人間と機械のギャップを埋める

対話型音声応答 (IVR) システムにおける人工知能 (AI) の変革的役割と、それが IVR テス...

AIがDotAのトッププレイヤーに勝利したのは画期的なことでしょうか? OpenAIが詳細を発表

[[200484]]週末、OpenAI は世界最高峰の DotA 2 イベント TI7 (The I...

人工知能は医療をよりスマートにできるでしょうか?

人工知能といえば、実は誰もが知っている存在です。もはやSF映画のワンシーンではなく、私たちの生活にど...

人工知能システムにおける不確実性の定量化

翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟まとめ人工知能 (AI) ベースのシステムは大きな可能性を...

表形式データでの機械学習に特徴抽出を使用する方法

データ準備の最も一般的なアプローチは、データセットを調査し、機械学習アルゴリズムの期待値を確認し、最...

...

ソフトウェア開発に GenAI モデルを安全に使用する手順

大企業であれば、最近の AI ブームは見逃せないものであり、現在、AI はコンテンツ生成から自動化や...

確率的隠れ層モデルに基づくショッピングペアリングプッシュ:アリババが新しいユーザー嗜好予測モデルを提案

論文:混合モデルアプローチによる電子商取引プッシュ通知での補完製品の推奨論文リンク: https:/...

人工知能が VPS と共有ホスティング オプションの議論を再構築

人工知能は数え切れないほど多くの業界を前例のない形で変えています。ウェブホスティングは人工知能が関与...

創造性がデジタル変革を推進する

人工知能はビジネス環境を一新し、競争環境を変え、仕事の本質を変革しています。しかし、人間の創造性も ...