Microsoft は「プロンプトエンジニアリング」のみを使用して GPT-4 を医療の専門家にします。高度に調整された数々のモデルを上回り、専門的なテスト精度が初めて90％を超える

マイクロソフトの最新の研究は、迅速なエンジニアリングの力を再び証明しています——

追加の微調整や専門家の計画は必要ありません。GPT-4 はプロンプトだけで「専門家」になることができます。

GPT-4 は、最新のプロンプト戦略Medpromptを使用して、医療専門知識の分野における MultiMed QA の 9 つのテストセットで最高の結果を達成しました。

MedQAデータセット（米国医師免許試験問題）では、MedpromptによりGPT-4は初めて90％を超える精度を達成し、 BioGPTやMed-PaLMなどの多くの微調整方法を上回りました。

研究者らはまた、Medpromptの方法は普遍的で、医学だけでなく、電気工学、機械学習、法律などの専門職にも応用できると述べた。

この研究がX（旧Twitter）で共有されると、多くのネットユーザーの注目を集めました。

ウォートン校のイーサン・モリック教授、Artificial Intuitionの著者カルロス・E・ペレスらがこの記事を共有した。

Carlos E. Perez 氏は、「優れたプロンプト戦略は、微調整をはるかに上回ることができます」と述べています。

ネットユーザーの中には、ずっと前から同じ気持ちだったが、今その結果を見ると本当に「とてもクール」だと言う人もいる。

一部のネットユーザーも、これは本当に「過激」だと述べた。

GPT-4 は業界を変えるテクノロジーであり、プロンプトや微調整の限界に到達するにはほど遠い状態です。

組み合わせたプロンプト戦略、エキスパートに「変身」

Medprompt は、3 つの魔法の武器を含む複数のプロンプト戦略の組み合わせです。

動的な少数ショットの選択
自己生成の思考の連鎖
チョイスシャッフルアンサンブル

以下、一つずつ紹介していきましょう。

動的な少数ショットの選択

少数ショット学習は、モデルがコンテキストを迅速に学習できるようにする効果的な方法です。簡単に言えば、いくつかの例を入力し、モデルを特定のドメインに素早く適応させ、タスクの形式に従うことを学習することです。

特定のタスクプロンプトに対するこのような少数のサンプルの例は通常固定されているため、例の代表性と広範さに対する要件は高くなります。

これまでのアプローチでは、ドメインの専門家が手動で例を作成していましたが、それでも、専門家によってキュレーションされた固定された少数の例がすべてのタスクで代表的であるという保証はありません。

そこで、Microsoft の研究者は、動的な少数ショットの例のための方法を提案しました。

アイデアとしては、タスクのトレーニングセットは少数ショットの例のソースとして機能し、トレーニングセットが十分に大きい場合は、異なるタスク入力に対して異なる少数ショットの例を選択できるというものです。

具体的には、研究者らはまず text-embedding-ada-002 モデルを使用して、各トレーニングサンプルとテストサンプルのベクトル表現を生成しました。次に、各テストサンプルについて、ベクトルの類似性に基づいてトレーニングサンプルから最も類似した k 個のサンプルが選択されます。

微調整方法と比較すると、動的少数ショット選択ではトレーニングデータを活用しますが、モデルパラメータを大幅に更新する必要はありません。

自己生成の思考連鎖

Chain of Thought (CoT) メソッドは、モデルに段階的に考えさせ、一連の中間推論ステップを生成する方法です。

従来の方法では、プロンプト思考チェーンを含む少数の例を専門家が手作業で作成する必要がありました。

ここで研究者たちは、GPT-4 に次のプロンプトを使用してトレーニング例の思考チェーンを生成するように単純に要求できることを発見しました。

しかし、研究者らは、この自動生成された思考の連鎖には誤った推論ステップが含まれている可能性もあると指摘し、エラーを効果的に減らすためのフィルターとして検証ラベルを設定しました。

Med-PaLM 2 モデルの専門家が手作りした思考チェーンの例と比較すると、GPT-4 によって生成された思考チェーンの根拠はより長く、段階的な推論ロジックはよりきめ細かくなっています。

オプションシャッフル統合

さらに、GPT-4 は複数選択の質問に答えるときにバイアスを持つ可能性があります。つまり、選択肢が何であっても、常に A を選択するか、常に B を選択する傾向があります。これが位置バイアスです。

この問題を軽減するために、研究者は元の選択肢の順序を入れ替えることを選択しました。たとえば、元のオプションが ABCD の場合、BCDA または CDAB に変更できます。

次に、GPT-4 に複数ラウンドの予測を行わせ、各ラウンドでオプションの異なる順序を使用します。これにより、GPT-4 はオプションの内容を「強制的に」考慮するようになります。

最後に、複数回の予測の結果に投票し、最も一貫性があり正しいオプションを選択します。

上記のプロンプト戦略を組み合わせたのが Medprompt です。テスト結果を見てみましょう。

複数のテストが最適

研究者らはテストに MultiMed QA 評価ベンチマークを使用しました。

Medprompt プロンプト戦略を使用した GPT-4 は、MultiMedQA の 9 つのベンチマークデータセットすべてで最高のスコアを達成し、Flan-PaLM 540B および Med-PaLM 2 を上回りました。

さらに、研究者らは、モデルがトレーニングデータに過剰適合しているかどうかをテストするために使用される、「Eyes-Off」データ、つまり、トレーニングまたは最適化中にモデルが一度も見たことのないデータでのパフォーマンスについても Medprompt 戦略のパフォーマンスについて議論しました。

結果: Medprompt 戦略と組み合わせた GPT-4 は、複数の医療ベンチマークデータセットで良好なパフォーマンスを発揮し、平均精度は 91.3% でした。

研究者らは、MedQA データセットに対してアブレーション実験も実施し、3 つのコンポーネントが全体的なパフォーマンスにどの程度寄与しているかを調査しました。

その中で、思考チェーンを自動生成するステップがパフォーマンスの向上に最も貢献します。

そして、GPT-4 によって自動的に生成された思考チェーンは、Med-PaLM 2 の専門家によってキュレーションされたものよりも高いスコアを獲得しました。

最後に、研究者らは、電気工学、機械学習、哲学、専門会計、専門法律、専門心理学の問題を網羅する MMLU ベンチマークの 6 つの異なるデータセットを使用して、Medprompt のクロスドメイン一般化機能を調査しました。

NCLEX (米国看護師免許試験) の質問を含む 2 つの追加データセットも追加されました。

結果によると、これらのデータセットでの Medprompt のパフォーマンスは MultiMedQA 医療データセットでのパフォーマンスと同様であり、平均精度が 7.3% 向上しました。

論文リンク: https://arxiv.org/pdf/2311.16452.pdf

<<: コンピュータービジョン GPT の瞬間!カリフォルニア大学バークレー校の3つの巨人が最初の純粋なCV大規模モデルを発表し、その推論はAGIの火花を示した

>>: 13 の視覚言語タスクをクリアしましょう!ハルビン工業大学がマルチモーダル大型モデル「九天」をリリース、性能が5%向上

ビッグデータとアルゴリズムについて言えば、これらを知っておくことはあなたにとって大きな利益となるでしょう

ブログ

触覚を感知し、自己治癒するロボットが現実になりつつある

ブログ

Microsoft は「プロンプトエンジニアリング」のみを使用して GPT-4 を医療の専門家にします。高度に調整された数々のモデルを上回り、専門的なテスト精度が初めて90％を超える

組み合わせたプロンプト戦略、エキスパートに「変身」

動的な少数ショットの選択

自己生成の思考連鎖

オプションシャッフル統合

複数のテストが最適

ビッグデータとアルゴリズムについて言えば、これらを知っておくことはあなたにとって大きな利益となるでしょう

触覚を感知し、自己治癒するロボットが現実になりつつある

警告！「リップリーディング」キーでデータを盗む、AIは本当に怖い

建築設計におけるスマートビルディングと IoT の統合

生成的ビデオ圧縮を有効にする: Google は GAN を使用して HEVC に匹敵するパフォーマンスを実現

推薦する

BigDL-LLMを使用して、数百億のパラメータを持つLLM推論を即座に加速します。

テクノロジー企業は、自動運転車市場に参入するための魅力的なビジネスモデルをまだ欠いている。

変革管理における生成AIの課題

プログラミングの達人セスブリングがマリオカートで勝つためのAIソフトウェアを開発

GCN グラフ畳み込みネットワークの紹介

機械学習プロジェクトに必須: エンドツーエンドの機械学習プロジェクト開発プロセスのタスクリスト

脳と機械の統合の時代が到来し、人類の文明は急速に発展するだろう

携帯電話開発者の年収は153万元、機械学習は最高ではない：IEEEの最新給与レポート

人工知能産業の急速な発展により、2021年以降、人工知能セキュリティの市場スペースは巨大になるでしょう。

ビッグニュース！ AIが生物学における50年来の課題を解決し、タンパク質の折り畳み問題を解明

ダボにおけるタイムホイールアルゴリズムの応用

オペレーティングシステムのプロセススケジューリングアルゴリズムとは何ですか?