GPT-4 が人間のデータ専門家を引き継いでいます!事前の知識により、LLMは従来の方法に匹敵する精度で大胆な予測を行うことができます。

GPT-4 が人間のデータ専門家を引き継いでいます!事前の知識により、LLMは従来の方法に匹敵する精度で大胆な予測を行うことができます。

データ サイエンスでは、AI 研究者は不完全なデータセットを処理するという課題にしばしば直面します。

しかし、既存のアルゴリズムの多くは、「不完全な」データ シーケンスを処理することができません。

従来、データ サイエンティストは専門家に頼り、その専門知識を活用してギャップを埋めていましたが、このプロセスは時間がかかり、非現実的です。

AIが専門家の役割を引き継ぐことができたらどうなるでしょうか?

最近、ドイツ人工知能センター、大阪大学などの研究者らが、法学修士号(LLM)取得者がデジタル専門家として活躍できるかどうかを調査した。

結局のところ、現在の大規模モデルは大量のテキストでトレーニングされており、医療データや社会科学などのさまざまなトピックの問題を深く理解している可能性があります。

論文アドレス: https://arxiv.org/pdf/2402.07770.pdf

研究者らは、LLM の回答を実際のデータと比較し、データのギャップを解消するための統計的手法を開発しました。

結果は、多くの場合、LLM は人間の専門家に頼ることなく、従来の方法と同様に正確な推定値を提供できることを示しています。

LLM を使用したデータ補間

医学、経済、環境研究など、データの分析では、不完全な情報という問題に遭遇することがよくあります。

これには、事前ヒューリスティック(事前知識の決定)とデータ補間(欠落データの補完)という 2 つの主要な手法を使用する必要があります。

事前誘導とは、モデル内の特定のパラメータについて仮定を行うために、既存の専門知識を体系的に収集することを指します。

一方、データセットに情報が欠落している場合、データ補完が役立ちます。

いくつかの欠落部分があるという理由で貴重なデータセットを破棄するのではなく、科学者は統計的手法を使用して妥当な値でそれらを埋めます。

この研究で使用された主なデータセットは、OpenML-CC18 Curated Classification Benchmark であり、信用格付けから医療、マーケティングまでさまざまな分野をカバーする 72 の分類データセットが含まれています。

この多様性により、実験は幅広い現実世界のシナリオをカバーし、さまざまな設定での LLM のパフォーマンスに関する適切な洞察を提供することが保証されます。

最新の方法における最も重要なステップの 1 つは、データセット内に欠損値を人工的に生成して、不完全なデータ ポイントの状況をシミュレートすることであることは言及する価値があります。

研究者らは、ランダム欠落(MAR)パターンを使用して完全なエントリからこの欠落データを生成し、真実データと比較しました。

まず、OpenML 記述から各データセットに適切な専門家ペルソナを生成し、それを使用して LLM を初期化し、欠損値を照会できるようにします。

LLaMA 2 13B Chat、LLaMA 2 70B Chat、Mistral 7B Instruct、Mixtral 8x7B Instruct などの LLM を使用した補間が個別に評価されました。

これらのモデルは、この種の分析で一般的に使用される 3 つの経験的手法 (それぞれ、平均とモードの推定、k 最近傍 (k-NN) 推定、連続的特徴とカテゴリ特徴のランダム フォレスト推定) と比較されました。

帰属品質は、連続的特徴とカテゴリ的特徴の両方について、正規化された二乗平均平方根誤差 (NRMSE) と F1 スコアに基づいて評価されます。

このアプローチにより、研究者は LLM がデータ外挿の専門家として機能する能力を調査し、そのパフォーマンスを従来の方法と比較することができました。

この革新的なアプローチは、不完全なデータセットを扱う上で新たな視点を開き、データサイエンスにおける LLM の可能性を浮き彫りにします。

従来の方法との比較

予想に反して、分析結果は、LLM の推定品質が 3 つの経験的手法の推定品質よりも一般的に優れているわけではないことを示しています。

ただし、LLM ベースの補完は、特にエンジニアリングやコンピューター ビジョンの分野における特定のデータセットには役立ちます。

これらの分野の「PC1」、「PC3」、「Satimage」などの一部のデータセットは、NRMSEが約0.1の帰属品質を示しており、生物学やNLPの分野でも同様の結果が観察されています。

興味深いことに、LLM 帰属に基づくダウンストリームのパフォーマンスはドメインによって異なります。

社会科学や心理学などの分野の成績は悪かったが、医学、経済学、ビジネス、生物学などの分野の成績は良かった。 LLM ベースの代入が商業分野で最も優れたパフォーマンスを発揮することは注目に値します。

さらに、研究では、少なくとも一部の領域では、LLM は豊富なトレーニング データに基づいて、現実世界のデータと照合できる正確で適切な推定値を提供できることが示されています。

LLM をデータ補完に使用することは有望ですが、ドメインと特定の使用ケースを慎重に検討する必要があります。

したがって、この研究の結果は、データサイエンスにおける LLM の可能性と限界をより深く理解することに貢献します。

LLM事前分布を用いたヒューリスティック

さらに、研究者らは LLM を使用して事前誘導を研究し、LLM が特徴の分布に関する情報を提供できるかどうか、またそれがデータ収集とその後のデータ分析にどのように影響するかを評価することを目指しました。

特に、LLM によって取得された事前分布の影響と有効性をさらに理解し、そのパフォーマンスを従来の方法やモデルと比較します。

著者らは、LLM 推定値を Stefan らの実験結果と比較しました。

この実験では、6 人の心理学研究者に、それぞれの分野における典型的な小規模および中規模の効果サイズとピアソン相関について質問しました。

同様の質問を使用して、LLM は専門家、専門家のグループ、または非専門家をシミュレートし、優先順位の分布を照会するように求められます。

これは、比較実験で使用されたインタビュープロトコルを参照しても参照しなくても実行できます。

ここでは、ベイズデータ分析のために専門家の情報に基づいた事前分布をモデルが提供することを要求する新しいプロンプト戦略を提案します。

このプロセスにおいて、ChatGPT 3.5 は、ヒストグラム手法と組み合わせたシェフィールドに触発されたフレームワークなど、学術に触発されたフレームワークに精通していることを示しています。

研究者らはこのフレームワークを使用して、世界中のあらゆる規模の25都市における12月の典型的な毎日の気温と降水量の事前分布を生成した。

ChatGPT は、トレーニング データから得られた知識を使用して、専門家の議論をシミュレートし、パラメータの確率分布を構築します。

実験結果

驚くべきことに、さまざまなサブフィールドの専門家の役割は、LLM によって生成された事前確率に大きな影響を与えませんでした。

実験では、どんな役割を演じたとしても、彼らの判断は非常に似ていました。

ほとんどの人間の専門家は、影響は小さいだろうと考え、予測に慎重になる傾向があります。 GPT-4 の専門家だけがより大胆で、影響は中程度から大きいと考えています。

天気が買い物行動に与える影響など、2 つの事柄の関係性に関しては、デジタル アシスタントは実際の人間とは異なる視点を持っています。

一部のデジタルアシスタントは、中間が低く、高いエッジを持つ「バスタブ」曲線を示しますが、GPT-4 はより滑らかなベル曲線を示します。

次に著者らは、これらの数字主義者が自分たちの予測にどれほど自信を持っているかを調べた。ミストラル 7B インストラクトを除いて、かなり慎重で控えめな見積もりを提示した会社もありました。ミストラル 7B インストラクトは見積もりの​​質に非常に自信を持っていました。

これらの結果を総合すると、LLM は、いくつかの点では人間の専門家の判断と競合できるが、他の点では大幅に異なる事前確率を生成できることも示唆しています。

結論は

この研究は、医学、経済学、生物学などの分野では、LLM が従来のデータ補間方法を超える貴重な洞察をすでに提供できることを示しています。

LLM は、さまざまなソースからの知識を統合し、それを特定のアプリケーション コンテキストに適用して、データ分析の新たな展望を切り開くことができます。

特に専門家を見つけるのが難しい場合や時間が限られている場合には、LLM は貴重なリソースとなります。

<<:  Google AIのスターがPika: ビデオ生成Lumiereの創設科学者に就任

>>:  役立つ情報満載!カルパシーの2時間AIコースの最初のエピソードはテキスト形式で提供されます。新しいワークフローは、ビデオを自動的に記事に変換します。

ブログ    

推薦する

科学技術省はAIの使用を規制し、AIGCが申請資料を直接生成することを禁止する文書を発行した。

IT Homeは1月3日、科学技術部監督管理部門が先月「責任ある研究行為に関するガイドライン(20...

MITはロボットの構造を自動設計できるコンピュータシステムを発明し、25年で最高の成果を達成した。

研究者にとって、適切な形状を選択することは、ロボットが特定の地形を移動できる能力にとって非常に重要で...

大学では人工知能を専攻できるコースはありますか?まだ道のりは長い

教育省は最近、「高等教育機関向け人工知能イノベーション計画」を発表し、「人工知能分野における人材育成...

欧州のAI法案がまもなく導入され、世界の技術規制に影響を及ぼす可能性がある

AI法案は、AIの開発方法、企業がAIを使ってできること、要件に従わなかった場合の法的結果など、A...

...

モノのインターネットにおける機械学習の役割は何ですか?

ビッグデータや人工知能などのテクノロジーがもたらす機会と脅威、そしてその将来に対する懸念については、...

人工知能とプライバシーの議論: AIの透明性の長所と短所を理解する

AI がますます多くの業界で採用されるようになるにつれ、AI のユーザーは、実用性を効果的に維持しな...

7年間の変革:WOT2018がテクノロジーの背後にある真実を明らかにする

2018 年のインターネット業界が新たな変化の時期を迎えていることは否定できません。新たなアップグレ...

国際数学オリンピック連続優勝、基礎学問の科学技術戦略価値の分析

[[344622]] 第61回国際数学オリンピック(IMO)2020の結果が先日発表されました。中国...

人工知能がITを変える5つの方法

IT サービス デスクからデータ分析の最前線、新しいツール、戦略、関係まで、AI は IT 組織をど...

...

エントリーレベルのデータベースアルゴリズム [パート 3]

前回は著者の指示に従って、データ構造におけるクエリ アルゴリズムといくつかのソート アルゴリズムを確...