GPT-4 が人間のデータ専門家を引き継いでいます!事前の知識により、LLMは従来の方法に匹敵する精度で大胆な予測を行うことができます。

GPT-4 が人間のデータ専門家を引き継いでいます!事前の知識により、LLMは従来の方法に匹敵する精度で大胆な予測を行うことができます。

データ サイエンスでは、AI 研究者は不完全なデータセットを処理するという課題にしばしば直面します。

しかし、既存のアルゴリズムの多くは、「不完全な」データ シーケンスを処理することができません。

従来、データ サイエンティストは専門家に頼り、その専門知識を活用してギャップを埋めていましたが、このプロセスは時間がかかり、非現実的です。

AIが専門家の役割を引き継ぐことができたらどうなるでしょうか?

最近、ドイツ人工知能センター、大阪大学などの研究者らが、法学修士号(LLM)取得者がデジタル専門家として活躍できるかどうかを調査した。

結局のところ、現在の大規模モデルは大量のテキストでトレーニングされており、医療データや社会科学などのさまざまなトピックの問題を深く理解している可能性があります。

論文アドレス: https://arxiv.org/pdf/2402.07770.pdf

研究者らは、LLM の回答を実際のデータと比較し、データのギャップを解消するための統計的手法を開発しました。

結果は、多くの場合、LLM は人間の専門家に頼ることなく、従来の方法と同様に正確な推定値を提供できることを示しています。

LLM を使用したデータ補間

医学、経済、環境研究など、データの分析では、不完全な情報という問題に遭遇することがよくあります。

これには、事前ヒューリスティック(事前知識の決定)とデータ補間(欠落データの補完)という 2 つの主要な手法を使用する必要があります。

事前誘導とは、モデル内の特定のパラメータについて仮定を行うために、既存の専門知識を体系的に収集することを指します。

一方、データセットに情報が欠落している場合、データ補完が役立ちます。

いくつかの欠落部分があるという理由で貴重なデータセットを破棄するのではなく、科学者は統計的手法を使用して妥当な値でそれらを埋めます。

この研究で使用された主なデータセットは、OpenML-CC18 Curated Classification Benchmark であり、信用格付けから医療、マーケティングまでさまざまな分野をカバーする 72 の分類データセットが含まれています。

この多様性により、実験は幅広い現実世界のシナリオをカバーし、さまざまな設定での LLM のパフォーマンスに関する適切な洞察を提供することが保証されます。

最新の方法における最も重要なステップの 1 つは、データセット内に欠損値を人工的に生成して、不完全なデータ ポイントの状況をシミュレートすることであることは言及する価値があります。

研究者らは、ランダム欠落(MAR)パターンを使用して完全なエントリからこの欠落データを生成し、真実データと比較しました。

まず、OpenML 記述から各データセットに適切な専門家ペルソナを生成し、それを使用して LLM を初期化し、欠損値を照会できるようにします。

LLaMA 2 13B Chat、LLaMA 2 70B Chat、Mistral 7B Instruct、Mixtral 8x7B Instruct などの LLM を使用した補間が個別に評価されました。

これらのモデルは、この種の分析で一般的に使用される 3 つの経験的手法 (それぞれ、平均とモードの推定、k 最近傍 (k-NN) 推定、連続的特徴とカテゴリ特徴のランダム フォレスト推定) と比較されました。

帰属品質は、連続的特徴とカテゴリ的特徴の両方について、正規化された二乗平均平方根誤差 (NRMSE) と F1 スコアに基づいて評価されます。

このアプローチにより、研究者は LLM がデータ外挿の専門家として機能する能力を調査し、そのパフォーマンスを従来の方法と比較することができました。

この革新的なアプローチは、不完全なデータセットを扱う上で新たな視点を開き、データサイエンスにおける LLM の可能性を浮き彫りにします。

従来の方法との比較

予想に反して、分析結果は、LLM の推定品質が 3 つの経験的手法の推定品質よりも一般的に優れているわけではないことを示しています。

ただし、LLM ベースの補完は、特にエンジニアリングやコンピューター ビジョンの分野における特定のデータセットには役立ちます。

これらの分野の「PC1」、「PC3」、「Satimage」などの一部のデータセットは、NRMSEが約0.1の帰属品質を示しており、生物学やNLPの分野でも同様の結果が観察されています。

興味深いことに、LLM 帰属に基づくダウンストリームのパフォーマンスはドメインによって異なります。

社会科学や心理学などの分野の成績は悪かったが、医学、経済学、ビジネス、生物学などの分野の成績は良かった。 LLM ベースの代入が商業分野で最も優れたパフォーマンスを発揮することは注目に値します。

さらに、研究では、少なくとも一部の領域では、LLM は豊富なトレーニング データに基づいて、現実世界のデータと照合できる正確で適切な推定値を提供できることが示されています。

LLM をデータ補完に使用することは有望ですが、ドメインと特定の使用ケースを慎重に検討する必要があります。

したがって、この研究の結果は、データサイエンスにおける LLM の可能性と限界をより深く理解することに貢献します。

LLM事前分布を用いたヒューリスティック

さらに、研究者らは LLM を使用して事前誘導を研究し、LLM が特徴の分布に関する情報を提供できるかどうか、またそれがデータ収集とその後のデータ分析にどのように影響するかを評価することを目指しました。

特に、LLM によって取得された事前分布の影響と有効性をさらに理解し、そのパフォーマンスを従来の方法やモデルと比較します。

著者らは、LLM 推定値を Stefan らの実験結果と比較しました。

この実験では、6 人の心理学研究者に、それぞれの分野における典型的な小規模および中規模の効果サイズとピアソン相関について質問しました。

同様の質問を使用して、LLM は専門家、専門家のグループ、または非専門家をシミュレートし、優先順位の分布を照会するように求められます。

これは、比較実験で使用されたインタビュープロトコルを参照しても参照しなくても実行できます。

ここでは、ベイズデータ分析のために専門家の情報に基づいた事前分布をモデルが提供することを要求する新しいプロンプト戦略を提案します。

このプロセスにおいて、ChatGPT 3.5 は、ヒストグラム手法と組み合わせたシェフィールドに触発されたフレームワークなど、学術に触発されたフレームワークに精通していることを示しています。

研究者らはこのフレームワークを使用して、世界中のあらゆる規模の25都市における12月の典型的な毎日の気温と降水量の事前分布を生成した。

ChatGPT は、トレーニング データから得られた知識を使用して、専門家の議論をシミュレートし、パラメータの確率分布を構築します。

実験結果

驚くべきことに、さまざまなサブフィールドの専門家の役割は、LLM によって生成された事前確率に大きな影響を与えませんでした。

実験では、どんな役割を演じたとしても、彼らの判断は非常に似ていました。

ほとんどの人間の専門家は、影響は小さいだろうと考え、予測に慎重になる傾向があります。 GPT-4 の専門家だけがより大胆で、影響は中程度から大きいと考えています。

天気が買い物行動に与える影響など、2 つの事柄の関係性に関しては、デジタル アシスタントは実際の人間とは異なる視点を持っています。

一部のデジタルアシスタントは、中間が低く、高いエッジを持つ「バスタブ」曲線を示しますが、GPT-4 はより滑らかなベル曲線を示します。

次に著者らは、これらの数字主義者が自分たちの予測にどれほど自信を持っているかを調べた。ミストラル 7B インストラクトを除いて、かなり慎重で控えめな見積もりを提示した会社もありました。ミストラル 7B インストラクトは見積もりの​​質に非常に自信を持っていました。

これらの結果を総合すると、LLM は、いくつかの点では人間の専門家の判断と競合できるが、他の点では大幅に異なる事前確率を生成できることも示唆しています。

結論は

この研究は、医学、経済学、生物学などの分野では、LLM が従来のデータ補間方法を超える貴重な洞察をすでに提供できることを示しています。

LLM は、さまざまなソースからの知識を統合し、それを特定のアプリケーション コンテキストに適用して、データ分析の新たな展望を切り開くことができます。

特に専門家を見つけるのが難しい場合や時間が限られている場合には、LLM は貴重なリソースとなります。

<<:  Google AIのスターがPika: ビデオ生成Lumiereの創設科学者に就任

>>:  役立つ情報満載!カルパシーの2時間AIコースの最初のエピソードはテキスト形式で提供されます。新しいワークフローは、ビデオを自動的に記事に変換します。

推薦する

AI時代に医療データの品質が重要な理由

効果的な医療データ分析においては、データの品質は主観的なものになります。データから得られる情報の正確...

機械学習モデルの仕組み

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

ディープインテリジェンスとは: 2021 年のディープインテリジェンスのトレンドは何ですか?

人工知能の開発は60年以上前に遡りますが、技術的な理由により、ディープラーニングの出現により再び人工...

致命的な幻覚問題、GPU 代替品の開発、大規模モデルが直面するその他の 10 の課題

ChatGPT、GPT-4などのリリースにより、大規模モデル(LLM)の魅力が明らかになった一方で、...

Googleは従業員に対し、生成AIの秘密を「漏らしたり」、直接コードを書いたりしないように警告している。

ロイター通信によると、6月15日のニュースでは、Googleは生成AIの最も熱心な支持者の1つである...

データセキュリティの向上と人工知能の信頼性の向上

JD Discovery Research InstituteのTao Dacheng所長はかつて、...

深い思考 | 大規模モデルの機能の限界はどこにあるのでしょうか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

IoT、AI、デジタルツインをどのように統合するのか?

デジタル ツインは、物理世界とデジタル世界をつなぐため、常に興味深いものです。将来的には、すべてのも...

...

GitHubが機械学習ベースのコードスキャンと分析機能を開始

GitHub は、クロスサイト スクリプティング (XSS)、パス インジェクション、NoSQL イ...

Github のトップ 5 オープンソース機械学習プロジェクト!データ計算が最大80倍高速化!

挑戦的なオープンソース機械学習プロジェクト 5 つで、2020 年を良いスタートを切りましょう。これ...

頑固なマージソートアルゴリズム

この記事はWeChatの公開アカウント「Beta Learns JAVA」から転載したもので、著者は...

天地万能?疫病の流行に直面して、これらの AI は静かにあなたを守っています...

COVID-19の流行は深刻ですが、多くの新しい技術の助けにより、予防と制御の対策は何年も前と同じ...

ハイパーオートメーション — AIの新時代における自動化

ハイパーオートメーションとは何か、そして AI 主導のオートメーションが製品プロセスを改善してより迅...