データ サイエンスでは、AI 研究者は不完全なデータセットを処理するという課題にしばしば直面します。 しかし、既存のアルゴリズムの多くは、「不完全な」データ シーケンスを処理することができません。 従来、データ サイエンティストは専門家に頼り、その専門知識を活用してギャップを埋めていましたが、このプロセスは時間がかかり、非現実的です。 AIが専門家の役割を引き継ぐことができたらどうなるでしょうか? 最近、ドイツ人工知能センター、大阪大学などの研究者らが、法学修士号(LLM)取得者がデジタル専門家として活躍できるかどうかを調査した。 結局のところ、現在の大規模モデルは大量のテキストでトレーニングされており、医療データや社会科学などのさまざまなトピックの問題を深く理解している可能性があります。 論文アドレス: https://arxiv.org/pdf/2402.07770.pdf 研究者らは、LLM の回答を実際のデータと比較し、データのギャップを解消するための統計的手法を開発しました。 結果は、多くの場合、LLM は人間の専門家に頼ることなく、従来の方法と同様に正確な推定値を提供できることを示しています。 LLM を使用したデータ補間医学、経済、環境研究など、データの分析では、不完全な情報という問題に遭遇することがよくあります。 これには、事前ヒューリスティック(事前知識の決定)とデータ補間(欠落データの補完)という 2 つの主要な手法を使用する必要があります。 事前誘導とは、モデル内の特定のパラメータについて仮定を行うために、既存の専門知識を体系的に収集することを指します。 一方、データセットに情報が欠落している場合、データ補完が役立ちます。 いくつかの欠落部分があるという理由で貴重なデータセットを破棄するのではなく、科学者は統計的手法を使用して妥当な値でそれらを埋めます。 この研究で使用された主なデータセットは、OpenML-CC18 Curated Classification Benchmark であり、信用格付けから医療、マーケティングまでさまざまな分野をカバーする 72 の分類データセットが含まれています。 この多様性により、実験は幅広い現実世界のシナリオをカバーし、さまざまな設定での LLM のパフォーマンスに関する適切な洞察を提供することが保証されます。 最新の方法における最も重要なステップの 1 つは、データセット内に欠損値を人工的に生成して、不完全なデータ ポイントの状況をシミュレートすることであることは言及する価値があります。 研究者らは、ランダム欠落(MAR)パターンを使用して完全なエントリからこの欠落データを生成し、真実データと比較しました。 まず、OpenML 記述から各データセットに適切な専門家ペルソナを生成し、それを使用して LLM を初期化し、欠損値を照会できるようにします。 LLaMA 2 13B Chat、LLaMA 2 70B Chat、Mistral 7B Instruct、Mixtral 8x7B Instruct などの LLM を使用した補間が個別に評価されました。 これらのモデルは、この種の分析で一般的に使用される 3 つの経験的手法 (それぞれ、平均とモードの推定、k 最近傍 (k-NN) 推定、連続的特徴とカテゴリ特徴のランダム フォレスト推定) と比較されました。 帰属品質は、連続的特徴とカテゴリ的特徴の両方について、正規化された二乗平均平方根誤差 (NRMSE) と F1 スコアに基づいて評価されます。 このアプローチにより、研究者は LLM がデータ外挿の専門家として機能する能力を調査し、そのパフォーマンスを従来の方法と比較することができました。 この革新的なアプローチは、不完全なデータセットを扱う上で新たな視点を開き、データサイエンスにおける LLM の可能性を浮き彫りにします。 従来の方法との比較予想に反して、分析結果は、LLM の推定品質が 3 つの経験的手法の推定品質よりも一般的に優れているわけではないことを示しています。 ただし、LLM ベースの補完は、特にエンジニアリングやコンピューター ビジョンの分野における特定のデータセットには役立ちます。 これらの分野の「PC1」、「PC3」、「Satimage」などの一部のデータセットは、NRMSEが約0.1の帰属品質を示しており、生物学やNLPの分野でも同様の結果が観察されています。 興味深いことに、LLM 帰属に基づくダウンストリームのパフォーマンスはドメインによって異なります。 社会科学や心理学などの分野の成績は悪かったが、医学、経済学、ビジネス、生物学などの分野の成績は良かった。 LLM ベースの代入が商業分野で最も優れたパフォーマンスを発揮することは注目に値します。 さらに、研究では、少なくとも一部の領域では、LLM は豊富なトレーニング データに基づいて、現実世界のデータと照合できる正確で適切な推定値を提供できることが示されています。 LLM をデータ補完に使用することは有望ですが、ドメインと特定の使用ケースを慎重に検討する必要があります。 したがって、この研究の結果は、データサイエンスにおける LLM の可能性と限界をより深く理解することに貢献します。 LLM事前分布を用いたヒューリスティックさらに、研究者らは LLM を使用して事前誘導を研究し、LLM が特徴の分布に関する情報を提供できるかどうか、またそれがデータ収集とその後のデータ分析にどのように影響するかを評価することを目指しました。 特に、LLM によって取得された事前分布の影響と有効性をさらに理解し、そのパフォーマンスを従来の方法やモデルと比較します。 著者らは、LLM 推定値を Stefan らの実験結果と比較しました。 この実験では、6 人の心理学研究者に、それぞれの分野における典型的な小規模および中規模の効果サイズとピアソン相関について質問しました。 同様の質問を使用して、LLM は専門家、専門家のグループ、または非専門家をシミュレートし、優先順位の分布を照会するように求められます。 これは、比較実験で使用されたインタビュープロトコルを参照しても参照しなくても実行できます。 ここでは、ベイズデータ分析のために専門家の情報に基づいた事前分布をモデルが提供することを要求する新しいプロンプト戦略を提案します。 このプロセスにおいて、ChatGPT 3.5 は、ヒストグラム手法と組み合わせたシェフィールドに触発されたフレームワークなど、学術に触発されたフレームワークに精通していることを示しています。 研究者らはこのフレームワークを使用して、世界中のあらゆる規模の25都市における12月の典型的な毎日の気温と降水量の事前分布を生成した。 ChatGPT は、トレーニング データから得られた知識を使用して、専門家の議論をシミュレートし、パラメータの確率分布を構築します。 実験結果 驚くべきことに、さまざまなサブフィールドの専門家の役割は、LLM によって生成された事前確率に大きな影響を与えませんでした。 実験では、どんな役割を演じたとしても、彼らの判断は非常に似ていました。 ほとんどの人間の専門家は、影響は小さいだろうと考え、予測に慎重になる傾向があります。 GPT-4 の専門家だけがより大胆で、影響は中程度から大きいと考えています。 天気が買い物行動に与える影響など、2 つの事柄の関係性に関しては、デジタル アシスタントは実際の人間とは異なる視点を持っています。 一部のデジタルアシスタントは、中間が低く、高いエッジを持つ「バスタブ」曲線を示しますが、GPT-4 はより滑らかなベル曲線を示します。 次に著者らは、これらの数字主義者が自分たちの予測にどれほど自信を持っているかを調べた。ミストラル 7B インストラクトを除いて、かなり慎重で控えめな見積もりを提示した会社もありました。ミストラル 7B インストラクトは見積もりの質に非常に自信を持っていました。 これらの結果を総合すると、LLM は、いくつかの点では人間の専門家の判断と競合できるが、他の点では大幅に異なる事前確率を生成できることも示唆しています。 結論はこの研究は、医学、経済学、生物学などの分野では、LLM が従来のデータ補間方法を超える貴重な洞察をすでに提供できることを示しています。 LLM は、さまざまなソースからの知識を統合し、それを特定のアプリケーション コンテキストに適用して、データ分析の新たな展望を切り開くことができます。 特に専門家を見つけるのが難しい場合や時間が限られている場合には、LLM は貴重なリソースとなります。 |
<<: Google AIのスターがPika: ビデオ生成Lumiereの創設科学者に就任
>>: 役立つ情報満載!カルパシーの2時間AIコースの最初のエピソードはテキスト形式で提供されます。新しいワークフローは、ビデオを自動的に記事に変換します。
本日、Stability AI は 2024 年向けの最初のモデルである Stable Code 3...
効果的な医療データ分析においては、データの品質は主観的なものになります。データから得られる情報の正確...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
人工知能の開発は60年以上前に遡りますが、技術的な理由により、ディープラーニングの出現により再び人工...
ChatGPT、GPT-4などのリリースにより、大規模モデル(LLM)の魅力が明らかになった一方で、...
ロイター通信によると、6月15日のニュースでは、Googleは生成AIの最も熱心な支持者の1つである...
JD Discovery Research InstituteのTao Dacheng所長はかつて、...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
デジタル ツインは、物理世界とデジタル世界をつなぐため、常に興味深いものです。将来的には、すべてのも...
GitHub は、クロスサイト スクリプティング (XSS)、パス インジェクション、NoSQL イ...
挑戦的なオープンソース機械学習プロジェクト 5 つで、2020 年を良いスタートを切りましょう。これ...
この記事はWeChatの公開アカウント「Beta Learns JAVA」から転載したもので、著者は...
COVID-19の流行は深刻ですが、多くの新しい技術の助けにより、予防と制御の対策は何年も前と同じ...
ハイパーオートメーションとは何か、そして AI 主導のオートメーションが製品プロセスを改善してより迅...