データ分析は一文で完了します。浙江大学の新しいビッグモデルデータアシスタントを使用すると、データ収集の手間が省けます。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

データを処理するには、この AI ツール 1 つを使用するだけです。

背後にある大規模言語モデル (LLM) に頼れば、表示したいデータを 1 つの文で記述するだけで、残りはお任せいただけます。

処理、分析、可視化まで簡単に行うことができ、自分で収集する必要もありません。

写真

この LLM ベースの AI データアシスタントは Data-Copilot と呼ばれ、浙江大学のチームによって開発されました。

関連論文のプレプリントが公開されました。

以下のコンテンツは寄稿者によって提供されています

金融、気象、エネルギーなどのさまざまな業界では、毎日大量の異種データが生成されます。人々は、このデータを効果的に管理、処理、表示するためのツールを緊急に必要としています。

DataCopilot は大規模な言語モデルを展開し、膨大な量のデータを自律的に管理および処理して、ユーザーの多様なクエリ、計算、予測、視覚化などのニーズに対応します。

DataCopilot に表示したいデータを伝えるには、テキストを入力するだけです。面倒な操作や自分でコードを記述する必要はありません。DataCopilot は、生データをユーザーの意図に最も合った視覚化結果に自動的に変換します。

さまざまな形式のデータ関連タスクをカバーする一般的なフレームワークを実現するために、研究チームは Data-Copilot を提案しました。

このモデルは、LLM のみを使用する場合に存在するデータ漏洩リスク、計算能力の低さ、複雑なタスクを処理できないという問題を解決します。

写真

複雑なリクエストを受信すると、Data-Copilot は独立したインターフェースを自律的に設計およびスケジュールし、ユーザーの意図を満たすワークフローを構築します。

人間の支援なしに、さまざまなソースからさまざまな形式の生データをグラフ、表、テキストなどの人間が理解しやすい出力に巧みに変換できます。

写真

Data-Copilot プロジェクトの主な貢献は次のとおりです。

さまざまな分野のデータソースと多様なユーザーニーズを結び付け、面倒な労力と専門知識を軽減します。
データの自律的な管理、処理、分析、予測、視覚化を可能にし、生データをユーザーの意図に最も合った有益な結果に変換できます。
デザイナーとスケジューラという二重のアイデンティティを持ち、インターフェースツールの設計プロセス (デザイナー) とスケジューリングプロセス (スケジューラ) という 2 つのプロセスが含まれます。
Data-Copilot デモは、中国の金融市場データに基づいて構築されました。

ワークフローを独自に設計し実行する

次の例で Data-Copilot のパフォーマンスを見てみましょう。

今年第1四半期の上海総合50指数構成銘柄全体の純利益の前年比成長率はどのくらいですか？

Data-Copilot は、次のワークフローを独自に設計しました。

写真

この複雑な問題に対処するために、Data-Copilot は loop_rank インターフェースを使用して複数のループクエリを実装します。

Data-Copilot はワークフローを実行し、次の結果を得ました。

横軸は各構成銘柄名、縦軸は第1四半期純利益の前年同期比成長率です。

写真

Data-Copilot は、一般的なデータ処理に加えて、多種多様なワークフローを生成することもできます。

研究チームは、予測と並列の 2 つのワークフローモードで Data-Copilot をテストしました。

予測ワークフロー

Data-Copilot は、次の質問のように、既知のデータ以外のデータについても予測を行うことができます。

今後4四半期の中国の四半期GDPを予測する

Data-Copilot は次のようなワークフローを展開します。

過去のGDPデータを取得する → 線形回帰モデルを使用して将来を予測する → テーブルを出力する

写真

実行後の結果は次のとおりです。

写真

並列ワークフロー

過去3年間のCATLと貴州茅台酒の株価収益率を見たいです。

対応するワークフローは次のとおりです。

株価データを取得→関連指数を計算→チャートを生成

写真

2 つのストックの関連作業は同時に並行して実行され、最終結果は次のグラフになります。

写真

主な方法

Data-Copilot は、インターフェース設計とインターフェーススケジューリングという 2 つの主要段階を持つ汎用の大規模言語モデルシステムです。

インターフェース設計: 研究チームは、LLM が少数のシード要求から十分な要求を自律的に生成できるようにする自己要求プロセスを設計しました。次に、LLM は生成されたリクエストに基づいてインターフェイスを反復的に設計および最適化します。これらのインターフェースは自然言語を使用して記述されるため、簡単に拡張でき、異なるプラットフォーム間で転送できます。
インターフェースのスケジューリング: LLM は、ユーザーからのリクエストを受け取ると、独自に設計したインターフェースの説明とコンテキスト内のデモンストレーションに基づいてインターフェースツールを計画して呼び出し、ユーザーのニーズを満たすワークフローを展開し、その結果をさまざまな形式でユーザーに提示します。

Data-Copilot は、リクエストを自動的に生成し、インターフェイスを独立して設計することで、高度に自動化されたデータ処理と視覚化を実現し、ユーザーのニーズを満たし、結果をさまざまな形式でユーザーに提示します。

写真

インターフェースデザイン

上図に示すように、まずデータ管理を実装する必要があり、最初のステップではインターフェースツールが必要です。

Data-Copilot は、データ管理ツールとして多数のインターフェースを設計しました。インターフェースは、自然言語 (機能記述) とコード (実装) で構成されるモジュールであり、データの取得や処理などのタスクを担当します。

まず、LLM は、少数のシードリクエスト (自己リクエストによるデータの探索) を通じて大量のリクエストを生成し、さまざまなアプリケーションシナリオを可能な限りカバーします。
次に、LLM はこれらの要求に対応するインターフェース (インターフェース定義: 説明とパラメータのみ) を設計し、各反復でインターフェース設計 (インターフェースのマージ) を徐々に最適化します。
最後に、研究者は LLM の強力なコード生成機能を使用して、インターフェースライブラリ内の各インターフェースに特定のコード (インターフェース実装) を生成しました。このプロセスにより、インターフェースの設計が特定の実装から分離され、ほとんどの要求を満たすことができる多目的なインターフェースツールセットが作成されます。

下図のように、データ処理にはData-Copilot独自のインターフェースツールが使用されます。

写真

インターフェースのスケジューリング

前のフェーズでは、研究者はデータの取得、処理、視覚化のためのさまざまな共通インターフェースツールを取得しました。各インターフェースには明確で具体的な機能説明があります。上記の 2 つのクエリ例に示されているように、Data-Copilot は、リアルタイムのリクエストでさまざまなインターフェースを計画して呼び出すことで、データから複数の形式の結果までのワークフローを形成します。

Data-Copilot はまず意図分析を実行して、ユーザーの要求を正確に理解します。
ユーザーの意図が正確に理解されると、Data-Copilot はユーザーのリクエストを処理するための適切なワークフローを計画します。 Data-Copilot は、スケジュールの各ステップを表す固定形式の JSON を生成します (例: step={“arg”:””, “function”:””, “output”:”” ,”description”:””})。

Data-Copilot は、インターフェースの説明と例に従って、各ステップ内でインターフェースのスケジュールを順次または並行して調整します。

Data-Copilot は、データ関連タスクのあらゆる段階に LLM を統合し、ユーザーの要求に基づいて生データをユーザーフレンドリーな視覚化結果に自動的に変換し、面倒な労力と専門知識への依存を大幅に軽減します。

GitHub プロジェクトページ: https://github.com/zwq2018/Data-Copilot

論文アドレス: https://arxiv.org/abs/2306.07209

HuggingFace デモ: https://huggingface.co/spaces/zwq2018/Data-Copilot

<<: AIとコネクテッドデバイスの急成長が新たなデジタル格差を生み出している理由

>>: Huaweiの大型モデルがNature誌に掲載されました！評論家：予測モデルの将来を再検討する