データ分析は一文で完了します。浙江大学の新しいビッグモデル データ アシスタントを使用すると、データ収集の手間が省けます。

データ分析は一文で完了します。浙江大学の新しいビッグモデル データ アシスタントを使用すると、データ収集の手間が省けます。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

データを処理するには、この AI ツール 1 つを使用するだけです。

背後にある大規模言語モデル (LLM) に頼れば、表示したいデータを 1 つの文で記述するだけで、残りはお任せいただけます。

処理、分析、可視化まで簡単に行うことができ、自分で収集する必要もありません

写真

この LLM ベースの AI データ アシスタントは Data-Copilot と呼ばれ、浙江大学のチームによって開発されました。

関連論文のプレプリントが公開されました。

以下のコンテンツは寄稿者によって提供されています

金融、気象、エネルギーなどのさまざまな業界では、毎日大量の異種データが生成されます。人々は、このデータを効果的に管理、処理、表示するためのツールを緊急に必要としています。

DataCopilot は大規模な言語モデルを展開し、膨大な量のデータを自律的に管理および処理して、ユーザーの多様なクエリ、計算、予測、視覚化などのニーズに対応します。

DataCopilot に表示したいデータを伝えるには、テキストを入力するだけです。面倒な操作や自分でコードを記述する必要はありません。DataCopilot は、生データをユーザーの意図に最も合った視覚化結果に自動的に変換します。

さまざまな形式のデータ関連タスクをカバーする一般的なフレームワークを実現するために、研究チームは Data-Copilot を提案しました。

このモデルは、LLM のみを使用する場合に存在するデータ漏洩リスク、計算能力の低さ、複雑なタスクを処理できないという問題を解決します。

写真

複雑なリクエストを受信すると、Data-Copilot は独立したインターフェースを自律的に設計およびスケジュールし、ユーザーの意図を満たすワークフローを構築します。

人間の支援なしに、さまざまなソースからさまざまな形式の生データをグラフ、表、テキストなどの人間が理解しやすい出力に巧みに変換できます。

写真

Data-Copilot プロジェクトの主な貢献は次のとおりです。

  • さまざまな分野のデータソースと多様なユーザーニーズを結び付け、面倒な労力と専門知識を軽減します。
  • データの自律的な管理、処理、分析、予測、視覚化を可能にし、生データをユーザーの意図に最も合った有益な結果に変換できます。
  • デザイナースケジューラという二重のアイデンティティを持ち、インターフェース ツールの設計プロセス (デザイナー) とスケジューリング プロセス (スケジューラ) という 2 つのプロセスが含まれます。
  • Data-Copilot デモは、中国の金融市場データに基づいて構築されました。

ワークフローを独自に設計し実行する

次の例で Data-Copilot のパフォーマンスを見てみましょう。

今年第1四半期の上海総合50指数構成銘柄全体の純利益の前年比成長率はどのくらいですか?

Data-Copilot は、次のワークフローを独自に設計しました。

写真

この複雑な問題に対処するために、Data-Copilot は loop_rank インターフェースを使用して複数のループ クエリを実装します。

Data-Copilot はワークフローを実行し、次の結果を得ました。

横軸は各構成銘柄名、縦軸は第1四半期純利益の前年同期比成長率です。

写真

Data-Copilot は、一般的なデータ処理に加えて、多種多様なワークフローを生成することもできます。

研究チームは、予測と並列の 2 つのワークフロー モードで Data-Copilot をテストしました。

予測ワークフロー

Data-Copilot は、次の質問のように、既知のデータ以外のデータについても予測を行うことができます。

今後4四半期の中国の四半期GDPを予測する

Data-Copilot は次のようなワークフローを展開します。

過去のGDPデータを取得する → 線形回帰モデルを使用して将来を予測する → テーブルを出力する

写真

実行後の結果は次のとおりです。

写真

並列ワークフロー

過去3年間のCATLと貴州茅台酒の株価収益率を見たいです。

対応するワークフローは次のとおりです。

株価データを取得→関連指数を計算→チャートを生成

写真

2 つのストックの関連作業は同時に並行して実行され、最終結果は次のグラフになります。

写真

主な方法

Data-Copilot は、インターフェース設計とインターフェース スケジューリングという 2 つの主要段階を持つ汎用の大規模言語モデル システムです。

  • インターフェース設計: 研究チームは、LLM が少数のシード要求から十分な要求を自律的に生成できるようにする自己要求プロセスを設計しました。次に、LLM は生成されたリクエストに基づいてインターフェイスを反復的に設計および最適化します。これらのインターフェースは自然言語を使用して記述されるため、簡単に拡張でき、異なるプラットフォーム間で転送できます。
  • インターフェースのスケジューリング: LLM は、ユーザーからのリクエストを受け取ると、独自に設計したインターフェースの説明とコンテキスト内のデモンストレーションに基づいてインターフェース ツールを計画して呼び出し、ユーザーのニーズを満たすワークフローを展開し、その結果をさまざまな形式でユーザーに提示します。

Data-Copilot は、リクエストを自動的に生成し、インターフェイスを独立して設計することで、高度に自動化されたデータ処理と視覚化を実現し、ユーザーのニーズを満たし、結果をさまざまな形式でユーザーに提示します。

写真

インターフェースデザイン

上図に示すように、まずデータ管理を実装する必要があり、最初のステップではインターフェース ツールが必要です。

Data-Copilot は、データ管理ツールとして多数のインターフェースを設計しました。インターフェースは、自然言語 (機能記述) とコード (実装) で構成されるモジュールであり、データの取得や処理などのタスクを担当します。

  • まず、LLM は、少数のシード リクエスト (自己リクエストによるデータの探索) を通じて大量のリクエストを生成し、さまざまなアプリケーション シナリオを可能な限りカバーします。
  • 次に、LLM はこれらの要求に対応するインターフェース (インターフェース定義: 説明とパラメータのみ) を設計し、各反復でインターフェース設計 (インターフェースのマージ) を徐々に最適化します。
  • 最後に、研究者は LLM の強力なコード生成機能を使用して、インターフェース ライブラリ内の各インターフェースに特定のコード (インターフェース実装) を生成しました。このプロセスにより、インターフェースの設計が特定の実装から分離され、ほとんどの要求を満たすことができる多目的なインターフェース ツール セットが作成されます。

下図のように、データ処理にはData-Copilot独自のインターフェースツールが使用されます。

写真

インターフェースのスケジューリング

前のフェーズでは、研究者はデータの取得、処理、視覚化のためのさまざまな共通インターフェース ツールを取得しました。各インターフェースには明確で具体的な機能説明があります。上記の 2 つのクエリ例に示されているように、Data-Copilot は、リアルタイムのリクエストでさまざまなインターフェースを計画して呼び出すことで、データから複数の形式の結果までのワークフローを形成します。

  • Data-Copilot はまず意図分析を実行して、ユーザーの要求を正確に理解します。
  • ユーザーの意図が正確に理解されると、Data-Copilot はユーザーのリクエストを処理するための適切なワークフローを計画します。 Data-Copilot は、スケジュールの各ステップを表す固定形式の JSON を生成します (例: step={“arg”:””, “function”:””, “output”:”” ,”description”:””})。

Data-Copilot は、インターフェースの説明と例に従って、各ステップ内でインターフェースのスケジュールを順次または並行して調整します。

Data-Copilot は、データ関連タスクのあらゆる段階に LLM を統合し、ユーザーの要求に基づいて生データをユーザーフレンドリーな視覚化結果に自動的に変換し、面倒な労力と専門知識への依存を大幅に軽減します。

GitHub プロジェクト ページ: https://github.com/zwq2018/Data-Copilot

論文アドレス: https://arxiv.org/abs/2306.07209

HuggingFace デモ: https://huggingface.co/spaces/zwq2018/Data-Copilot

<<:  AIとコネクテッドデバイスの急成長が新たなデジタル格差を生み出している理由

>>:  Huaweiの大型モデルがNature誌に掲載されました!評論家:予測モデルの将来を再検討する

ブログ    
ブログ    

推薦する

GoogleはDeepMind AIを使用して何千もの新しい素材を分析および予測しました

IT Homeは11月30日、GoogleのDeepMindが人工知能(AI)を使って200万以上の...

Fooocus: シンプルで強力な安定した拡散 WebUI

Stable Diffusion は強力な画像生成 AI モデルですが、通常は多くのチューニングと...

業界最高品質の AI データを作成するにはどうすればよいでしょうか?クラウドデータの成功の秘密を明かす

[[344160]] AIの実装が加速する中、AIデータのラベリングは人工知能産業の実装における重要...

ガートナーの2020年人工知能技術ハイプサイクルを通して新たな変化を見る

ガートナーの最近の調査によると、企業の47%が流行の発生以来人工知能(AI)への投資を維持しており、...

...

人工知能のアプリケーションアーキテクチャを考える

[[408914]] 1. パドルライトとパドルスリム現在、ディープラーニングの分野には 2 つの派...

「ブラックミラー」が登場!ボストン・ダイナミクスのロボット犬がニューヨーク市警に加わり、街中を飛び回って法を執行する

私たちはサイバーパンクの世界に生きているのでしょうか?最近、「ブラックミラー」のようなシーンが登場し...

エレクトロニック・アーツは、人工知能によってゲームキャラクターがよりリアルになると述べている

どのビデオゲームでも、キャラクターが予想外の行動をとって没入感を壊してしまう瞬間が必ずあります。もし...

...

最近 IT 業界で起こったいくつかの大きな出来事についてお話ししましょう。

新年が明けたばかりですが、新しい技術、新しい知識、新しいコンテンツが次々と登場し、新年早々も怠けるこ...

...

記憶は人工知能開発の重要な側面を示している

一般的に言えば、人間が不規則な電話番号の列を記憶するには長い時間がかかりますが、人工知能はこの情報を...

Appleは人工知能の分野で追い上げており、その視覚認識の成果は業界の賞を受賞した

[[201426]]歴史的に、Apple は最先端技術の研究にはあまり注意を払わず、むしろ製品の設計...

サイバーセキュリティの専門家が知っておくべきAIフレームワーク

1. AIフレームワークの重要性AIフレームワークは、人工知能のオペレーティングシステムであり、基本...