データ分析は一文で完了します。浙江大学の新しいビッグモデル データ アシスタントを使用すると、データ収集の手間が省けます。

データ分析は一文で完了します。浙江大学の新しいビッグモデル データ アシスタントを使用すると、データ収集の手間が省けます。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

データを処理するには、この AI ツール 1 つを使用するだけです。

背後にある大規模言語モデル (LLM) に頼れば、表示したいデータを 1 つの文で記述するだけで、残りはお任せいただけます。

処理、分析、可視化まで簡単に行うことができ、自分で収集する必要もありません

写真

この LLM ベースの AI データ アシスタントは Data-Copilot と呼ばれ、浙江大学のチームによって開発されました。

関連論文のプレプリントが公開されました。

以下のコンテンツは寄稿者によって提供されています

金融、気象、エネルギーなどのさまざまな業界では、毎日大量の異種データが生成されます。人々は、このデータを効果的に管理、処理、表示するためのツールを緊急に必要としています。

DataCopilot は大規模な言語モデルを展開し、膨大な量のデータを自律的に管理および処理して、ユーザーの多様なクエリ、計算、予測、視覚化などのニーズに対応します。

DataCopilot に表示したいデータを伝えるには、テキストを入力するだけです。面倒な操作や自分でコードを記述する必要はありません。DataCopilot は、生データをユーザーの意図に最も合った視覚化結果に自動的に変換します。

さまざまな形式のデータ関連タスクをカバーする一般的なフレームワークを実現するために、研究チームは Data-Copilot を提案しました。

このモデルは、LLM のみを使用する場合に存在するデータ漏洩リスク、計算能力の低さ、複雑なタスクを処理できないという問題を解決します。

写真

複雑なリクエストを受信すると、Data-Copilot は独立したインターフェースを自律的に設計およびスケジュールし、ユーザーの意図を満たすワークフローを構築します。

人間の支援なしに、さまざまなソースからさまざまな形式の生データをグラフ、表、テキストなどの人間が理解しやすい出力に巧みに変換できます。

写真

Data-Copilot プロジェクトの主な貢献は次のとおりです。

  • さまざまな分野のデータソースと多様なユーザーニーズを結び付け、面倒な労力と専門知識を軽減します。
  • データの自律的な管理、処理、分析、予測、視覚化を可能にし、生データをユーザーの意図に最も合った有益な結果に変換できます。
  • デザイナースケジューラという二重のアイデンティティを持ち、インターフェース ツールの設計プロセス (デザイナー) とスケジューリング プロセス (スケジューラ) という 2 つのプロセスが含まれます。
  • Data-Copilot デモは、中国の金融市場データに基づいて構築されました。

ワークフローを独自に設計し実行する

次の例で Data-Copilot のパフォーマンスを見てみましょう。

今年第1四半期の上海総合50指数構成銘柄全体の純利益の前年比成長率はどのくらいですか?

Data-Copilot は、次のワークフローを独自に設計しました。

写真

この複雑な問題に対処するために、Data-Copilot は loop_rank インターフェースを使用して複数のループ クエリを実装します。

Data-Copilot はワークフローを実行し、次の結果を得ました。

横軸は各構成銘柄名、縦軸は第1四半期純利益の前年同期比成長率です。

写真

Data-Copilot は、一般的なデータ処理に加えて、多種多様なワークフローを生成することもできます。

研究チームは、予測と並列の 2 つのワークフロー モードで Data-Copilot をテストしました。

予測ワークフロー

Data-Copilot は、次の質問のように、既知のデータ以外のデータについても予測を行うことができます。

今後4四半期の中国の四半期GDPを予測する

Data-Copilot は次のようなワークフローを展開します。

過去のGDPデータを取得する → 線形回帰モデルを使用して将来を予測する → テーブルを出力する

写真

実行後の結果は次のとおりです。

写真

並列ワークフロー

過去3年間のCATLと貴州茅台酒の株価収益率を見たいです。

対応するワークフローは次のとおりです。

株価データを取得→関連指数を計算→チャートを生成

写真

2 つのストックの関連作業は同時に並行して実行され、最終結果は次のグラフになります。

写真

主な方法

Data-Copilot は、インターフェース設計とインターフェース スケジューリングという 2 つの主要段階を持つ汎用の大規模言語モデル システムです。

  • インターフェース設計: 研究チームは、LLM が少数のシード要求から十分な要求を自律的に生成できるようにする自己要求プロセスを設計しました。次に、LLM は生成されたリクエストに基づいてインターフェイスを反復的に設計および最適化します。これらのインターフェースは自然言語を使用して記述されるため、簡単に拡張でき、異なるプラットフォーム間で転送できます。
  • インターフェースのスケジューリング: LLM は、ユーザーからのリクエストを受け取ると、独自に設計したインターフェースの説明とコンテキスト内のデモンストレーションに基づいてインターフェース ツールを計画して呼び出し、ユーザーのニーズを満たすワークフローを展開し、その結果をさまざまな形式でユーザーに提示します。

Data-Copilot は、リクエストを自動的に生成し、インターフェイスを独立して設計することで、高度に自動化されたデータ処理と視覚化を実現し、ユーザーのニーズを満たし、結果をさまざまな形式でユーザーに提示します。

写真

インターフェースデザイン

上図に示すように、まずデータ管理を実装する必要があり、最初のステップではインターフェース ツールが必要です。

Data-Copilot は、データ管理ツールとして多数のインターフェースを設計しました。インターフェースは、自然言語 (機能記述) とコード (実装) で構成されるモジュールであり、データの取得や処理などのタスクを担当します。

  • まず、LLM は、少数のシード リクエスト (自己リクエストによるデータの探索) を通じて大量のリクエストを生成し、さまざまなアプリケーション シナリオを可能な限りカバーします。
  • 次に、LLM はこれらの要求に対応するインターフェース (インターフェース定義: 説明とパラメータのみ) を設計し、各反復でインターフェース設計 (インターフェースのマージ) を徐々に最適化します。
  • 最後に、研究者は LLM の強力なコード生成機能を使用して、インターフェース ライブラリ内の各インターフェースに特定のコード (インターフェース実装) を生成しました。このプロセスにより、インターフェースの設計が特定の実装から分離され、ほとんどの要求を満たすことができる多目的なインターフェース ツール セットが作成されます。

下図のように、データ処理にはData-Copilot独自のインターフェースツールが使用されます。

写真

インターフェースのスケジューリング

前のフェーズでは、研究者はデータの取得、処理、視覚化のためのさまざまな共通インターフェース ツールを取得しました。各インターフェースには明確で具体的な機能説明があります。上記の 2 つのクエリ例に示されているように、Data-Copilot は、リアルタイムのリクエストでさまざまなインターフェースを計画して呼び出すことで、データから複数の形式の結果までのワークフローを形成します。

  • Data-Copilot はまず意図分析を実行して、ユーザーの要求を正確に理解します。
  • ユーザーの意図が正確に理解されると、Data-Copilot はユーザーのリクエストを処理するための適切なワークフローを計画します。 Data-Copilot は、スケジュールの各ステップを表す固定形式の JSON を生成します (例: step={“arg”:””, “function”:””, “output”:”” ,”description”:””})。

Data-Copilot は、インターフェースの説明と例に従って、各ステップ内でインターフェースのスケジュールを順次または並行して調整します。

Data-Copilot は、データ関連タスクのあらゆる段階に LLM を統合し、ユーザーの要求に基づいて生データをユーザーフレンドリーな視覚化結果に自動的に変換し、面倒な労力と専門知識への依存を大幅に軽減します。

GitHub プロジェクト ページ: https://github.com/zwq2018/Data-Copilot

論文アドレス: https://arxiv.org/abs/2306.07209

HuggingFace デモ: https://huggingface.co/spaces/zwq2018/Data-Copilot

<<:  AIとコネクテッドデバイスの急成長が新たなデジタル格差を生み出している理由

>>:  Huaweiの大型モデルがNature誌に掲載されました!評論家:予測モデルの将来を再検討する

推薦する

Python 用 OpenCV について Dlib を使って顔検出を実装する

Dlib は、プログラミング言語 C++ で記述された汎用のクロスプラットフォーム ソフトウェア ラ...

AIがAIに勝つ: Googleの研究チームがGPT-4を使ってAI-Guardianのレビューシステムを打ち破る

8月2日、Googleの研究チームはOpenAIのGPT-4を使用して他のAIモデルのセキュリティ保...

中国の「データブリックス」:AIインフラの構築に真剣に取り組む

AI導入の最大の推進要因はインフラのアップグレードです。近年、ビッグデータ分析やAIなどの分野が注目...

...

「ムスク」がスピーキングの練習に役立ちます! GitHub のリアルタイム AI 音声チャットが話題に

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

小売業界のトレンド: 人工知能からクーポンコードまで

テクノロジーによりシステム効率が大幅に向上し、ビジネス運営のコスト効率と時間効率が向上しました。テク...

ホーキング博士:人工知能の台頭は人類文明の終焉をもたらす可能性がある

4月27日、北京国家会議センターで2017年グローバルモバイルインターネットカンファレンス(GMIC...

GPT-4 はチューリングテストに合格しませんでした。 60年前、古いAIはChatGPTに勝利しましたが、人間の勝率はわずか63%でした。

長い間、「チューリングテスト」は、コンピュータが「知性」を持っているかどうかを判断するための中心的な...

ガートナーの2020年のトップ10戦略的テクノロジートレンド: ハイパーオートメーション、分散クラウド、AIセキュリティなど

ハイパーオートメーション、ブロックチェーン、AI セキュリティ、分散クラウド、自律デバイスは、今年の...

デジタルマーケティングにおけるAI革命

ほんの数年前までは、マーケティングに特化した AI エンジンがマーケティングの未来につながると信じて...

人工知能は二酸化炭素排出量のせいで制限されるのでしょうか?

AI にカーボン フットプリントがあることは驚くことではありません。カーボン フットプリントとは、...

...

シェア | Meituanのディープラーニングシステムのエンジニアリング実践

背景ディープラーニングは、AI時代の中核技術として、さまざまなシナリオに適用されてきました。システム...

AIは、群衆の中でディープフェイクされたのはあなただけだと認識します

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...