大規模な言語モデルはデータアシスタントとして機能し、浙江大学のデータコパイロットはデータを効率的に呼び出し、処理し、視覚化します。

大規模な言語モデルはデータアシスタントとして機能し、浙江大学のデータコパイロットはデータを効率的に呼び出し、処理し、視覚化します。

金融、気象、エネルギーなどのさまざまな業界では、毎日大量の異種データが生成されます。人々は、このデータを効果的に管理、処理、表示するためのツールを緊急に必要としています。

最近、浙江大学は、大規模言語モデル(LLM)を展開することで、大量のデータを自律的に管理・処理するDataCopilotを提案しました。つまり、さまざまな分野の豊富なデータを結び付けて、ユーザーの多様なクエリ、計算、予測、視覚化などのニーズを満たします。

リポジトリ: https://github.com/zwq2018/Data-Copilot

アルクシブ: https://arxiv.org/abs/2306.07209

デモ: https://huggingface.co/spaces/zwq2018/Data-Copilot

DataCopilot に表示するデータを伝えるには、テキストを入力するだけです。面倒な操作や自分でコードを記述する必要はありません。DataCopilot は、人間の支援なしに、データの検索、データの処理、データの分析、画像の描画を自律的に支援できるため、生データをユーザーの意図に最も合った視覚化結果に自律的に変換します。

写真

多くの研究で LLM の可能性が探究されてきました。たとえば、Sheet-Copilot、Visual ChatGPT、Audio GPT は、LLM を使用して、データ分析、ビデオ編集、音声変換のための視覚と音声の分野のツールを呼び出します。データ サイエンスの観点から見ると、表、視覚化、オーディオはすべてデータの形式と見なすことができ、これらすべてのタスクはデータ関連のタスクと見なすことができます。したがって、新たな疑問が生じます。一般的なデータのコンテキストでは、LLM はさまざまなデータ関連のタスクを処理するための自動化されたデータ サイエンス ワークフローを構築できるでしょうか?この目標を達成するには、いくつかの課題に対処する必要があります。

  • データの観点から: LLM を直接使用して大量のデータを読み取って処理することは非現実的であるだけでなく、データ漏洩の潜在的なリスクも生じます。
  • モデルの観点から見ると、LLM は数値計算の処理が得意ではなく、多様なユーザーのニーズを満たすために適切に呼び出し可能な外部ツールが存在しない可能性があり、LLM の利用が制限されます。
  • タスクの観点から: LLM は強力な少数ショット機能を発揮しますが、データ関連のタスクの多くは複雑で、データの取得、計算、テーブル操作などの複数の操作の組み合わせが必要であり、結果は画像、表、テキストなどの複数の形式で提示する必要があり、これは現在の LLM の機能を超えています。

したがって、データ関連のタスクをカバーする一般的なフレームワークを実現するために、この研究では Data-Copilot を提案します。

写真

Data-Copilot は、数十億のデータと多様なユーザーのニーズを結び付け、データ関連のタスクを処理する LLM ベースのシステムです。データを効率的に管理、呼び出し、処理、視覚化するためのインターフェース ツールを独自に設計します。複雑なリクエストを受信すると、Data-Copilot はこれらの自己設計インターフェースを自律的に呼び出し、ユーザーの意図を満たすワークフローを構築します。人間の支援なしに、さまざまなソースからさまざまな形式の生データをグラフ、表、テキストなどの人間が理解しやすい出力に巧みに変換できます。

主な貢献

  • データ関連データを処理するための汎用インテリジェントシステムは、さまざまな分野のデータソースと多様なユーザーニーズを接続するように設計されており、LLM をプロセス全体に統合することで、面倒な労力と専門知識が削減されます。
  • Data-Copilot は、データの自律的な管理、処理、分析、予測、視覚化を可能にします。リクエストを受信すると、生のデータがユーザーの意図に最も一致する有益な結果に変換されます。
  • Data-Copilot はデザイナーとスケジューラーとして機能し、インターフェース ツールの設計プロセス (デザイナー) とインターフェース ツールのスケジューリング プロセス (スケジューラー) の 2 つのプロセスが含まれます。
  • Data-Copilot デモは、中国の金融市場データに基づいて構築されました。

主な方法

Data-Copilot は、インターフェース設計とインターフェース スケジューリングという 2 つの主要な段階を持つ一般的な大規模言語モデル システムです。

  • インターフェース設計: LLM が少数のシード要求から十分な要求を自律的に生成できるように、自己要求プロセスを研究および設計します。 LLM は、生成されたリクエストに基づいてインターフェイスを繰り返し設計および最適化します。これらのインターフェースは自然言語を使用して記述されるため、簡単に拡張でき、異なるプラットフォーム間で転送できます。
  • インターフェースのスケジューリング: LLM は、ユーザーからのリクエストを受け取ると、独自に設計したインターフェースの説明とコンテキスト内のデモンストレーションに基づいてインターフェース ツールを計画して呼び出し、ユーザーのニーズを満たすワークフローを展開し、その結果をさまざまな形式でユーザーに提示します。

Data-Copilot は、リクエストを自動的に生成し、インターフェイスを独立して設計することで、高度に自動化されたデータ処理と視覚化を実現し、ユーザーのニーズを満たし、結果をさまざまな形式でユーザーに提示します。

写真

インターフェースデザイン

上図に示すように、まずデータ管理を実装する必要があり、最初のステップではインターフェース ツールが必要です。

Data-Copilot は、データ管理ツールとして多数のインターフェースを設計しました。インターフェースは、自然言語 (機能記述) とコード (実装) で構成されるモジュールであり、データの取得や処理などのタスクを担当します。

  • まず、LLM は、少数のシード リクエスト (自己リクエストによるデータの探索) を通じて大量のリクエストを生成し、さまざまなアプリケーション シナリオを可能な限りカバーします。
  • 次に、LLM はこれらの要求に対応するインターフェース (インターフェース定義: 説明とパラメータのみ) を設計し、各反復でインターフェース設計 (インターフェースのマージ) を徐々に最適化します。
  • 最後に、この研究では、LLM の強力なコード生成機能を使用して、インターフェース ライブラリ内の各インターフェースに特定のコード (インターフェース実装) を生成します。このプロセスにより、インターフェースの設計が特定の実装から分離され、ほとんどの要求を満たすことができる多目的なインターフェース ツール セットが作成されます。

以下に示すように、データ処理には Data-Copilot 独自のインターフェース ツールが使用されます。

写真

インターフェースのスケジューリング

前の段階では、データの取得、処理、視覚化のためのさまざまな共通インターフェース ツールを取得しました。各インターフェースには明確で具体的な機能説明があります。上記の 2 つのクエリ例に示されているように、Data-Copilot は、リアルタイムのリクエストでさまざまなインターフェースを計画して呼び出すことで、データから複数の形式の結果までのワークフローを形成します。

  • Data-Copilot はまず意図分析を実行して、ユーザーの要求を正確に理解します。
  • ユーザーの意図が正確に理解されると、Data-Copilot はユーザーのリクエストを処理するための適切なワークフローを計画します。 Data-Copilot は、スケジュールの各ステップを表す固定形式の JSON を生成します (例: step={"arg":"","function":"", "output":"","description":""})。

Data-Copilot は、インターフェースの説明と例に従って、各ステップ内でインターフェースのスケジュールを順次または並行して調整します。

次の例に示すように:

Data-Copilot は、次のワークフローを独自に設計しました。

写真

この複雑な問題に対処するために、Data-Copilot は loop_rank インターフェースを使用して複数のループ クエリを実装します。

最後に、実行後のワークフローの結果は次のようになります。

写真

横軸は各構成銘柄名、縦軸は第1四半期純利益の前年同期比成長率です。

実験結果

予測ワークフロー

写真

展開ワークフロー: 過去の GDP データを取得する ----> 線形回帰モデルを使用して将来を予測する -----> テーブルを出力する

写真

並列ワークフロー

写真

写真

写真

結論は

この研究では、さまざまなデータ関連のタスクを処理するための一般的なフレームワークである Data-Copilot が提案されました。多数の異種データと人間との間の橋渡しとして機能し、人間の好みに応じてデータを効果的に管理、処理、表示します。 Data-Copilot は、データ関連タスクのあらゆる段階に LLM を統合し、ユーザーの要求に基づいて生データをユーザーフレンドリーな視覚化結果に自動的に変換し、面倒な労力と専門知識への依存を大幅に軽減します。

Data-Copilot は、経験豊富な専門家のように、さまざまな種類のデータや潜在的なユーザーのニーズに適した共通のインターフェース ツールを独自に設計し、これらのインターフェースをリアルタイムで呼び出して、ユーザーの要求に対する明確なワークフローを展開します。インターフェース設計とスケジュール設定の 2 つのプロセスは Data-Copilot によって完全に制御され、人間の介入はほとんど必要ありません。

この研究は、株式、ファンド、経済、企業財務、リアルタイムニュースに関連する複雑な要求に柔軟に対応できる、信頼できる人工知能アシスタントである、中国金融版のData-Copilotを提供します。

<<:  ChatGPTが企業の収益向上にどのように役立つか

>>:  論文のイラストは拡散モデルを使用して自動的に生成することもでき、ICLRに受け入れられました。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

なぜ人工知能には欠陥があるのでしょうか?

人工知能は、すべての人の生活に欠かせないものとなっています。 YouTube のおすすめなどの単純な...

ICLR 2021 調査ではゲームスキル パッケージについて調査?順序付けられた記憶決定ネットワークは、次のことを達成するのを助けます

[[394114]]木を切る、狩りをする、家を建てるなどの長いゲームビデオを機械に見せるとします。モ...

Appleの10年にわたる自動車製造の夢は打ち砕かれた! 2,000人が解雇またはAIに異動し、100億ドル近くが燃え尽き、マスク氏は大喜び

10年越しの自動車製造の夢は完全に打ち砕かれ、タイタン計画は終了!言い換えれば、過去10年間にApp...

人工知能技術をより効果的に応用するにはどうすればよいでしょうか?より正確かつ迅速に行う5つの方法

広範囲にわたるモデリングと10万回以上のシミュレーションの実行を経て、AIシステムが2018年ワール...

データサイエンス技術の未来

[[361283]]画像ソース: https://pixabay.com/images/id-477...

ロボット犬が3トンの飛行機を10メートル引っ張った

今日のロボット犬は、人間に簡単につまずかされるような時代をとうに過ぎています。新しく公開されたビデオ...

自動運転の世界情勢を理解するための記事

自動運転前夜2021年、ビル・ゲイツは「すべての家庭にロボットを」と題する記事を発表し、爆弾処理ロボ...

自動運転競争が熱を帯び、実用化への道が始まろうとしている

科学技術の継続的な発展に伴い、人工知能、5Gネットワ​​ーク、生体認証、ロボットなどのインテリジェン...

ハイエナが次世代トランスフォーマーになる? StripedHyena-7B オープンソース: 最大 128k の入力、トレーニング速度が 50% 向上

近年発表されたAIモデル、例えば言語、視覚、音声、生物学など各分野の大規模モデルは、Transfor...

数百万人の乗客を「迅速に配達」する人工知能の応用

ほとんどの人がテイクアウトを注文しており、今ではテイクアウトは中国人にとってもう一つの食事方法となっ...

転移学習: データが不十分な場合に深く学習する方法

[[191502]]ディープラーニング技術を使用して問題を解決する際に最もよく見られる障害は、モデル...

AI生成コンテンツの隠れた危険性:AIがAIを学習するだけでは、インターネットは意味のないコンテンツで満たされる

6月20日のニュースによると、人工知能(AI)は急速に発展しているが、隠れた危険性ももたらしている。...

張北院士:生成型人工知能の3つの大きな機能と1つの大きな欠点

網易科技は1月16日、知普AI技術公開デーで中国科学院院士で清華大学教授の張北氏が「大規模言語モデル...

AIは音楽業界をどのように変えているのでしょうか?

[[269995]]音楽業界では、他の業界と同様に、AI テクノロジーによってサービスを自動化し、...