CMU、NUS、Fudanが共同でDataLabを立ち上げ：テキストフィールドでのデータ分析と処理のためのMatlabを作成

データ中心の人工知能の構築は、今後のトレンドになりつつあります。 1年以上前、アンドリュー・ン氏は「データは人工知能の糧である」というテーマでキャンペーンを開始しました。数か月前、Google AIの責任者であるジェフ・ディーン氏は、2021年以降の機械学習の主要なトレンドとして、データ分析と管理を挙げました。少し前、AI のスタースタートアップ Huggingface が、インタラクティブなデータ分析プラットフォームを構築する計画を発表しました。

最近、CMU は NUS、復旦大学、イェール大学などの大学と共同で、テキストデータの統合データ分析、処理、診断、視覚化プラットフォームである DataLab をリリースしました。

論文リンク: https://arxiv.org/pdf/2202.12875.pdf
プラットフォームアクセス: http://datalab.nlpedia.ai/
SDK アドレス: https://github.com/ExpressAI/DataLab
ドキュメントアドレス: https://expressai.github.io/DataLab/

公開されている技術文書によると、DataLab の背景には次の問題が起因していることがわかります。

「 Matlab が「数値」計算と解析を統合するとしたら、「データ」処理と解析を統合する役割を誰が担うのでしょうか？ 」

「数値」と比較すると、データの複雑さは、モードや構造、処理操作が異なることが多いという事実に反映されます。これらの要因により、統一されたデータ分析プラットフォームを確立することはおろか、データの保存と操作を標準化することが困難になります。

そのため、TensorFlow（TFDS）[1]やHuggingFace（HFDS）[2]などの比較的優れたデータセットプラットフォームが存在するにもかかわらず、それらはデータロードの標準化のタスクしか完了していません。数十の大学の数百人の研究者によって完成したXl-Augmenterプラットフォームでさえ、データ拡張の注釈付けのみを試みています。Sorkelは、HuggingFace、スタンフォード大学などの機関と共同で、データプロンプト操作の標準化のみを試みたPromptSource[3]を提案しました。

こうしたさまざまなデータ操作プラットフォームの構築は非常に価値がありますが、プラットフォーム間の切り替えコストは依然として存在します。ここでは、データを中心に据えた「プラットフォームのプラットフォーム」という概念があり、さまざまな異なる操作インターフェースの標準化を実現し、将来、ユーザーがデータ処理に必要とするエントリポイントが 1 つだけになるようにする必要があります。これが、DataLab が果たしたい役割です。

研究チームは最近、プロンプトエンジニアリングを中核とする NLP 開発の第 4 のパラダイムを提案しました。それでは、DataLab が何をしているのか、そしてそれが Prompt Engineering に役立つかどうかを見てみましょう。下の図 1 は DATALAB 関数の概要です。

DataLab の機能は次のとおりです。

幅広いカバレッジ: DataLab は現在、1,700 を超えるデータセットと、データ変形によって取得された 3,500 を超えるデータセットを含む、ほとんどの NLP タスクをカバーしています。
理解可能性: DataLab は、多数のデータセット (728 データセット、139,570,057 サンプル) に対して、データセットを特徴付ける特徴 (性別バイアスなど) をカスタマイズして計算します。これにより、研究者や開発者はデータセットを使用する前に理解を深めることができ、データ作成者はデータ品質 (アーティファクトやバイアスの排除など) を向上させることができます。
統合: DataLab の主な目標の 1 つは、さまざまなデータ分析および処理操作を 1 つのプラットフォームと SDK に統合することです。
インタラクティブ性: DataLab により、データの表示、評価、処理がより効率的かつ便利になります (リアルタイム検索、比較、フィルタリング、データセット診断レポートの生成)。 DataLab は、不足しているが重要なクラウドソーシング可能な情報をユーザーが提供できる、既成の注釈プラットフォームとしても機能します。
インスピレーション: DataLab のデータセットのグローバルな視点は、データセットのグローバルな開発を追跡し、将来の開発の方向性を特定するなど、新しい研究の方向性を刺激することができます。

1. データ特性の詳細な分析

きめ細かな分析とは、データセットの特性を複数の異なる視点から理解することを意味します。下の図 2 は、SST データセット (自然言語処理における感情分析でよく使用されるデータセット) 内のサンプルを、テキストの長さごとに分けた分布を示しています。

図2: 異なるテキスト長で分けたSSTデータセットのサンプルの統計分布

DataLab を使用すると、ユーザーはサポートされている分析角度を自由に選択し、ワンクリックで操作を実行できます。 DataLab はデータセットレベルでの全体的な分析もサポートしています。ぜひ Web サイトにログインしてお試しください。

2. データセットの偏り

DataLab を使用すると、ユーザーは 1 回のクリックでデータセット内の「バイアス」を識別できます。現在、次の 3 つの分析がサポートされています。

ジェンダーバイアス
ヘイトスピーチ
遺物

下の図 3 に示すように、DataLab を使用すると、この有名なデータセット (SST2) に明らかな性別による偏りが簡単に見つかります。

図3: SST2データセットの性別バイアス分布

たとえば、DataLabを使用すると、Gururanganら[4]がSNLIデータセット（自然言語処理における2つの文の関係性を推論するための一般的なデータセット）で発見したよく知られたアーティファクト現象を簡単に再現できます。仮説（前提-仮説）ペアが長いほど、関係はより「中立的」になります（下の図4を参照）。

図4: SNLIデータセットのアーティファクト現象

3. プロンプトの分析

プロンプト学習は、多くの NLP タスクに対して事前トレーニング済みの言語モデルの知識をより有効に活用できるため、大きな注目を集めています。実際のアプリケーションでは、適切な「プロンプト」とは何かは難しい問題です。下の図 5 は、DataLab 定義プロンプトの例です。

(a) プロンプトの定義

(b) 属性; (c) 異なる PLM 上の同じデータセットに対するプロンプトの結果

DataLab は現在、既に設計された 3,000 以上のプロンプト (PromptSources によって公開された 2,000 以上を含む) をサポートし、数百のデータセットをカバーし、各プロンプトをさまざまな角度から特徴付けることができるようにプロンプトのモデルを設計しています。図 5 は、DataLab によって定義された Prompt の例を示しています。これには、Prompt の特徴 (長さ、形状など)、属性 (テンプレート、回答など)、サポートされている事前トレーニング済み言語モデル、およびさまざまな事前トレーニング済み言語モデルでの結果が含まれています (図 5、右下)。この設計は、研究者がプロンプトをより適切に設計するのに役立つだけでなく、優れたプロンプトとは何かを分析するのにも役立ちます。

4. 2つのデータセットの違いを比較する

研究を行う際、2 つのデータセット間の詳細な違いを理解することは、さまざまな意味で重要です。たとえば、異なるデータセットでトレーニングされたモデルの異なる動作を説明するのに役立ちます。ただし、それらの違いを分析するのは面倒な作業であり、通常は異なる機能を設計し、異なるデータセットで計算する必要があります。 DataLab はこのプロセスを自動化し、研究者が非常に便利な方法でペアワイズデータセット分析を実施できるようにします。

テスト用に 2 つのテキスト要約データセットを選択し、以下のレーダーチャートに示すように、2 つのデータセットの包括的な比較を取得しました。2 つのデータセットの特徴を明確に表すことができます。

5. データセットの推奨

多くの場合、良いアイデアはあっても、どのデータセットを選択すればよいかわかりません。提案されるデータセットが増えるにつれて、特定のアプリケーションに適したデータセットを選択することが難しくなります。

DataLab はこれを支援しようとします。具体的には、研究アイデアの説明が与えられると、DataLab はセマンティクスに基づいてより適切なデータセットを検索し、ランキングスコアを付与します。例を使用して DataLab と Google Dataset Search をテストして比較したところ、前者は説明に一致するデータセットをより正確に見つけることができるのに対し、Google Dataset Search は単に失敗することがわかりました。

下の図 6: DataLab と Google Dataset Search は、同じ学術的アイデアに対してデータセットを推奨します。

(a) 特定のアイデアに対して DataLab が推奨するデータセットの結果ページ。

(b) 特定のアイデアに対する Google データセット検索結果 (結果は返されません)

6. グローバル視点の分析

（１）言語マップ

言語マップは、どの言語がより多く研究され、どの言語がより少なく研究されているかを地理的な観点から分析するために使用され、それによって、将来どの言語のデータセットの構築にもっと注意を払う必要があるかがわかります。

下の図 7 に示すように、色が赤くなるほど、その国の言語のデータセットがより多く研究されていることを意味します。どの国に豊富な言語データセット（赤）があるかは簡単にわかります。比較すると、中国語のデータセットは比較的少ないです（オレンジ）。

（２）どのNLPモデルが最適ですか？

データセットを単位として、それらが依存するモデルのパフォーマンスのランキングと対応する実装組織に応じて、さまざまな組織によって設計された NLP システムのパフォーマンスをランク付けし、さまざまな組織が得意とする NLP タスクを判断できます (下の図 8 を参照)。

図8: NLPシステムのパフォーマンスに関する機関の世界ランキング

今後の展望

プラットフォームの統一により、集合知がより容易に機能するようになることを期待しています。今後、DataLab はさまざまな方向に拡大していきます。

より多様なデータタイプを調査して含めます。現在、DataLab にはテキストデータセットのみが含まれています。さらに最適化を進めることで、DataLab は画像、マルチモーダル、サウンドなど、他の分野のさまざまなタイプのデータセットを徐々にサポートする予定です。
さらなる業務拡大。現在、DataLab には、前処理、プロンプト、データ編集などの操作が含まれています。異なるタスク向けのシステムの導入により、DataLab はシステムの組み合わせなどの技術を探求して高精度の自動データラベリングを実現し、それによってユーザーのデータラベリングのコストをある程度削減することが期待されます。
この分野でのさらなる進歩を促進します。異なるプラットフォームを統合することで、ユーザーは関連するデータセットをすばやく見つけ（データセットの推奨）、適切なデータセットを見つけ（データの理解度）、データをすばやく処理（前処理、プロンプトなど）できるようになり、学術研究がある程度容易になります。

<<: ICLRスポットライト！清華大学は時系列異常検出アルゴリズムを提案し、5つのSOTA結果を達成した。

>>: シングルトランスフォーマー情報検索、Google は微分可能な検索インデックスでデュアルエンコーダーモデルに勝利