データ中心の人工知能の構築は、今後のトレンドになりつつあります。 1年以上前、アンドリュー・ン氏は「データは人工知能の糧である」というテーマでキャンペーンを開始しました。数か月前、Google AIの責任者であるジェフ・ディーン氏は、2021年以降の機械学習の主要なトレンドとして、データ分析と管理を挙げました。少し前、AI のスタースタートアップ Huggingface が、インタラクティブなデータ分析プラットフォームを構築する計画を発表しました。 最近、CMU は NUS、復旦大学、イェール大学などの大学と共同で、テキスト データの統合データ分析、処理、診断、視覚化プラットフォームである DataLab をリリースしました。
公開されている技術文書によると、DataLab の背景には次の問題が起因していることがわかります。 「 Matlab が「数値」計算と解析を統合するとしたら、「データ」処理と解析を統合する役割を誰が担うのでしょうか? 」 「数値」と比較すると、データの複雑さは、モードや構造、処理操作が異なることが多いという事実に反映されます。これらの要因により、統一されたデータ分析プラットフォームを確立することはおろか、データの保存と操作を標準化することが困難になります。 そのため、TensorFlow(TFDS)[1]やHuggingFace(HFDS)[2]などの比較的優れたデータセットプラットフォームが存在するにもかかわらず、それらはデータロードの標準化のタスクしか完了していません。数十の大学の数百人の研究者によって完成したXl-Augmenterプラットフォームでさえ、データ拡張の注釈付けのみを試みています。Sorkelは、HuggingFace、スタンフォード大学などの機関と共同で、データプロンプト操作の標準化のみを試みたPromptSource[3]を提案しました。 こうしたさまざまなデータ操作プラットフォームの構築は非常に価値がありますが、プラットフォーム間の切り替えコストは依然として存在します。ここでは、データを中心に据えた「プラットフォームのプラットフォーム」という概念があり、さまざまな異なる操作インターフェースの標準化を実現し、将来、ユーザーがデータ処理に必要とするエントリポイントが 1 つだけになるようにする必要があります。これが、DataLab が果たしたい役割です。 研究チームは最近、プロンプトエンジニアリングを中核とする NLP 開発の第 4 のパラダイムを提案しました。それでは、DataLab が何をしているのか、そしてそれが Prompt Engineering に役立つかどうかを見てみましょう。下の図 1 は DATALAB 関数の概要です。 DataLab の機能は次のとおりです。
1. データ特性の詳細な分析きめ細かな分析とは、データセットの特性を複数の異なる視点から理解することを意味します。下の図 2 は、SST データセット (自然言語処理における感情分析でよく使用されるデータセット) 内のサンプルを、テキストの長さごとに分けた分布を示しています。 図2: 異なるテキスト長で分けたSSTデータセットのサンプルの統計分布 DataLab を使用すると、ユーザーはサポートされている分析角度を自由に選択し、ワンクリックで操作を実行できます。 DataLab はデータセット レベルでの全体的な分析もサポートしています。ぜひ Web サイトにログインしてお試しください。 2. データセットの偏りDataLab を使用すると、ユーザーは 1 回のクリックでデータ セット内の「バイアス」を識別できます。現在、次の 3 つの分析がサポートされています。
下の図 3 に示すように、DataLab を使用すると、この有名なデータセット (SST2) に明らかな性別による偏りが簡単に見つかります。 図3: SST2データセットの性別バイアス分布 たとえば、DataLabを使用すると、Gururanganら[4]がSNLIデータセット(自然言語処理における2つの文の関係性を推論するための一般的なデータセット)で発見したよく知られたアーティファクト現象を簡単に再現できます。仮説(前提-仮説)ペアが長いほど、関係はより「中立的」になります(下の図4を参照)。 図4: SNLIデータセットのアーティファクト現象 3. プロンプトの分析プロンプト学習は、多くの NLP タスクに対して事前トレーニング済みの言語モデルの知識をより有効に活用できるため、大きな注目を集めています。実際のアプリケーションでは、適切な「プロンプト」とは何かは難しい問題です。下の図 5 は、DataLab 定義プロンプトの例です。 (a) プロンプトの定義 (b) 属性; (c) 異なる PLM 上の同じデータセットに対するプロンプトの結果 DataLab は現在、既に設計された 3,000 以上のプロンプト (PromptSources によって公開された 2,000 以上を含む) をサポートし、数百のデータ セットをカバーし、各プロンプトをさまざまな角度から特徴付けることができるようにプロンプトのモデルを設計しています。図 5 は、DataLab によって定義された Prompt の例を示しています。これには、Prompt の特徴 (長さ、形状など)、属性 (テンプレート、回答など)、サポートされている事前トレーニング済み言語モデル、およびさまざまな事前トレーニング済み言語モデルでの結果が含まれています (図 5、右下)。この設計は、研究者がプロンプトをより適切に設計するのに役立つだけでなく、優れたプロンプトとは何かを分析するのにも役立ちます。 4. 2つのデータセットの違いを比較する研究を行う際、2 つのデータセット間の詳細な違いを理解することは、さまざまな意味で重要です。たとえば、異なるデータセットでトレーニングされたモデルの異なる動作を説明するのに役立ちます。ただし、それらの違いを分析するのは面倒な作業であり、通常は異なる機能を設計し、異なるデータセットで計算する必要があります。 DataLab はこのプロセスを自動化し、研究者が非常に便利な方法でペアワイズ データセット分析を実施できるようにします。 テスト用に 2 つのテキスト要約データセットを選択し、以下のレーダー チャートに示すように、2 つのデータセットの包括的な比較を取得しました。2 つのデータセットの特徴を明確に表すことができます。 5. データセットの推奨多くの場合、良いアイデアはあっても、どのデータセットを選択すればよいかわかりません。提案されるデータセットが増えるにつれて、特定のアプリケーションに適したデータセットを選択することが難しくなります。 DataLab はこれを支援しようとします。具体的には、研究アイデアの説明が与えられると、DataLab はセマンティクスに基づいてより適切なデータセットを検索し、ランキング スコアを付与します。例を使用して DataLab と Google Dataset Search をテストして比較したところ、前者は説明に一致するデータセットをより正確に見つけることができるのに対し、Google Dataset Search は単に失敗することがわかりました。 下の図 6: DataLab と Google Dataset Search は、同じ学術的アイデアに対してデータセットを推奨します。 (a) 特定のアイデアに対して DataLab が推奨するデータセットの結果ページ。 (b) 特定のアイデアに対する Google データセット検索結果 (結果は返されません) 6. グローバル視点の分析(1)言語マップ言語マップは、どの言語がより多く研究され、どの言語がより少なく研究されているかを地理的な観点から分析するために使用され、それによって、将来どの言語のデータセットの構築にもっと注意を払う必要があるかがわかります。 下の図 7 に示すように、色が赤くなるほど、その国の言語のデータセットがより多く研究されていることを意味します。どの国に豊富な言語データセット(赤)があるかは簡単にわかります。比較すると、中国語のデータセットは比較的少ないです(オレンジ)。 (2)どのNLPモデルが最適ですか?データセットを単位として、それらが依存するモデルのパフォーマンスのランキングと対応する実装組織に応じて、さまざまな組織によって設計された NLP システムのパフォーマンスをランク付けし、さまざまな組織が得意とする NLP タスクを判断できます (下の図 8 を参照)。 図8: NLPシステムのパフォーマンスに関する機関の世界ランキング 今後の展望プラットフォームの統一により、集合知がより容易に機能するようになることを期待しています。今後、DataLab はさまざまな方向に拡大していきます。
|
<<: ICLRスポットライト!清華大学は時系列異常検出アルゴリズムを提案し、5つのSOTA結果を達成した。
>>: シングルトランスフォーマー情報検索、Google は微分可能な検索インデックスでデュアルエンコーダーモデルに勝利
この記事では、最も基本的な確率理論からさまざまな確率分布に至るまで、確率に関する基本的な知識と概念を...
知能ロボットの誕生は、国内の多くの産業に新たな力をもたらしました。ロボットの導入により、サービス業は...
NLP 研究者は皆、言語モデルは文法的な文脈情報しか学習できず、常識的な質問に関しては無力であること...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
今年も新学期がやってきましたが、教育者は AI テクノロジーの爆発的な進歩によって大きな倫理的プレッ...
マッキンゼーは、AI が多くの業務活動を自動化するという見通しに楽観的である一方で、あらゆる規模の自...
1. 要件の説明Linux システムのソース ディレクトリには、同じサフィックスを持つファイルがいく...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
今日、多くのベンダーは、データインテリジェントなビジネスユーザーが AI テクノロジーを採用できるよ...
[51CTO.com からのオリジナル記事] モバイル インターネットの発展の初期から現在に至るま...
最近、軽量インテリジェントロボットアーム企業であるYuejiang Technologyは、Song...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...