CMU のポスドクらが NLP データ処理ツールを発表

CMU のポスドクらが NLP データ処理ツールを発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

あなたの研究のアイデアをお知らせいただければ、適切なデータセットをお勧めします。

もちろん、オンデマンドで検索したり、さまざまなデータ セットの人気度をマークしたりすることもできます。

さらに強力なのは、データセットの分析に直接役立つことです。

コーパスにヘイトスピーチや性差別的なコーパスなどが含まれているかどうか、また、それらがどの程度の割合で含まれているかがわかります。

上記はDataLabと呼ばれる汎用データ処理プラットフォームです。

1,715 のデータセットが含まれており、データ診断、データ検索、グローバル分析、標準化処理の4 つの機能を提供します。

これは、ユーザーがデータの特性を分析するのに役立つだけでなく、さまざまなデータセットを標準化するのにも役立ちます。

このプロジェクトの考案者の一人は、復旦大学で博士号を取得し、カーネギーメロン大学の博士研究員を務める劉鵬飛氏です。

便利、便利、そして便利

実際、多くの人にとって、モデルの構築はデータ セットの段階で行き詰まることがよくあります。

インターネット上には多くのデータセットがありますが、その品質はさまざまです。

さらに、多くの初心者は、どのようなデータセットを使用すればよいのかについても混乱しています。

次に、幅広いデータセットをカバーし、分析も実行できるプラットフォームが、必要なデータセットを見つけるのに役立つ場合があります。

このような背景を踏まえて、Liu Pengfei 氏のチームは DataLab を設立しました。

たとえば、データセットの検索を考えてみましょう。DataLab では、モデルの要件に応じて適切なデータセットをフィルタリングできるだけでなく、最も人気のあるデータセット、ダウンロード数が最も多いデータセット、アクセス数が最も多いデータセットを確認することもできます。

結局のところ、「みんなが良いと言うのは良いことだ」ということであり、この格言はどこにでも当てはまります。

それでは標準化について見てみましょう。

DataLab は、さまざまなデータセットを統一された形式に正規化できる 86 個の関数を提供します。

モデルを構築するときにどのデータセットを使用すればよいかわからない場合は、DataLab に直接問い合わせることができます。

たとえば、研究のアイデアを入力する場合:

ビールのレビューに含まれる肯定的な感情と否定的な感情を識別できるモデルをトレーニングしたいと考えています。

DataLab では 20 個のデータ セットから選択でき、それぞれに詳細な紹介が付いています。

DataLab は、データ セットの分析および処理機能の提供に加えて、既存のデータに基づいたグローバルな視点の分析も提供できます。

例えば、世界各国の AI ローカリゼーション技術の蓄積を示すことができます。

開発者の劉鵬飛氏は、データ、特にラベル付けされたデータがAIシステムのトレーニングの鍵となると語った。多くの場合、データセットの蓄積は技術的な障壁を反映する可能性があります。

DataLab のビッグデータ分析から、既存の公開データセットや人気データセットの多くが主に英語であるため、米国は言語データセットにおいて大きな優位性を持っていることがわかります。

それに比べて、中国のデータセットの蓄積は十分ではありません。

同時に、このプラットフォームは、さまざまなタスク データ セットに基づいて、世界中のさまざまな研究機関のパフォーマンスをランク付けすることもできます。

下の表から、CMU、Microsoft Research Asia、JHU、UWがトップ4にランクインし、清華大学が国内最高位にランクインしたことがわかります。

ただし、プラットフォーム開発者は、プラットフォーム上のデータ統計は、ユーザーが送信したデータが不完全であるため不正確/不正確な場合があり、あくまでも参考用であることを全員に通知します。

ユーザーは、DataLab 公式 Web サイトでデータを修正することもできます。

復旦大学の卒業生が率いる

DataLab は、カーネギーメロン大学言語技術研究所 (LTI) の博士研究員である Pengfei Liu氏が主導しました。

劉鵬飛は、2019年に復旦大学コンピュータサイエンス学部で邱希鵬教授と黄玄静教授の指導の下、博士号を取得しました。

彼の研究対象には、NLP モデルの解釈可能性、転移学習、タスク学習などが含まれます。

博士課程在学中、彼はIBM博士奨学金、マイクロソフト奨学金、テンセント人工知能奨学金、百度奨学金など、コンピューターサイエンスの分野でさまざまな奨学金を獲得しました。

DataLab プラットフォームを構築した当初の意図について、Liu Pengfei 氏は QuantumBit に次のように語った。

機械学習の分野には標準化と統一が必要な技術が多すぎます。また、技術を統合する必要もあります。そうしないと、リソースの無駄が生じます。

彼は、カリフォルニア大学バークレー校のスター研究所 RISELab が、高性能分散実行フレームワーク Ray など、多くの斬新な技術ツールを開発してきたと述べました。

その舵取り役であるイオン・ストイカ教授は、共有セッションの中で「団結が成功の鍵だ」と述べた。

今回の DataLab の取り組みもまさにその通りです。

その意義は、「データ + 操作」の統一されたフレームワークを提供することにあり、これにより、将来的には多くのものが次の 2 つに変換されます。

  1. 新しいデータ型を定義/導入する。
  2. 新しいデータ操作を定義/導入します (基本的にデータを再構築する、現在人気の Prompt Learning など)。

このようにして、研究者と開発者は、必要なさまざまなデータ分析と操作を実行するための統一されたエントリ ポイントを持つことができます。

DataLabでは、さまざまなデータ型と操作の種類を標準化しています。これは、ユーザーがすでに先人によって解決されていることに時間を浪費することを防ぎ、代わりに既存の技術を使用して新しい技術開発を探索することを目的としています。

もちろん、もう少し深く掘り下げてみると、Liu Pengfei 氏は、DataLab の創設も内部の原動力から生まれたものだと述べています。

自分の行いが、人類社会の生産性の発展を促進する上で重要な役割を果たすようにするにはどうすればよいか。

実は、劉鵬飛氏が開発者や研究者向けに便利な「ガジェット」を作ったのは今回が初めてではない。

たとえば、 ExplainaBoard は、開発者が革新的な学術的アイデアを思いつくのに役立つ補助ツールです。

論文レビュー結果を自動的に生成できるデモ Web サイトReviewAdvisorもあります。PDF 論文をアップロードするだけで、レビュー結果が自動的に生成されます。

ちなみに、Liu Pengfei 氏も Zhihu で NLP に関する研究経験の一部を共有する予定です。

たとえば、この記事「現代の自然言語処理技術の発展における『第 4 のパラダイム』」は、ネット上で大きな話題を呼んでいます。

ご興味がありましたらぜひ知湖へお越しください〜

DataLab アドレス:

翻訳元:

GitHub アドレス:

https://github.com/ExpressAI/DataLab/

劉鵬飛志虎:

https://www.zhihu.com/people/liu-peng-fei-65-23/posts

<<:  Googleを超えろ!世界最大の時間結晶が記録を破り、量子コンピューターが新たな奇跡を起こす

>>:  FPGA+CPUアーキテクチャに基づく自動運転プラットフォームの性能分析

ブログ    

推薦する

2022年のAIはどうなるでしょうか? IBMが5つの予測を発表

最近、IBMは人工知能、スマートセンサー、スマート望遠鏡、検出器、医療機器の開発という5つの側面から...

人工知能をうまく実装するにはどうすればよいでしょうか?

人工知能 (AI) と機械学習 (ML) は、ビジネスの流行語から、より広範な企業での導入へと移行し...

...

ビジョンから現実へ: ヘルスケアにおける AI の台頭

[51CTO.com速訳]人工知能分野における音声インタラクション、コンピュータビジョン、認知コンピ...

...

インタビュアー: 負荷分散アルゴリズムを理解していますか?

前回の記事では、ポーリング、ランダム、最小接続の 3 つの負荷分散アルゴリズムについて説明しました。...

...

AI イニシアチブを成功させるために必要な 10 のこと

市場で競争上の優位性を獲得する過程で、多くの企業が新興技術の導入に熱心です。しかし、導入を急ぐあまり...

...

AI戦争が近づく中、ChatGPTが軍事禁止を解除

先週末、大手人工知能企業OpenAIは、ChatGPTの使用ポリシーから軍事利用を禁止する条項をひっ...

AI市場は2024年までに5000億ドルを超えると予想

インターナショナル・データ・コーポレーション(IDC)が発表した最新の半期ごとの世界人工知能(AI)...

天津市、スマートテクノロジー産業の発展促進に向け多方面から対策

2017年に第1回世界情報会議が開催されて以来、天津では257件のプロジェクトが実施され、1000億...

...

...