CMU のポスドクらが NLP データ処理ツールを発表

CMU のポスドクらが NLP データ処理ツールを発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

あなたの研究のアイデアをお知らせいただければ、適切なデータセットをお勧めします。

もちろん、オンデマンドで検索したり、さまざまなデータ セットの人気度をマークしたりすることもできます。

さらに強力なのは、データセットの分析に直接役立つことです。

コーパスにヘイトスピーチや性差別的なコーパスなどが含まれているかどうか、また、それらがどの程度の割合で含まれているかがわかります。

上記はDataLabと呼ばれる汎用データ処理プラットフォームです。

1,715 のデータセットが含まれており、データ診断、データ検索、グローバル分析、標準化処理の4 つの機能を提供します。

これは、ユーザーがデータの特性を分析するのに役立つだけでなく、さまざまなデータセットを標準化するのにも役立ちます。

このプロジェクトの考案者の一人は、復旦大学で博士号を取得し、カーネギーメロン大学の博士研究員を務める劉鵬飛氏です。

便利、便利、そして便利

実際、多くの人にとって、モデルの構築はデータ セットの段階で行き詰まることがよくあります。

インターネット上には多くのデータセットがありますが、その品質はさまざまです。

さらに、多くの初心者は、どのようなデータセットを使用すればよいのかについても混乱しています。

次に、幅広いデータセットをカバーし、分析も実行できるプラットフォームが、必要なデータセットを見つけるのに役立つ場合があります。

このような背景を踏まえて、Liu Pengfei 氏のチームは DataLab を設立しました。

たとえば、データセットの検索を考えてみましょう。DataLab では、モデルの要件に応じて適切なデータセットをフィルタリングできるだけでなく、最も人気のあるデータセット、ダウンロード数が最も多いデータセット、アクセス数が最も多いデータセットを確認することもできます。

結局のところ、「みんなが良いと言うのは良いことだ」ということであり、この格言はどこにでも当てはまります。

それでは標準化について見てみましょう。

DataLab は、さまざまなデータセットを統一された形式に正規化できる 86 個の関数を提供します。

モデルを構築するときにどのデータセットを使用すればよいかわからない場合は、DataLab に直接問い合わせることができます。

たとえば、研究のアイデアを入力する場合:

ビールのレビューに含まれる肯定的な感情と否定的な感情を識別できるモデルをトレーニングしたいと考えています。

DataLab では 20 個のデータ セットから選択でき、それぞれに詳細な紹介が付いています。

DataLab は、データ セットの分析および処理機能の提供に加えて、既存のデータに基づいたグローバルな視点の分析も提供できます。

例えば、世界各国の AI ローカリゼーション技術の蓄積を示すことができます。

開発者の劉鵬飛氏は、データ、特にラベル付けされたデータがAIシステムのトレーニングの鍵となると語った。多くの場合、データセットの蓄積は技術的な障壁を反映する可能性があります。

DataLab のビッグデータ分析から、既存の公開データセットや人気データセットの多くが主に英語であるため、米国は言語データセットにおいて大きな優位性を持っていることがわかります。

それに比べて、中国のデータセットの蓄積は十分ではありません。

同時に、このプラットフォームは、さまざまなタスク データ セットに基づいて、世界中のさまざまな研究機関のパフォーマンスをランク付けすることもできます。

下の表から、CMU、Microsoft Research Asia、JHU、UWがトップ4にランクインし、清華大学が国内最高位にランクインしたことがわかります。

ただし、プラットフォーム開発者は、プラットフォーム上のデータ統計は、ユーザーが送信したデータが不完全であるため不正確/不正確な場合があり、あくまでも参考用であることを全員に通知します。

ユーザーは、DataLab 公式 Web サイトでデータを修正することもできます。

復旦大学の卒業生が率いる

DataLab は、カーネギーメロン大学言語技術研究所 (LTI) の博士研究員である Pengfei Liu氏が主導しました。

劉鵬飛は、2019年に復旦大学コンピュータサイエンス学部で邱希鵬教授と黄玄静教授の指導の下、博士号を取得しました。

彼の研究対象には、NLP モデルの解釈可能性、転移学習、タスク学習などが含まれます。

博士課程在学中、彼はIBM博士奨学金、マイクロソフト奨学金、テンセント人工知能奨学金、百度奨学金など、コンピューターサイエンスの分野でさまざまな奨学金を獲得しました。

DataLab プラットフォームを構築した当初の意図について、Liu Pengfei 氏は QuantumBit に次のように語った。

機械学習の分野には標準化と統一が必要な技術が多すぎます。また、技術を統合する必要もあります。そうしないと、リソースの無駄が生じます。

彼は、カリフォルニア大学バークレー校のスター研究所 RISELab が、高性能分散実行フレームワーク Ray など、多くの斬新な技術ツールを開発してきたと述べました。

その舵取り役であるイオン・ストイカ教授は、共有セッションの中で「団結が成功の鍵だ」と述べた。

今回の DataLab の取り組みもまさにその通りです。

その意義は、「データ + 操作」の統一されたフレームワークを提供することにあり、これにより、将来的には多くのものが次の 2 つに変換されます。

  1. 新しいデータ型を定義/導入する。
  2. 新しいデータ操作を定義/導入します (基本的にデータを再構築する、現在人気の Prompt Learning など)。

このようにして、研究者と開発者は、必要なさまざまなデータ分析と操作を実行するための統一されたエントリ ポイントを持つことができます。

DataLabでは、さまざまなデータ型と操作の種類を標準化しています。これは、ユーザーがすでに先人によって解決されていることに時間を浪費することを防ぎ、代わりに既存の技術を使用して新しい技術開発を探索することを目的としています。

もちろん、もう少し深く掘り下げてみると、Liu Pengfei 氏は、DataLab の創設も内部の原動力から生まれたものだと述べています。

自分の行いが、人類社会の生産性の発展を促進する上で重要な役割を果たすようにするにはどうすればよいか。

実は、劉鵬飛氏が開発者や研究者向けに便利な「ガジェット」を作ったのは今回が初めてではない。

たとえば、 ExplainaBoard は、開発者が革新的な学術的アイデアを思いつくのに役立つ補助ツールです。

論文レビュー結果を自動的に生成できるデモ Web サイトReviewAdvisorもあります。PDF 論文をアップロードするだけで、レビュー結果が自動的に生成されます。

ちなみに、Liu Pengfei 氏も Zhihu で NLP に関する研究経験の一部を共有する予定です。

たとえば、この記事「現代の自然言語処理技術の発展における『第 4 のパラダイム』」は、ネット上で大きな話題を呼んでいます。

ご興味がありましたらぜひ知湖へお越しください〜

DataLab アドレス:

翻訳元:

GitHub アドレス:

https://github.com/ExpressAI/DataLab/

劉鵬飛志虎:

https://www.zhihu.com/people/liu-peng-fei-65-23/posts

<<:  Googleを超えろ!世界最大の時間結晶が記録を破り、量子コンピューターが新たな奇跡を起こす

>>:  FPGA+CPUアーキテクチャに基づく自動運転プラットフォームの性能分析

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AI + エッジコンピューティング - エッジ人工知能は本当に存在するのか?

EdgeAI はもはやブループリント段階ではありません。すでに主流として採用され、驚異的な速度で成...

12 の主要な AI ホットテクノロジーの方向性を網羅する、AISummit グローバル人工知能テクノロジーカンファレンス 2022 が開催されます。

人工知能は、60年以上にわたる発展の中で、数々の浮き沈みを経験してきました。近年、モバイルインターネ...

...

ロボットのウォーリーがやってきた!ディズニーは、RLを使って歩くことを学び、社会的にも交流できる新しいロボットを発表した。

チン、チン、チン、『ウォーリー』が舞台に登場!頭は平らで、体は四角い。地面を指差して見るように言うと...

...

...

Keras でカスタム損失関数を作成する方法は?

[[284375]] UnsplashのDhruv Deshmukhによる写真損失関数を使用して、...

エッジ AI がインダストリー 4.0 の成果を推進する方法

物理的な世界を中心としたこれまでの産業革命とは異なり、第 4 次産業革命によって導入されたデジタル要...

AI検出器の仕組みの概要​

翻訳者 | 劉涛レビュー | Chonglou AI ライティング検出器を使用したことがあるかもしれ...

自動テストの落とし穴は何ですか?どうすれば解決できるでしょうか?

自動テストは、ソフトウェア ツールまたはハードウェア デバイスを使用して、テスト ケースの手動実行を...

2021 年に注目すべき 4 つの自動化問題

[[377158]]研究によれば、コロナウイルスのパンデミック中に組織が確立したビジネス規範は、パン...

生体認証ウェアラブルでCOVID-19の発生を予測できると研究で判明

米国の研究チームは最近、ウェアラブルデバイスから得られる生体認証データを分析することで、一見健康そう...

人工知能を世界で初めて活用し、特発性肺線維症治療薬の新たなメカニズムを発見

Insilico Medicine は、人工知能を使用して特発性肺線維症治療薬の新しいメカニズムを世...