NLPモデル「包括的分析+評価ランキング」、CMUの最新ツールが優れたアイデアを見つけるのに役立ちます

NLPモデル「包括的分析+評価ランキング」、CMUの最新ツールが優れたアイデアを見つけるのに役立ちます

  [[396522]]

CMU は、復旦大学とオハイオ州立大学の研究者と共同で、モデルの理解度分析とモデル評価ランキングを組み合わせた研究支援ツールである ExplainaBoard を立ち上げました。これは、単一システムの診断、データセット分析、信頼性分析などのタスクを完了することができ、研究者の学術経験を効果的に向上させます。

論文を読んでいるときに他の人のアイデアは理にかなっていると感じても、自分のアイデアを設計するときにどこから始めればよいかわからないことがありますか? 「モデルはうまく機能しているが、詳細かつ包括的な説明がない」という理由で、レビュー担当者から低い評価を受けることがよくありますか?

新しいモデル構造の探索に疲れたとき、データセットの特性を探索して、分野の発展をより健全な方向に導くことに興味がありますか?新しい分野に初めて触れたとき、その分野の現在の開発状況やボトルネックをどうすれば素早く理解できるでしょうか?

少し前にインターネット上で白熱した議論を巻き起こした自動レビューシステムを覚えていますか? CMU のチームは最近、説明可能なシステムランキング (Explain a Board) を発表しました。これは科学研究の補助製品として位置付けられています。「モデル理解可能分析」と「モデル評価ランキング」という一見無関係な 2 つの要素を巧みに組み合わせ、日常の科学研究で重要でありながら見落とされがちな多くの部分を「ワンクリック」操作に変換し、研究者の学術体験を向上させます。

システムリンク:
翻訳:

論文リンク:
出典:http://arxiv.org/pdf/2104.06387.pdf

現在、ExplainaBoard は、単一タスクでは分類、抽出、生成を含む9 つの主流の NLP タスクをサポートしており、 40を超えるデータセットと300を超えるモデルが関係します。マルチタスクでは、 40を超える言語と9 つのクロス言語タスクを含む多言語評価ベンチマークをサポートしています。

技術通訳

ディープラーニング モデルの急速な発展により、リーダーボードはさまざまなシステムのパフォーマンスを追跡するための主流のツールになりました。しかし、リーダーボードで上位にランクされるモデルには威信が伴うため、多くの研究者は、モデルの特性に関するより深い科学的理解を無視して、評価指標の数を改善することにのみ焦点を当てています。

ExplainaBoard はこのような背景から生まれました。ExplainaBoard はさまざまなモデルをランク付けするだけでなく、モデルやデータ セットに関連する、理解しやすくインタラクティブで信頼できる分析メカニズムを多数提供します (下の図を参照)。

具体的には、以下の機能を実行できます。

単一システム診断

対処できる質問: 「私のモデルの得意なこと/苦手なことは何ですか?

診断システム

解決できる質問: 「私のモデルは他のモデルと比べてどう優れているのか?

データセット分析

回答可能な質問: 「データセットの特徴は何ですか?

一般的なエラー分析

解決できる問題: 「システムの一般的な予測誤りのトップ 5 は何ですか?

きめ細かなエラー分析

回答可能な質問: 「モデルの予測ミスはどこで発生するのか、そしてそれはどのようなものか?

システムの組み合わせ

解決できる問題: 「上位 5 つのシステムを組み合わせると、より強力なシステムが得られますか?

信頼性分析

答えられる質問:「モデルの予測はどの程度信頼できるか?

校正分析

解決できる問題: 「予測の信頼性は、その正確さに応じてどのように調整されるか?

応募の見通し

応用面では、プロジェクトリーダーの劉鵬飛博士によると、ExplainaBoardはDeepMind、Google、Huggingface、Paperswithcodeなど多くの企業から協力の招待を受けており、投資家の好意も得ているという。

たとえば、Google と Deepmind の最新の arXiv 作業 XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation では、ExplainaBoard を使用して多言語評価ベンチマークをアップグレードしています。

<<:  シーメンスは自動化を推進力として変革の新たな機会を捉える

>>:  新型コロナウイルスワクチンの製造はAIに頼っているのか?ジョンソン・エンド・ジョンソンとPwCがAIをどのように活用しているかを学ぶ

ブログ    

推薦する

ChatGPTの不正行為から逃れるのは難しいです! 99%のヒット検出、カンザス大学の新しいアルゴリズム、Cellジャーナルに掲載された研究

これまで、多くの人が ChatGPT 検出器を開発してきましたが、実際に効果的に識別できるものはあり...

後から登場したが、最初に登場したテンセントのHunyuanモデルの技術的なハイライトは何ですか?

2023年の夏は終わったが、AIGCビッグモデルを巡る注目は衰える気配がない。過去 6 か月間、私...

Ali Wensheng ビデオが Gen-2 と Pika に挑戦、1280×720 の解像度で圧迫感なし、3500 万のテキスト ビデオ表示効果

ヴィンセントのビデオはどの程度詳細にできますか?最近、アリババの調査により、1280×720 の解像...

OpenAI が 10 億ドルで Microsoft に売却された後、汎用人工知能にはまだ希望があるのでしょうか?

[[422423]]お金が手に入ったとき、あなたはまだ当初の意図を貫くことができますか? OpenA...

AIが「自由意志」を持つとき

人工知能が盛んに使われる一方で、この技術に伴う問題や潜在的な脅威も現れつつあります。 AI技術の「価...

...

30秒で署名、上海の核酸採取ロボットが登場!

COVID-19の流行が続き、核酸検査が広範囲で徐々に常態化している中、複数の組織が核酸検査用ロボ...

...

初心者のためのホームオートメーション完全ガイド

スマートホームはテクノロジーを活用して、居住者にさらなる利便性、節約、快適性、セキュリティを提供しま...

...

...

2015年に中国の電子商取引消費者に最も優しい製品が発表されました:ビッグデータアルゴリズム+専門家のコメント=優れた中国のデザイン

消費者の実際の購買行動や実際のユーザーレビューのビッグデータ分析に基づいた中国初の「2015年中国電...

人工知能の最前線:ブレークスルーの機会と希望

[[253441]]人工知能技術の進歩、産業の革新、産業の発展は、産業の基礎となる人工知能の最先端の...

将来人工知能に置き換えられる可能性が最も低い10の仕事

人工知能(AI)の急速な発展は人々の生活に便利さをもたらしたが、労働市場には大きな変化をもたらすだろ...

機械学習はクラウドネイティブセキュリティの未来

クラウドネイティブ アーキテクチャを使用することで、企業はアプリケーションの開発時間を短縮し、低コス...