NLPモデル「包括的分析+評価ランキング」、CMUの最新ツールが優れたアイデアを見つけるのに役立ちます

NLPモデル「包括的分析+評価ランキング」、CMUの最新ツールが優れたアイデアを見つけるのに役立ちます

  [[396522]]

CMU は、復旦大学とオハイオ州立大学の研究者と共同で、モデルの理解度分析とモデル評価ランキングを組み合わせた研究支援ツールである ExplainaBoard を立ち上げました。これは、単一システムの診断、データセット分析、信頼性分析などのタスクを完了することができ、研究者の学術経験を効果的に向上させます。

論文を読んでいるときに他の人のアイデアは理にかなっていると感じても、自分のアイデアを設計するときにどこから始めればよいかわからないことがありますか? 「モデルはうまく機能しているが、詳細かつ包括的な説明がない」という理由で、レビュー担当者から低い評価を受けることがよくありますか?

新しいモデル構造の探索に疲れたとき、データセットの特性を探索して、分野の発展をより健全な方向に導くことに興味がありますか?新しい分野に初めて触れたとき、その分野の現在の開発状況やボトルネックをどうすれば素早く理解できるでしょうか?

少し前にインターネット上で白熱した議論を巻き起こした自動レビューシステムを覚えていますか? CMU のチームは最近、説明可能なシステムランキング (Explain a Board) を発表しました。これは科学研究の補助製品として位置付けられています。「モデル理解可能分析」と「モデル評価ランキング」という一見無関係な 2 つの要素を巧みに組み合わせ、日常の科学研究で重要でありながら見落とされがちな多くの部分を「ワンクリック」操作に変換し、研究者の学術体験を向上させます。

システムリンク:
翻訳:

論文リンク:
出典:http://arxiv.org/pdf/2104.06387.pdf

現在、ExplainaBoard は、単一タスクでは分類、抽出、生成を含む9 つの主流の NLP タスクをサポートしており、 40を超えるデータセットと300を超えるモデルが関係します。マルチタスクでは、 40を超える言語と9 つのクロス言語タスクを含む多言語評価ベンチマークをサポートしています。

技術通訳

ディープラーニング モデルの急速な発展により、リーダーボードはさまざまなシステムのパフォーマンスを追跡するための主流のツールになりました。しかし、リーダーボードで上位にランクされるモデルには威信が伴うため、多くの研究者は、モデルの特性に関するより深い科学的理解を無視して、評価指標の数を改善することにのみ焦点を当てています。

ExplainaBoard はこのような背景から生まれました。ExplainaBoard はさまざまなモデルをランク付けするだけでなく、モデルやデータ セットに関連する、理解しやすくインタラクティブで信頼できる分析メカニズムを多数提供します (下の図を参照)。

具体的には、以下の機能を実行できます。

単一システム診断

対処できる質問: 「私のモデルの得意なこと/苦手なことは何ですか?

診断システム

解決できる質問: 「私のモデルは他のモデルと比べてどう優れているのか?

データセット分析

回答可能な質問: 「データセットの特徴は何ですか?

一般的なエラー分析

解決できる問題: 「システムの一般的な予測誤りのトップ 5 は何ですか?

きめ細かなエラー分析

回答可能な質問: 「モデルの予測ミスはどこで発生するのか、そしてそれはどのようなものか?

システムの組み合わせ

解決できる問題: 「上位 5 つのシステムを組み合わせると、より強力なシステムが得られますか?

信頼性分析

答えられる質問:「モデルの予測はどの程度信頼できるか?

校正分析

解決できる問題: 「予測の信頼性は、その正確さに応じてどのように調整されるか?

応募の見通し

応用面では、プロジェクトリーダーの劉鵬飛博士によると、ExplainaBoardはDeepMind、Google、Huggingface、Paperswithcodeなど多くの企業から協力の招待を受けており、投資家の好意も得ているという。

たとえば、Google と Deepmind の最新の arXiv 作業 XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation では、ExplainaBoard を使用して多言語評価ベンチマークをアップグレードしています。

<<:  シーメンスは自動化を推進力として変革の新たな機会を捉える

>>:  新型コロナウイルスワクチンの製造はAIに頼っているのか?ジョンソン・エンド・ジョンソンとPwCがAIをどのように活用しているかを学ぶ

ブログ    
ブログ    

推薦する

AIの冷却:ディープラーニングは万能薬ではない

[[202706]]近年、ディープラーニングはある程度の流行状態に入り、人々はこの技術を使ってあらゆ...

ChatGPTが公式検出ツールを削除、AIテキストは識別できないことを認める

OpenAI は、何の発表もなく、ひっそりと AI テキスト検出ツールをシャットダウンし、ページは直...

トヨタがAIを活用して融資判断をスピードアップする方法

[[431125]]自動車金融サービスの分野では、ディーラーと顧客が意思決定のスピードを追求していま...

スタートアップにハイエンド AI を実装するにはどうすればよいでしょうか?

【51CTO.comオリジナル記事】 [[193891]] 人工知能は、1956 年のダートマス会...

...

マスク氏が選んだ天才少年:14歳でスペースXの最年少エンジニアとなり、年俸100万、2歳で学び始め、11歳で大学へ進学

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

今年の2つのホットスポット、5Gと人工知能に冷水を浴びせる

[[256172]]最近、ファーウェイ創業者の任正非氏の1万2000語を超えるインタビュー記録がイン...

充電の問題にさよなら。ロボットが新しいアイデアをもたらし、新しいトレンドを生み出す

近年、交通と環境に対する要求が継続的に高まっており、わが国の新エネルギー自動車は急速な発展を遂げてい...

...

RPAが企業にもたらすメリットトップ10

この記事では、RPA がビジネスの効率と生産性を向上させる 10 の方法について詳しく説明します。 ...

IT リーダーが避けるべき 6 つの生成 AI の危険性

多くの場合、さまざまな組織がさまざまな方法で生成 AI テクノロジーを適用しますが、それがもたらす悪...

「幻想」を消し去れ! Google の新しい ASPIRE メソッドにより、LLM は自己採点が可能になり、その効果はボリューム モデルよりも 10 倍優れています。

大規模モデルの「幻覚」問題は解決されつつあるのでしょうか?ウィスコンシン大学マディソン校とグーグルの...

AWS でディープラーニングを使用するための 10 個の Linux コマンド

[[202723]] AWS 上で大規模なディープラーニング処理を実行することは、学習と開発を行うた...

アカデミー会員焦力成: 進化最適化とディープラーニングに関する考察

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...