NLPモデル「包括的分析+評価ランキング」、CMUの最新ツールが優れたアイデアを見つけるのに役立ちます

NLPモデル「包括的分析+評価ランキング」、CMUの最新ツールが優れたアイデアを見つけるのに役立ちます

  [[396522]]

CMU は、復旦大学とオハイオ州立大学の研究者と共同で、モデルの理解度分析とモデル評価ランキングを組み合わせた研究支援ツールである ExplainaBoard を立ち上げました。これは、単一システムの診断、データセット分析、信頼性分析などのタスクを完了することができ、研究者の学術経験を効果的に向上させます。

論文を読んでいるときに他の人のアイデアは理にかなっていると感じても、自分のアイデアを設計するときにどこから始めればよいかわからないことがありますか? 「モデルはうまく機能しているが、詳細かつ包括的な説明がない」という理由で、レビュー担当者から低い評価を受けることがよくありますか?

新しいモデル構造の探索に疲れたとき、データセットの特性を探索して、分野の発展をより健全な方向に導くことに興味がありますか?新しい分野に初めて触れたとき、その分野の現在の開発状況やボトルネックをどうすれば素早く理解できるでしょうか?

少し前にインターネット上で白熱した議論を巻き起こした自動レビューシステムを覚えていますか? CMU のチームは最近、説明可能なシステムランキング (Explain a Board) を発表しました。これは科学研究の補助製品として位置付けられています。「モデル理解可能分析」と「モデル評価ランキング」という一見無関係な 2 つの要素を巧みに組み合わせ、日常の科学研究で重要でありながら見落とされがちな多くの部分を「ワンクリック」操作に変換し、研究者の学術体験を向上させます。

システムリンク:
翻訳:

論文リンク:
出典:http://arxiv.org/pdf/2104.06387.pdf

現在、ExplainaBoard は、単一タスクでは分類、抽出、生成を含む9 つの主流の NLP タスクをサポートしており、 40を超えるデータセットと300を超えるモデルが関係します。マルチタスクでは、 40を超える言語と9 つのクロス言語タスクを含む多言語評価ベンチマークをサポートしています。

技術通訳

ディープラーニング モデルの急速な発展により、リーダーボードはさまざまなシステムのパフォーマンスを追跡するための主流のツールになりました。しかし、リーダーボードで上位にランクされるモデルには威信が伴うため、多くの研究者は、モデルの特性に関するより深い科学的理解を無視して、評価指標の数を改善することにのみ焦点を当てています。

ExplainaBoard はこのような背景から生まれました。ExplainaBoard はさまざまなモデルをランク付けするだけでなく、モデルやデータ セットに関連する、理解しやすくインタラクティブで信頼できる分析メカニズムを多数提供します (下の図を参照)。

具体的には、以下の機能を実行できます。

単一システム診断

対処できる質問: 「私のモデルの得意なこと/苦手なことは何ですか?

診断システム

解決できる質問: 「私のモデルは他のモデルと比べてどう優れているのか?

データセット分析

回答可能な質問: 「データセットの特徴は何ですか?

一般的なエラー分析

解決できる問題: 「システムの一般的な予測誤りのトップ 5 は何ですか?

きめ細かなエラー分析

回答可能な質問: 「モデルの予測ミスはどこで発生するのか、そしてそれはどのようなものか?

システムの組み合わせ

解決できる問題: 「上位 5 つのシステムを組み合わせると、より強力なシステムが得られますか?

信頼性分析

答えられる質問:「モデルの予測はどの程度信頼できるか?

校正分析

解決できる問題: 「予測の信頼性は、その正確さに応じてどのように調整されるか?

応募の見通し

応用面では、プロジェクトリーダーの劉鵬飛博士によると、ExplainaBoardはDeepMind、Google、Huggingface、Paperswithcodeなど多くの企業から協力の招待を受けており、投資家の好意も得ているという。

たとえば、Google と Deepmind の最新の arXiv 作業 XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation では、ExplainaBoard を使用して多言語評価ベンチマークをアップグレードしています。

<<:  シーメンスは自動化を推進力として変革の新たな機会を捉える

>>:  新型コロナウイルスワクチンの製造はAIに頼っているのか?ジョンソン・エンド・ジョンソンとPwCがAIをどのように活用しているかを学ぶ

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

画像をデジタル化して特徴を抽出するための、事前トレーニング済みのディープラーニングモデル6つ

[51CTO.com クイック翻訳] ユビキタスセンサーは毎日大量の画像を収集しており、人工知能技術...

...

ソフトウェア定義車の基礎 - FOTA および SOTA ソリューション

OTAとは何ですか? OTA(Over-the-Air Technology)は中国語でエアダウンロ...

デジタル経済時代の識別技術の新たな展開

青果市場では、小銭を気にせず、携帯電話をスワイプするだけで支払いができます。駅では、切符を買うために...

人材獲得競争で大学に残ることを選んだAI研究者

[[265622]]ビッグデータダイジェスト制作著者: リン・アナン、周素雲AI 人材の需要が高まる...

...

人気のワールドモデルとは何ですか? DriveDreamer: 実世界初の自動運転世界モデル

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

家庭用ロボットを作り、独自の研究開発の道を歩む

ロボットを作ることは私の子供の頃からの夢でした。 2011年に私はハルビン工業大学に入学し、そこが私...

年次指数レポートではAIが「産業化」しているが、より優れた指標とテストが必要とされている

海外メディアVentureBeatによると、中国は人工知能の研究論文の総数で米国を上回り、資金提供を...

エッジコンピューティングの価値はデータにある

企業はビジネスニーズの変化に応じてスケールアップおよびスケールダウンできるコンピューティングおよびス...

建設業界における人工知能のメリット

建設における AI は、設計、入札、資金調達、調達、建設、運用、資産管理、ビジネス モデルの変革など...

...