ブラックボックスモデルを突破せよ! MITの中国人博士がモデル解釈のための新しいツールExSumをリリース

ブラックボックスモデルを突破せよ! MITの中国人博士がモデル解釈のための新しいツールExSumをリリース

近年の人工知能の急速な発展は主にニューラルネットワークモデルによるものですが、モデルが大規模かつ複雑になるにつれて、研究者はモデルがどのように予測を行うのかを徐々に完全に理解できなくなり、「ブラックボックス」はますます暗くなっていきます。

ブラックボックスモデルの動作メカニズムを理解できることは、モデルの展開に非常に重要であり、モデルの信頼性と使いやすさに関係するため、一部の研究者はモデルの解釈可能な方法も開発しています。

モデルを理解するために、これまでの方法のほとんどは、テストサンプルを使用してモデルの意思決定プロセスを記述および説明していました。たとえば、感情分析タスクでは、モデルが肯定的または否定的であると見なしたキーワードが映画レビューデータ内で強調表示され、これは「ローカル説明」とも呼ばれます。

しかし、より複雑なタスクの場合、人間はそれを容易に理解できない可能性があり、誤解する可能性さえあるため、この説明方法は役に立ちません。

最近、MITの研究者らは、機械学習モデルの解釈可能性の理解可能性を正式に定量化し評価できる新しい数学的フレームワーク、ExSumを提案しました。この論文はNAACL 2022に採択されました。

論文リンク: https://arxiv.org/pdf/2205.00130.pdf

簡単に言えば、「説明ルールモデル」がより多くのデータに適用できるかどうかによって決まります。

ローカル解釈の主な欠点は、ルールを他のテスト例に拡張できるかどうかを判断できないことです。たとえば、映画のレビューで「素晴らしい」が肯定的な言葉として強調表示されている場合、「いいえ」などの否定的な言葉はテストに影響を与えないことを意味しますか?

ExSum を使用すると、ユーザーは、カバレッジ、有効性、明確さという 3 つの指標を使用して、ルールが当てはまるかどうかを確認できます。

カバレッジは、ルールがデータセット全体にどの程度広く適用されるかを測定します。有効性は、ルールが真となる例がいくつあるかを示します。明確さは、ルールの正確さを表します。有効なルールは、一般的であっても、モデルの理解には役立たない場合もあります。

論文の筆頭著者である Yilun Zhou 氏は、MIT の電気工学およびコンピューターサイエンス学科 (EECS) の 5 年目の博士課程の学生で、Julie Shah 教授の指導を受けています。私の現在の研究の方向性は、世界で重要な決定を下すモデルを人間がよりよく理解できるようにすることです。主な質問には、ブラック ボックス モデルが正しく機能することをどのようにして保証するか、などがあります。予想される、そしてさらに重要なことに、予想外のモデルの動作を包括的に理解するにはどうすればよいでしょうか?このような複雑な推論プロセスに対する人間の理解の限界は何でしょうか?

これらの質問に答えるために、彼は説明可能な機械学習のモデル、アルゴリズム、評価を開発し、それらをコンピュータービジョン (CV)、自然言語処理 (NLP)、ロボティクスなどのさまざまな分野に適用しています。

数学の経験を説明する

テキスト分類モデルをトレーニングする際、通常はモデルをどのように説明しますか?

まずモデルに文を入力し、次にモデルがテキストのラベルを予測します。予測が正しければ、予測内の文中の各単語の重要性を分析します。

たとえば、下の図の文章は、感情分類タスクで肯定的なラベルが付けられています。SHAP 解釈法を使用すると、テキスト内の各単語の貢献度を測定できます。たとえば、「memorable」と「great」はスコアが高く、感情分類においてより重要です。ストップワード「for」のスコアは -0.02 に過ぎず、基本的に無視され、予測結果に影響を与えません。

この検証と、モデルの特に優れた分類パフォーマンスを組み合わせると、モデルはすべての肯定的な単語を正しく識別し、ストップワードを無視できると結論付けることができます。

しかし、これは本当にそうなのでしょうか?

1 つの証拠だけでは、何も証明できません。モデルが他のデータでもこの結論を満たすことができるかどうかはまだ不明です。さらに、人間による観察は十分に自動化されていません。

ExSum フレームワークはこのルールを「数学化」します。モデルを説明する際、各単語の各特徴は基本説明単位 (FEU) と呼ばれます。この例では、使用される特徴は SHAP スコアです。

次に、たとえば、文の感情スコア (0.638) が「記憶に残る」スコアよりも高いというルールを生成し、肯定的な単語のベンチマークとして 0.479 のスコアを使用して、他の文に対するルールの精度 (3.1%) を判断します。

このアプローチでは、ルールの範囲、有効性、明確さを自動的に測定できるため、開発者はモデルの動作をより深く理解できるようになります。

はじめる

ExSum フレームワーク プログラムも記事とともにリリースされています。「モデルの説明」の旅を始めるには、pip install exsum を実行するだけです。

ExSum は主に、テキスト バイナリ分類モデルの ExSum ルールの確認と変更に使用されます。ExSum ルールとルール セットのクラス定義が含まれています。Flask サーバーに基づいて、ルールとルール セットのインタラクティブな視覚化も実行できます。

コードリンク: https://github.com/YilunZhou/ExSum

チュートリアルリンク: https://yilunzhou.github.io/exsum/documentation.html

ExSum GUI を実行すると、プログラムが主に 5 つのパネルに分かれていることがわかります。

パネル A はルールの構成構造を示しています。すべてのルールが選択されるわけではありません。たとえば、A はルール 2 と 7 が使用されないことを意味しますが、各ルールは最大で 1 回しか使用できません。

ルールを選択すると、そのルールを含まない対事実的 (CF) ルール セットが自動的に計算され、ユーザーはその限界寄与を直感的に理解できるようになります。2 行目は、CF ルール セットの構造を示しています。

パネル B ではすべてのルールがボタンに変換され、ユーザーはルールをクリックして詳細を確認できます。下部にはリセットボタンと保存ボタンがあります。 [リセット] ボタンをクリックすると、ルール内のパラメータ値に加えられたすべての変更が破棄されます (パネル D)。一方、[保存] ボタンをクリックすると、現在のルール セットのコピーが指定されたディレクトリに保存されます。

パネル C には、完全なルール セット、CF ルール セット、および選択されたルールに対して計算されたメトリックが数値とグラフの両方の形式で表示されます。ルールに変更を加えると、これらの値の再計算と更新が自動的にトリガーされます。

パネル D には、選択したルールのパラメータがリストされます。これらのパラメータは、入力するかスライダーを使用して手動で変更できます。

さらに、AutoTune ツールボックスを使用してパラメータを自動的に調整することもできます。

パネル E には、特定のデータ インスタンスのルールとルール セットが表示されます。これには、ルール セット全体の表示と選択したルールのみの表示を切り替えたり、文全体の表示と文中の FEU のみの表示を切り替えたり、データを再ランダム化して新しいインスタンス バッチを表示したりするために使用される 3 つのコントロール ボタンが含まれます。

予測が正しい場合(しきい値として 0.5 を使用)、テキストは緑色になり、そうでない場合は赤色になります。

単語の下線は、その単語が選択したルールまたはルール セットの対象であることを示し、対象となっている単語の場合、太字は動作機能に従って有効であることを示します。

各単語の上にマウスを置くと、数値プロパティ値と、その単語に適用されるルール(存在する場合)を示すツールヒントが表示されます。下の画像は例を示しています (この場合、「severe」という単語は太字ではないため、ルール 19 は効果がありません)。

<<:  数学者を助けたいなら、人工知能の意味は何でしょうか?

>>:  長さ 0.3 メートルのロボットが 99 フィートの高さまでジャンプできます。ネイチャー誌が、将来月面に着陸できるジャンプロボットを発表

ブログ    
ブログ    
ブログ    

推薦する

...

Meta が言語認識システムをオープンソース化、6 言語でのリップ リーディング翻訳モデル認識、誰でもローカル展開可能

今年初めにネットで人気を博した反ギャングドラマ「光弗」をまだ覚えているだろうか。最後の数話で監督がス...

中国のAIハイテクが2018CESを制覇、Zhuner翻訳機が世界の家電「オスカー」を驚かせる

2018 CES(国際コンシューマー・エレクトロニクス・ショー)が1月9日から12日まで米国ラスベガ...

...

不動産会社のデジタル変革は差し迫っています。これらの AI イノベーションは試してみる価値があるかもしれません。

不動産会社のデジタル変革は差し迫っています。試してみるべき革新的な方法をいくつかご紹介します。今日の...

あなたの顔データはどこに保存されますか?

AI顔変換ソフト「ZAO」やMegviiのキャンパス顔認識をめぐる論争に続き、17万件の顔データが...

AI投資を最大限に活用するための6つのステップ

人工知能は、将来の発展にとって大きな破壊的技術の 1 つであるとよく考えられています。これにより、多...

企業がより持続可能な推論を通じてより環境に優しい AIGC を実現する方法

モデルとは何か一般人にとって、AIとそのプログラミングの基盤となるアルゴリズムが、これほど広範囲にわ...

GPT-4V でさえ解明できない未来推論の解決策があります!華中科技大学と上海理工大学出身

マルチモーダル大規模言語モデルは、強力な画像理解および推論機能を発揮します。しかし、現在の観察に基づ...

焦点: 注目すべき 6 つのスマート セキュリティ トレンド

スマート セキュリティは、新しい AI 機能のおかげで、静的なセキュリティ ビデオ録画からリアルタイ...

...

2020 年に AI テクノロジーはどのような変化をもたらすでしょうか?

近年、人工知能は頻繁に話題になっていますが、まだ真の実現には程遠い状況です。人工知能技術の開発におけ...

Qinglang RoboticsがCIIEの「ブラックテクノロジー」を体験していただきます

浦江の潮が満ち、第3回中国国際輸入博覧会が開幕!「人工心肺」「88カラットのブラックダイヤモンド」「...