近年の人工知能の急速な発展は主にニューラルネットワークモデルによるものですが、モデルが大規模かつ複雑になるにつれて、研究者はモデルがどのように予測を行うのかを徐々に完全に理解できなくなり、「ブラックボックス」はますます暗くなっていきます。 ブラックボックスモデルの動作メカニズムを理解できることは、モデルの展開に非常に重要であり、モデルの信頼性と使いやすさに関係するため、一部の研究者はモデルの解釈可能な方法も開発しています。 モデルを理解するために、これまでの方法のほとんどは、テストサンプルを使用してモデルの意思決定プロセスを記述および説明していました。たとえば、感情分析タスクでは、モデルが肯定的または否定的であると見なしたキーワードが映画レビューデータ内で強調表示され、これは「ローカル説明」とも呼ばれます。 しかし、より複雑なタスクの場合、人間はそれを容易に理解できない可能性があり、誤解する可能性さえあるため、この説明方法は役に立ちません。 最近、MITの研究者らは、機械学習モデルの解釈可能性の理解可能性を正式に定量化し評価できる新しい数学的フレームワーク、ExSumを提案しました。この論文はNAACL 2022に採択されました。 論文リンク: https://arxiv.org/pdf/2205.00130.pdf 簡単に言えば、「説明ルールモデル」がより多くのデータに適用できるかどうかによって決まります。 ローカル解釈の主な欠点は、ルールを他のテスト例に拡張できるかどうかを判断できないことです。たとえば、映画のレビューで「素晴らしい」が肯定的な言葉として強調表示されている場合、「いいえ」などの否定的な言葉はテストに影響を与えないことを意味しますか? ExSum を使用すると、ユーザーは、カバレッジ、有効性、明確さという 3 つの指標を使用して、ルールが当てはまるかどうかを確認できます。 カバレッジは、ルールがデータセット全体にどの程度広く適用されるかを測定します。有効性は、ルールが真となる例がいくつあるかを示します。明確さは、ルールの正確さを表します。有効なルールは、一般的であっても、モデルの理解には役立たない場合もあります。 論文の筆頭著者である Yilun Zhou 氏は、MIT の電気工学およびコンピューターサイエンス学科 (EECS) の 5 年目の博士課程の学生で、Julie Shah 教授の指導を受けています。私の現在の研究の方向性は、世界で重要な決定を下すモデルを人間がよりよく理解できるようにすることです。主な質問には、ブラック ボックス モデルが正しく機能することをどのようにして保証するか、などがあります。予想される、そしてさらに重要なことに、予想外のモデルの動作を包括的に理解するにはどうすればよいでしょうか?このような複雑な推論プロセスに対する人間の理解の限界は何でしょうか? これらの質問に答えるために、彼は説明可能な機械学習のモデル、アルゴリズム、評価を開発し、それらをコンピュータービジョン (CV)、自然言語処理 (NLP)、ロボティクスなどのさまざまな分野に適用しています。 数学の経験を説明するテキスト分類モデルをトレーニングする際、通常はモデルをどのように説明しますか? まずモデルに文を入力し、次にモデルがテキストのラベルを予測します。予測が正しければ、予測内の文中の各単語の重要性を分析します。 たとえば、下の図の文章は、感情分類タスクで肯定的なラベルが付けられています。SHAP 解釈法を使用すると、テキスト内の各単語の貢献度を測定できます。たとえば、「memorable」と「great」はスコアが高く、感情分類においてより重要です。ストップワード「for」のスコアは -0.02 に過ぎず、基本的に無視され、予測結果に影響を与えません。 この検証と、モデルの特に優れた分類パフォーマンスを組み合わせると、モデルはすべての肯定的な単語を正しく識別し、ストップワードを無視できると結論付けることができます。 しかし、これは本当にそうなのでしょうか? 1 つの証拠だけでは、何も証明できません。モデルが他のデータでもこの結論を満たすことができるかどうかはまだ不明です。さらに、人間による観察は十分に自動化されていません。 ExSum フレームワークはこのルールを「数学化」します。モデルを説明する際、各単語の各特徴は基本説明単位 (FEU) と呼ばれます。この例では、使用される特徴は SHAP スコアです。 次に、たとえば、文の感情スコア (0.638) が「記憶に残る」スコアよりも高いというルールを生成し、肯定的な単語のベンチマークとして 0.479 のスコアを使用して、他の文に対するルールの精度 (3.1%) を判断します。 このアプローチでは、ルールの範囲、有効性、明確さを自動的に測定できるため、開発者はモデルの動作をより深く理解できるようになります。 はじめるExSum フレームワーク プログラムも記事とともにリリースされています。「モデルの説明」の旅を始めるには、pip install exsum を実行するだけです。 ExSum は主に、テキスト バイナリ分類モデルの ExSum ルールの確認と変更に使用されます。ExSum ルールとルール セットのクラス定義が含まれています。Flask サーバーに基づいて、ルールとルール セットのインタラクティブな視覚化も実行できます。 コードリンク: https://github.com/YilunZhou/ExSum チュートリアルリンク: https://yilunzhou.github.io/exsum/documentation.html ExSum GUI を実行すると、プログラムが主に 5 つのパネルに分かれていることがわかります。 パネル A はルールの構成構造を示しています。すべてのルールが選択されるわけではありません。たとえば、A はルール 2 と 7 が使用されないことを意味しますが、各ルールは最大で 1 回しか使用できません。 ルールを選択すると、そのルールを含まない対事実的 (CF) ルール セットが自動的に計算され、ユーザーはその限界寄与を直感的に理解できるようになります。2 行目は、CF ルール セットの構造を示しています。 パネル B ではすべてのルールがボタンに変換され、ユーザーはルールをクリックして詳細を確認できます。下部にはリセットボタンと保存ボタンがあります。 [リセット] ボタンをクリックすると、ルール内のパラメータ値に加えられたすべての変更が破棄されます (パネル D)。一方、[保存] ボタンをクリックすると、現在のルール セットのコピーが指定されたディレクトリに保存されます。 パネル C には、完全なルール セット、CF ルール セット、および選択されたルールに対して計算されたメトリックが数値とグラフの両方の形式で表示されます。ルールに変更を加えると、これらの値の再計算と更新が自動的にトリガーされます。 パネル D には、選択したルールのパラメータがリストされます。これらのパラメータは、入力するかスライダーを使用して手動で変更できます。 さらに、AutoTune ツールボックスを使用してパラメータを自動的に調整することもできます。 パネル E には、特定のデータ インスタンスのルールとルール セットが表示されます。これには、ルール セット全体の表示と選択したルールのみの表示を切り替えたり、文全体の表示と文中の FEU のみの表示を切り替えたり、データを再ランダム化して新しいインスタンス バッチを表示したりするために使用される 3 つのコントロール ボタンが含まれます。 予測が正しい場合(しきい値として 0.5 を使用)、テキストは緑色になり、そうでない場合は赤色になります。 単語の下線は、その単語が選択したルールまたはルール セットの対象であることを示し、対象となっている単語の場合、太字は動作機能に従って有効であることを示します。 各単語の上にマウスを置くと、数値プロパティ値と、その単語に適用されるルール(存在する場合)を示すツールヒントが表示されます。下の画像は例を示しています (この場合、「severe」という単語は太字ではないため、ルール 19 は効果がありません)。 |
<<: 数学者を助けたいなら、人工知能の意味は何でしょうか?
>>: 長さ 0.3 メートルのロボットが 99 フィートの高さまでジャンプできます。ネイチャー誌が、将来月面に着陸できるジャンプロボットを発表
[[241804]]ビッグデータダイジェスト制作編纂者:大迪、彭耀慧、茶曦、唐元、夏亜偉金融の世界...
人類の進化の歴史を振り返ると、時代のあらゆる変化は不可逆的であることに気づくのは難しくありません。な...
ショートビデオの推奨やソーシャル推奨などのアプリケーションシナリオでは、推奨システムは大量の急速に変...
こんにちは、みんな。最近はAIGCのコンテンツを研究しており、公式アカウントのコンテンツを長い間更新...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
[[384489]]広告システムに取り組んでいたとき、接続されたプラットフォーム上のほとんどの広告シ...
人工知能が私たちの生活に大きな利便性をもたらすことができるのは、その背後に多くの機能があるからです。...