スタンフォード大学、AIがシマウマを犬と誤認する理由を発見

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

それは明らかにシマウマなのに、なぜ AI はそれを犬だと言っているのでしょうか?

分類モデルは、画像を分類するときに誤った決定を下すことがあります。

学習後、AI はいくつかの予測を間違えることもありますが、これは何らかのリンクの間違いが原因であるに違いありません。

論文では、スタンフォード大学の 2 人の博士課程の学生と James Zou 教授が、分類モデルが間違いを犯す理由について調査しました。

次に、この論文では概念的反事実的説明という方法を提案し、その有効性を評価します。

このアプローチにより、モデルの分類基準を再定義して、AI が間違いを犯す理由を説明できるようになります。

一緒に見てみましょう。

AIはなぜ間違いを犯すのでしょうか?

分類モデルのその後の予測の精度を向上させたい場合は、まずモデルのどこで間違いが生じたかを理解する必要があります。

一般的に、AI が予測を間違える理由は以下のとおりです。

まず、モデルの実際の予測プロセス中に、分類基準が事前トレーニング中の基準から逸脱する可能性があり、その結果、トレーニングモデルが実際の予測プロセスで効果を発揮しなくなり、予測結果の精度が低下します。

たとえば、病理学者は事前にトレーニングされたモデルを使用して組織病理学画像を分類しますが、そのモデルは病理学者の画像ではうまく機能しません。

これは、元のトレーニングデータと比較して、画像の色調が異なることが原因である可能性があります。

第二に、モデルが学習するにつれて、一見無関係な要素を識別された画像に関連付ける「疑似相関」と呼ばれるものを学習する場合があります。

次の例をご覧ください:

モデルのトレーニングプロセス中に、サンプル内の犬の写真にはすべて雪が積もっていたため、モデルは雪と犬を関連付け、雪のない犬は犬ではないと誤って予測しました。

これは、使用されるデータセットがすべて同じシナリオで収集され、モデルの一般化を妨げる可能性があるためです。

さらに、モデルをトレーニングする際に人為的な偏差が生じる可能性があります。

たとえば、ある皮膚科医は、画像内の皮膚疾患を分類するように訓練された AI を使用しましたが、他の同僚には同じ結果は得られませんでした。

これは、トレーニングサンプルでは肌の色が均一で、年齢分布が狭いためと考えられます。

AI が「間違いを犯す」理由がわかったところで、モデルのどこでエラーが発生したかを正確に判断するにはどうすればよいでしょうか。

AIは間違いを犯す、と説明

ジェームズ・ゾウは論文の中で、反事実的概念説明(CCE)と呼ばれる手法を提案しました。

具体的には、この方法は入力データと予測結果の関係を調査し、最終的にモデル内のエラーを見つけるために使用されます。

それで、CCE はそれをどのように説明するのでしょうか?

コンセプトライブラリの定義

まず最初に、概念ライブラリ C を設定して改良すること、つまり分類標準を作成することです。

具体的には、概念ライブラリCの各概念は、デバイスc1 （街路、雪など）、画像品質c2 （鮮明、ぼやけなど）などの画像の分類に使用できます。

このようにして、解釈可能な概念ライブラリのセット C={c1, c2, …} を取得できます。

次に、各概念に対応するトレーニングデータを見つける必要があります。

具体的には、一貫性のある例(Pci)と一貫性のない例(Nci)を収集することであり、一般的にその数は同じである必要があります(Pci=Nci=100) 。

CCE は、それぞれの概念について、その分類方法と「思考方法」を学習します。

2つの方法:

1つは、サポートベクターマシン（SVM）を学習して、2つのものを最適に区別できるアルゴリズム（線形分類器）を見つけることです。

もう 1 つは、対応する概念活性化ベクトル(CAV)を学習することです。これを使用して、画像が誤分類される具体的な理由を説明することができます。

以下の写真のように、どちらもシマウマの画像ですが、誤分類の理由は異なります。

この手順は、評価するモデルごとに 1 回だけ実行すればよく、その後は CAV を使用して任意の数の誤分類を説明できます。

エラー分類基準を考慮すると

モデル内のさまざまな概念の重みを変更することで、分類基準を適宜調整できます。これらの調整は、次の原則を満たす必要があります。

1. 正確性: 分類基準が期待される結果を達成する場合、それは正しいとみなされます。

2. 妥当性: 分類基準は人間の基本的な認知に違反してはならない。

3. スパース性: 最終的な目標は、モデルのエラーをユーザーに伝えることです。変数が多すぎると、情報を効果的に伝えることができません。

私たちの目標は、予測結果をトレーニング結果にできるだけ近づけること、つまりクロスエントロピー損失を最小限に抑えることです。

そのため、最終的に誤分類を修正する効果が得られるように、モデルの予測基準を継続的に最適化し、修正する基準を調整し、重み付けする必要があります。

これを理解したところで、CCE を使用して分類モデルのエラーを「検出」する方法を実際の例で確認してみましょう。

ここで、分類モデルはシマウマの画像を誤ってアフリカの狩猟犬として識別しました。

そこで、まず、モデルがシマウマを犬として識別するための一連の基準を生成しました。

これらの基準はスコア付けされ、スコアがプラスの場合、この概念を画像に追加すると正しい分類の可能性が高くなり、その逆も同様です。

この例では、縞模様の概念が追加されると、シマウマとして識別される確率が高くなります。

図c)では、CCE分析を通じて、「水玉」と「犬」がモデルの予測エラーの原因であることが直感的にわかります。

CCE はどれくらい効果的ですか?

これを読んだ後、誰もが CCE の原則について予備的な理解を得たと思います。

それで、その判断はどれほど正確で、その効果はどのようなものでしょうか?

CCE の主な目的は、トレーニングプロセス中にモデルによって学習された「疑似相関」を明らかにすることです。画像に表示されるその他の「無関係な要素」や画像の疑似相関をキャプチャするために使用できます。

テストの結果、ほとんどの場合、モデルは誤分類されたテストサンプルの90% 以上で誤った相関関係を識別することがわかりました。

この表を見ると、他の方法と比較して、CCE を使用すると、サンプル内の偽の相関関係を識別する可能性が最も高くなります。

CCE は、次の例に示すように、サンプル内の偽の相関関係を正確に識別できます。

リンゴの画像の色を変更すると（灰色にする） 、分類モデルがエラーを識別する確率が増加し（黒線） 、誤った相関関係として「緑」を識別する CCE のスコアが高くなります（緑線） 。

さらに、CCE は医療分野でも活用できる可能性があります。

Abubakar Abid らは CCE を使用して、胸部 X 線画像における皮膚科(皮膚疾患の分類)および心臓病学(気胸の分類)の関連テストを実施しました。

CCE は学習したバイアスと画像品質条件を使用してモデルエラーを説明しますが、これは専門の皮膚科医によっても確認されています。実際、これらの要因が皮膚画像を分類するのが難しい主な理由です。

さらに、CCE も非常に高速です。

コンセプトベースは、単純なサポートベクターマシンを使用して 1 回学習するだけで済み、単一の CPU でテスト例ごとに0.3 秒未満しかかかりません。

重要なのは、あらゆるディープネットワークに簡単に適用でき、トレーニングデータを必要とせずにモデルが間違いを犯す理由を検出できることです。

この方法に興味があり、自分で試してみたい場合は、下のリンクをクリックして確認してください。

著者について

この論文の責任著者であるジェームズ・ゾウ氏は、スタンフォード大学の生物医学データサイエンス学部およびコンピューターサイエンス・電気工学部の助教授です。

彼は2014年にハーバード大学で博士号を取得し、マイクロソフトリサーチのメンバー、ケンブリッジ大学のゲイツ奨学生、カリフォルニア大学バークレー校のサイモンズフェローを務めました。

彼の研究は、スローンフェローシップ、NSF CAREER 賞、Google、Amazon、Tencent からの AI 賞によってサポートされています。

アブバカール・アビド氏（前）とマート・ユクセゴヌル氏（後）は、この論文の第一著者であり、両者ともスタンフォード大学の博士課程の学生である。

<<: チップ大手は、写真を撮ることよりも面白くないこれらの新しいAI技術を秘密裏に開発している

>>: 顧客サービスの応答時間を短縮して潜在顧客の喪失を回避する方法

GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します

ブログ

第四次産業革命：人工知能

ブログ

ハト駆除に関しては、自律型ドローンが究極の藁人形になるかもしれない

ブログ

機械学習: TensorFlow 2.0 の 10 のヒント

ブログ

自動運転車は歩行者に意図を伝えることができるか？

ブログ

このCVデータセットジェネレーターは人気があり、DeepMindなどが作成した13種類のCVタスクをサポートしています。

ブログ

Panda-Gym のロボットアームシミュレーションを使用したディープ Q 学習強化学習

ブログ

クラウドベースのAIモバイルアプリケーションは今後も成長し、改善され続けるだろう

ブログ

スタンフォード大学、AIがシマウマを犬と誤認する理由を発見

AIはなぜ間違いを犯すのでしょうか?

AIは間違いを犯す、と説明

コンセプトライブラリの定義

エラー分類基準を考慮すると

CCE はどれくらい効果的ですか?

著者について

GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します

第四次産業革命：人工知能

ハト駆除に関しては、自律型ドローンが究極の藁人形になるかもしれない

機械学習: TensorFlow 2.0 の 10 のヒント

自動運転車は歩行者に意図を伝えることができるか？

このCVデータセットジェネレーターは人気があり、DeepMindなどが作成した13種類のCVタスクをサポートしています。

Panda-Gym のロボットアームシミュレーションを使用したディープ Q 学習強化学習

クラウドベースのAIモバイルアプリケーションは今後も成長し、改善され続けるだろう

推薦する

ディープラーニングフィードフォワードニューラルネットワークの簡単な紹介

機械学習エンジニアとデータサイエンティストの戦い

ザッカーバーグの45分間の詳細なインタビュー：今後10年間のVRと脳コンピューターインターフェースへの野望を明らかにする

世界のAI支出は2024年に1100億ドルに達すると予想

データサイエンティストが最もよく使用するアルゴリズム10選

AIロボットの出現により、運転訓練業界における知能の新たな章が開かれた。

AIストレージプラットフォームが機械学習とデータ分析のニーズを満たす方法

機械学習クラウドプラットフォームにはどのような機能が必要ですか?

JD.com がオープンソースの顔認識ツールキットを公開: 最も強力なモデルをカバーし、トレーニングとスコアの実行をサポート

人工知能はスマートシティの夢の実現にどのように役立つか

「人工知能」の発展を合理的に扱う