[詳細] 人工知能を私たちが理解することは決してできないというのは本当でしょうか?

[詳細] 人工知能を私たちが理解することは決してできないというのは本当でしょうか?

音声認識から言語翻訳、囲碁ロボットから自動運転車まで、あらゆる分野で人工知能による新たな進歩が起こっています。現代のニューラル ネットワークは興味深いものですが、同時に厄介な問題にも直面しています。それは、その仕組みを誰も理解しておらず、いつ故障するかを誰も予測できないということです。このため、神秘的で予測不可能なニューラル ネットワークに賭けることに躊躇する人が多くいます。

ニューラル ネットワークでは、データは各ステップでいくつかの簡単な変換を経ながら、あるレイヤーから別のレイヤーに渡されます。入力層と出力層の間には複数の隠し層があり、また多数のノード グループと接続があります。多くの場合、人間が解釈できるパターンはなく、入力や出力との明らかなつながりもありません。 「ディープ」ネットワークは、多数の隠し層を持つニューラル ネットワークです。

現代の機械学習アルゴリズムでは、解釈可能性と正確性の両方を実現することは困難です。ディープラーニングは精度が最も高いですが、解釈可能性は最も低くなります。


記事の全文は次のとおりです。

ドミトリー・マリオウトフ氏は、IBM の研究科学者として何を構築したのか、はっきりとは語れなかった。彼の仕事の一部は、IBM の顧客が直面している困難な問題を解決するための機械学習システムを構築することです。たとえば、彼はかつて大手保険会社向けのプログラムを書いたことがあります。このタスクは非常に困難であり、非常に複雑なアルゴリズムのセットを必要とします。マリオトフ氏は、プロジェクトの結果を顧客に説明するのに頭を悩ませていた。 「彼らは機械学習の訓練を受けていなかったので、モデルを説明することができませんでした。」

実際、これらの顧客がすべて機械学習の専門家であったとしても、役に立たない可能性があります。マリオトフ氏が構築したモデルは人工ニューラルネットワークであるため、特定の種類のデータ内のパターンを見つける必要があります。上記の例では、このデータは保険会社の顧客記録です。このようなネットワークは半世紀にわたって実用化されてきましたが、近年ますます普及しています。音声認識から言語翻訳、囲碁ロボットから自動運転車まで、あらゆる分野でこの技術による新たな進歩が見られてきました。

現代のニューラル ネットワークは興味深いものですが、同時に厄介な問題にも直面しています。それは、その仕組みを誰も理解しておらず、いつ故障するかを誰も予測できないということです。

機械学習の専門家リッチ・カルアナ氏とその同僚が数年前に報告した事件を例に挙げましょう。ピッツバーグ大学医療センターの研究チームは機械学習技術を使用して、肺炎患者が重篤な合併症を発症するかどうかを予測しました。病院側は、合併症リスクが低い患者を外来治療に移すことで、より多くのベッドとスタッフを解放したいと考えている。研究チームは、人間が理解できる明確なルールを生成するさまざまなニューラル ネットワークやソフトウェア生成の決定木など、いくつかの異なるアプローチを試しました。

ニューラルネットワークの精度は他の方法よりも高くなります。しかし、研究者と医師が意思決定ツリーによって提案されたルールを分析したところ、いくつか気になる結果が見つかった。あるルールによると、医師は肺炎患者に喘息を併発している場合、合併症を起こしやすいことを知っているにもかかわらず、退院させるべきであるという。

モデルは指示されたとおりに、データ内のパターンを見つけ出しました。それほど不適切なアドバイスが出された理由は、実はデータの偶然によるものでした。病院の方針により、喘息を伴う肺炎患者は集中治療を受けます。この政策は非常に効果的であるため、喘息患者が重篤な合併症を発症することはほとんどありません。この追加ケアにより病院の患者記録が変更されたため、アルゴリズムはまったく異なる結果を予測しました。

この研究は、アルゴリズムの「説明可能性」の価値を十分に実証しています。 「ルールベースのシステムが、喘息があると合併症のリスクが減るというルールを学習すれば、ニューラル ネットワークもそれを学習するでしょう」とカルアナ氏は説明する。しかし、人間はニューラル ネットワークを読むことができないため、その結果を予測するのは難しい。マリオトフ氏は、解釈可能なモデルがなければ、「このシステムは実際に人を殺してしまう可能性がある」と指摘した。

このため、神秘的で予測不可能なニューラル ネットワークに賭けることに躊躇する人が多くいます。 Mariotov は、クライアントに 2 セットのモデルを提供しています。1 つは正確ですが理解が難しいニューラル ネットワーク モデルです。もう 1 つは、クライアントにわかりやすい言葉でその仕組みを説明できるルールベースのモデルです。保険会社は精度に関して極めて高い要件を課しており、1 パーセントでも重要なのに、クライアントは精度の低い 2 番目のモデルを選択しました。 「彼らは2番目のモデルの方が理解しやすいと感じました」とマリオトフ氏は言う。「彼らは直感性を重視しました。」

ニューラルネットワークの神秘的な性質が影響力を増すにつれ、政府さえも注目し始めています。欧州連合は2年前、国民に「説明を求める」権利を与え、アルゴリズムによる決定はオープンかつ透明であるべきだと提案した。しかし、立法者が「透明性」の意味を明確にしていないため、法案の施行は難しいかもしれない。この省略が議員らが問題を見落としたためなのか、それとも問題が複雑すぎると感じたためなのかも不明だ。

実際、この用語を定義することはまったく不可能だと主張する人もいます。現在、ニューラル ネットワークが何を行うかはわかっていますが (結局のところ、ニューラル ネットワークは単なるコンピューター プログラムです)、それがどのように、またはなぜ行われるかについてはほとんどわかっていません。ニューラル ネットワークは、何百万もの独立したユニット、つまりニューロンで構成されています。各ニューロンは、多数のデジタル入力を単一のデジタル出力に変換し、それを別のニューロンまたは複数のニューロンに渡すことができます。人間の脳と同じように、これらのニューロンはいくつかの「層」に分かれて構成されています。セルのグループは、次の層のセルから入力を受け取り、出力を前の層に渡します。

ニューラル ネットワークは、大量のデータを入力し、ネットワークが既知の結果 (通常はいくつかのカテゴリに分類されます) に可能な限り近い出力を計算するまで、レイヤー間の接続を継続的に調整することでトレーニングできます。この分野は、ディープ ネットワークを迅速にトレーニングできるいくつかの新しい技術のおかげで、近年急速に成長しています。ディープ ネットワークでは、最初の入力と最終出力の間に多くのレイヤーが存在します。写真の微妙な違いに基づいて写真を分類し、さまざまなカテゴリに分類できる、AlexNet と呼ばれる有名なディープ ネットワークがあります。ネットワークには 6,000 万を超える「重み」が含まれており、ニューロンは重みに応じて各入力に異なる量の注意を払います。 「ニューラルネットワークを理解するには、6000万の重みすべてをある程度理解する必要がある」と、コーネル大学とAIスタートアップ企業ジオメトリック・インテリジェンスに所属するコンピューター科学者、ジェイソン・ヨシンスキー氏は語る。

たとえこの解釈が可能であったとしても、必ずしも良いことではないかもしれません。解釈可能性の要件は、システムの機能を制限することと同等であり、モデルが入力データと出力データのみに焦点を当てて「純粋な」ソリューションを提供することが不可能になり、精度が低下する可能性があります。米国国防総省国防高等研究計画局のプロジェクトマネージャー、デビッド・ガニング氏は、かつてある会議でこのことを要約した。彼が示した図では、ディープニューラルネットワークは現代の機械学習手法の中で最も理解が難しいが、ルールベースで効率よりも説明可能性を重視する決定木は最も理解しやすい。

最新の機械学習技術は、開発者に選択肢を提供します。結果を正確に知りたいのか、それとも正確さを犠牲にして結果が生じた理由を理解したいのか。 「なぜ理解するか」は、戦略を立て、適応し、モデルが失敗する可能性がある時期を予測するのに役立ちます。そして、「結果を知る」ことで、適切な行動をすぐに取ることができます。

これは本当にジレンマです。しかし、一部の研究者は、ディープネットワークの仕組みを理解しながら、その多層構造を維持できれば最善ではないかと示唆しています。驚くべきことに、最も有望な研究機関の中には、ニューラル ネットワークを純粋数学の対象としてではなく、生物学の考え方に従って実験対象として扱っているところもあります。ユシンスキー氏はまた、「動物や人間を理解するのと同じ方法で、ディープ ネットワークを理解しようとした」と述べた。同氏と他のコンピューター サイエンティストは生物学研究の手法を借用し、神経科学者が人間の脳を研究するのと同じ方法でニューラル ネットワークを研究した。つまり、各コンポーネントの詳細な分析を実行し、各コンポーネントが入力のわずかな変化にどのように反応するかを記録し、一部のコンポーネントを削除して残りのコンポーネントがどのように補正するかを調べた。

科学者たちは、新しいタイプの知能をゼロから構築した後、現在それを分解し、デジタル「顕微鏡」と「メス」を使ってこれらの「仮想臓器」を分析している。

ユシンスキー氏はコンピューターの前に座り、ウェブカメラに向かって話します。カメラからのデータはディープニューラルネットワークに送られ、同時にユシンスキー氏とその同僚が開発したディープビジュアライゼーションソフトウェアツールキットによって分析されます。ユシンスキー氏はいくつかの画面を切り替えながら、ネットワーク内のニューロンを拡大表示しました。 「このニューロンは顔の画像に反応するようです。」人間にもこのニューロンがあり、そのほとんどは脳の紡錘状顔面領域と呼ばれる領域に集中しています。この脳領域は 1992 年に始まった一連の研究によって初めて発見され、人間の神経科学における最も信頼できる観察結果の 1 つと考えられています。脳領域の研究では、陽電子放出断層撮影法などの高度な技術の使用が依然として必要だが、ユシンスキー氏はコードだけで人工ニューロンの詳細な分析を行うことができる。

この方法により、ユシンスキー氏は特定の人工ニューロンを人間が理解できる概念や物体(顔など)にマッピングすることができ、ニューラル ネットワークを強力なツールに変えることができます。この研究では、顔面神経細胞の反応を最も引き起こす可能性のある画像の特徴も特定した。 「目が暗く、唇が赤いほど、ニューロンの反応は強くなります。」

デューク大学のコンピュータサイエンスと電気・コンピュータ工学の教授であるシンシア・ルーディン氏は、こうした「事後解釈」はそれ自体が問題であると考えている。彼女の研究は、刑事判決や医療診断などの分野に応用できるルールベースの機械学習システムに焦点を当てています。これらは人間が解釈を提供できる領域であり、人間による解釈が重要な領域です。しかし、視覚イメージングなどの分野では、「個人の解釈は完全に主観的です」。確かに、顔のニューロンを識別することでニューラル ネットワークの応答を単純化できますが、これがネットワークが探しているものであることをどのように確認できるのでしょうか。偶然にも、人間の視覚システムよりも単純な視覚システムモデルは存在しないという有名な理論があります。 「複雑なシステムが何をしているかについては、多くの説明が考えられます」とルーディン氏は言う。「正しいと『期待する』説明をただ選ぶのですか?」

Yusinski のツールキットは、リバース エンジニアリングを行い、ニューラル ネットワーク自体が「正しくありたい」と望んでいることを見つけることで、上記の問題を部分的に解決できます。このプロジェクトは、意味のない「雪」の画像から始まり、それをピクセルごとに調整し、ニューラル ネットワーク トレーニングの逆プロセスを通じて画像を徐々に修正して、特定のニューロンの応答を最大化する画像を見つけます。この方法を AlexNet ニューロンに適用すると、システムは、見た目はかなり奇妙だがラベル付けされたカテゴリに属する​​奇妙な写真をいくつか生成しました。

これはユシンスキーの主張を裏付けるものと思われる。つまり、これらの顔ニューロンは確かに顔を探していたのだ。しかし、落とし穴があります。これらの画像を生成する際、プロセスは「自然画像事前分布」と呼ばれる統計的制約に依存しているため、結果として得られる画像は実際の物体の写真の構造を模倣します。これらのルールを削除したところ、ツールキットは依然として「最も確信度が高い」とラベル付けした画像を選択しましたが、その画像はテレビの信号が途切れたときに発生する「雪」のように見えました。実際、AlexNet が選択する画像のほとんどは、人間の目には「雪」の混沌のように見えると Yusinsky 氏は指摘しています。 「ニューラルネットワークを騙して極端な結果を生み出せるかは簡単に分かる」と彼は認める。

これらの問題を回避するために、バージニア工科大学の電気・コンピュータ工学助教授である Dhruv Batra 氏は、深層ネットワークの解釈にさらに高度な実験的アプローチを採用しました。彼は、ネットワークの内部構造のパターンを見つけようとするのではなく、視線追跡技術を使用してニューラル ネットワークの動作を分析しました。大学院生のアビシェク・ダス氏とハーシュ・アグラワル氏が率いるバトラ氏のチームは、部屋の窓にカーテンがあるかどうかなど、画像に関する質問をディープネットワークに投げかけた。 AlexNet や同様のシステムとは異なり、Das のネットワークは一度に画像の小さな部分に焦点を当て、質問に答えるのに十分な情報があるとネットワークが判断するまで画像の周囲を「スキャン」します。十分なトレーニングを経ると、このディープ ニューラル ネットワークのパフォーマンスは非常に良好になり、その精度は人間の最高レベルのパフォーマンスに匹敵します。

次に、ダス氏、バトラ氏、および彼らの同僚は、ネットワークがどのように決定を下すかを理解したいと考えています。そこで研究者たちは、ネットワークが画像を見たポイントを分析しました。その結果は彼らを驚かせました。「写真にカーテンはありますか?」という質問に答える際、ネットワークは窓をまったく探さず、まず写真の下部を観察しました。ベッドが見つかると、探すのをやめました。ネットワークのトレーニングに使用されたデータセットでは、カーテン付きの窓は寝室では一般的であると思われます。

この方法は、深層ネットワークの内部動作メカニズムの一部を明らかにする一方で、解釈可能性によってもたらされる課題も浮き彫りにします。 「機械が捉えるのは世界についての真実ではなく、データセットについての真実です」とバトラ氏は言う。これらの機械はトレーニングデータに厳密に合わせられているため、その動作のルールを一般化することは難しい。さらに重要なのは、それがどのように機能するかを理解していないと、どのように失敗するかを予測できないということです。そしてバトラ氏の経験では、失敗すると「大きな損失を被る」ことになる。

この図は、深層ニューラルネットワーク内の単一のニューロン(緑色のボックスでマーク)がユシンスキーの顔の画像に反応している様子を示しています。これは、人間の脳の特定の領域(黄色でマーク)も顔の画像に反応するのと同じです。

この画像は、「Deep Visualization」ツールキットによって生成された「理想的な猫の顔」を示しています。このプログラムは、テレビに信号がないときのような「雪が降った」画像から始まり、AlexNet ニューラル ネットワークの顔面ニューロンが最大の応答を生成するまでピクセルを 1 つずつ調整します。


ユシンスキー氏やバトラ氏のような研究者が直面している障害のいくつかは、人間の脳を研究する科学者にはよく知られているものだ。たとえば、神経画像の解釈はしばしば疑問視されます。 2014年、認知神経科学者のマーサ・ファラーは、フィールドレビューで次のように書いている。「心配なのは、(機能的な脳の)画像が、観察というよりも研究者の発明のようなものだということだ」。この問題は、さまざまな知能システムで繰り返し発生しており、人間の脳と知能の両方の研究にとって大きな障害となることを示唆している。

説明可能性の追求は愚かな試みでしょうか? 2015 年、カリフォルニア大学サンディエゴ校のザカリー・リプトン氏は、「モデルの解釈可能性の神話」と題したブログ記事を公開し、ニューラル ネットワークを解釈する動機と、大規模なデータセットに対して解釈可能な機械学習モデルを構築する価値を批判的に検討しました。彼はまた、マリオトフ氏と2人の同僚が主催した「人間の解釈可能性」に関するワークショップ2016年国際機械学習会議(ICML)で、このテーマに関する物議を醸す論文を発表しました。

リプトン氏は、多くの学者が「説明可能性」という概念に同意していないことを指摘した。つまり、人々は解釈可能性を十分に理解していないか、解釈可能性には意味が多すぎるのだ、と彼は主張するのです。いずれの場合でも、説明可能性の追求は「わかりやすいニューラル ネットワークの出力」に対する私たちの欲求を満たさない可能性があります。リプトン氏はブログ記事の中で、データセットが大きすぎると、研究者はそれを解釈したいという衝動に完全に抵抗し、「経験も成功につながる可能性がある」と信じてしまう可能性があると指摘した。同氏は、この分野の目標の一つは「人間よりもはるかに優れた学習能力を持つモデルを構築すること」であり、説明可能性を重視しすぎると、そうしたモデルがその潜在能力を最大限に発揮することは難しくなるだろうと述べた。

しかし、この機能は機能であると同時に欠陥でもあります。ネットワークの出力がどのように生成されるかを理解しなければ、ネットワークに必要な入力が何であるかを知る方法がありません。 1996 年、英国サセックス大学のエイドリアン・トンプソンは、今日のディープ ネットワークのトレーニングに使用されているものと同様の技術を使用して、ソフトウェアによる回路を設計しました。この回路が実行する必要があるタスクは単純です。2 つのオーディオ トーンを区別することです。何千回もの調整と再配置を経て、ソフトウェアはようやくほぼ完璧に機能する構成を見つけました。

しかしトンプソン氏は、この回路には人間のエンジニアが設計したよりも少ない部品が使用されており、部品の中には他の部品に接続されていないものもあることに驚きました。これらのコンポーネントは、回路がスムーズに動作するために不可欠です。

そこで彼は回路を解剖した。いくつかの実験を行った後、彼は回路の隣接するコンポーネント間に弱い電磁干渉があることを発見しました。回路に接続されていないコンポーネントは、近くの電界に干渉して回路全体に影響を及ぼす可能性があります。人間のエンジニアは通常、結果が予測できないため、このような干渉を避けます。確かに、回路レイアウトが別のコンポーネント セットで複製されたり、周囲温度が変更されたりすると、同じ回路は完全に故障します。

回路は、マシン トレーニングの重要な特徴を明らかにします。つまり、マシン トレーニングは常に可能な限りコンパクトかつシンプルであり、環境と完全に互換性がありますが、他の環境に適応することが困難な場合が多いということです。エンジニアが発見できないパターンを捉えることはできますが、同じパターンが他の場所に存在するかどうかはわかりません。機械学習の研究者は、過剰適合と呼ばれるこの現象を回避しようとします。しかし、これらのアルゴリズムが適用される状況がより複雑かつ多様になるにつれて、この欠陥は必ず明らかになります。

プリンストン大学のコンピューターサイエンス教授であるサンジーヴ・アローラ氏は、この問題が、人間が解釈可能なモデルを追求する主な動機であり、解釈可能なモデルがあればネットワークに介入して調整できると期待していると考えています。アローラ氏は、説明可能性の欠如がマシンのパフォーマンスに課す厳しい制限を反映した 2 つの大きな問題があると述べました。 1 つ目は「構成可能性」です。タスクに同時に複数の決定が含まれる場合 (囲碁や自動運転車など)、ニューラル ネットワークはどの決定がタスクの失敗の原因になったかを効率的に判断できません。 「人間が何かを設計するときは、まずさまざまなコンポーネントが何をするのかを理解し、それらを組み合わせて、現在の環境に適していないコンポーネントを調整します。」

2 つ目は、アローラ氏が「ドメイン適応性」と呼ぶもので、あるコンテキストで学習した知識を他のコンテキストに柔軟に適用する能力です。人間はこの作業が非常に得意ですが、機械はさまざまな奇妙なエラーを犯します。アローラ氏は、人間にとっては簡単に調整できる環境がほんの少し調整されただけでも、コンピュータ プログラムがひどく失敗することがある、と説明しています。たとえば、Wikipedia などの正式なテキストの文法を分析するようにトレーニングされたネットワークは、Twitter などの口語表現に関しては無力です。

このように見ると、説明可能性は不可欠であるように思われます。しかし、私たちは本当にそれが何を意味するのか理解しているのでしょうか?有名なコンピュータ科学者マービン・ミンスキーは、人間の知能を表すのに使用される「意識」や「感情」などの言葉を含むこのタイプの語彙を説明するために「スーツケース・ワード」という用語を使用しました。ミンスキー氏は、これらの言葉は実際にはさまざまな内部メカニズムを反映しているが、それらはすべて「スーツケース」の中に閉じ込められていると指摘した。これらの単語をより基本的な概念の代わりに使用し、これらの語彙だけを学習すると、私たちの思考は言語によって制限されることになります。では、知能を研究する場合、「説明可能性」もそのような「スーツケース型の言葉」なのでしょうか?

多くの研究者は、理論家が最終的にはこの「スーツケース」を開けて、ニュートンの力学原理のように、機械学習(そしておそらく人間の学習も)を支配する一連の統一された法則や原理を発見できるようになるだろうと楽観視しています。しかし、その可能性は低いと警告する者もいる。ニューヨーク市立大学の哲学教授マッシモ・ピグリッチ氏は、神経科学や人工知能において「理解」と呼ばれるものは「クラスター概念」である可能性があり、複数の異なる定義が存在する可能性があると指摘した。もしこの分野に「理解」というものがあるとすれば、それは物理学よりも進化生物学の状況に近いのかもしれません。つまり、私たちが発見するのは「力学の基本原理」ではなく、「種の起源の理論」なのかもしれません。

もちろん、これはディープネットワークが何らかの新しいタイプの自律的な生命の出現を告げることを意味するものではありません。しかし、深層ネットワークは生命そのものと同じくらい不可解です。この分野の漸進的な実験と事後解釈のアプローチは、暗闇の中で理論の光を待つ間の絶望の兆候ではなく、むしろ私たちが望むことができる唯一の光なのかもしれません。説明は、特定のコンテキストに応じて分類ルールが使用され、異なる「種」のカテゴリのように断片的な形式で行われる場合があります。

国際機械学習会議のワークショップの最後に、講演者の一部が「解釈可能性」を定義しようとする議論に参加しました。その結果、誰もが自分の意見を持つことになります。一連の議論を経て、全員が合意に達したようです。モデルが説明可能であるためには、単純さがなければなりません。しかし、シンプルさの定義については意見の相違があります。 「最も単純な」モデルとは、正確には最も少ない機能に依存するモデルを意味しますか?それともプログラムの最小モデルでしょうか?それとも別の説明があるのでしょうか?セミナーの最後まで、誰も合意に達しませんでした。

マリオトフはこう言いました。「シンプルさはシンプルではない。」

<<:  Google、人工知能をより有効活用できるよう複数のAIツールをリリース

>>:  モノのインターネット、人工知能、ブロックチェーン、どれがあなたにぴったりでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

意見:AI主導のテクノロジーが新たな道を切り開く

AI は、通常は人間の知能を必要とする活動を実行できるアルゴリズムを研究および開発するコンピュータ...

サイバーセキュリティにおける AI: 誇大宣伝と現実

人工知能(AI)の可能性は魅力的です。セキュリティ管理者への警鐘。自律的な自己学習ソリューションの力...

AIがデータセンターを管理するのに時間がかかる理由

ハイパースケーラーはすでに業務改善のために AI を活用していますが、他のほとんどのデータセンターで...

2.5 ~ 4 倍の深さで、より少ないパラメータと計算量で、DeLighT はどうやってそれを実現したのでしょうか?

ディープラーニングはパラメータが多すぎる、モデルが大きすぎる、展開が不便、そしてコンピューティングリ...

...

データ収集からディープラーニングまで(メリットも含む)

[[204864]]機械学習 (ML) は、確率論、統計、近似理論、凸解析、アルゴリズム複雑性理論...

機械分野におけるLDAトピックモデルを説明する記事

[[211903]]序文このブログ投稿では、第一レベルの数学的導出の観点から LDA トピック モデ...

Google のような大企業を辞めた後、彼らはどうやって次の仕事を見つけるのでしょうか?

今年上半期、中国と米国のインターネット・テクノロジー企業は、程度の差はあれ、レイオフや人員削減を経験...

AIRankingsが世界の大学AIランキングを発表

今年も大学入試シーズンがやってきました。私が大学受験をしていた頃には、この言葉が流行っていたのを覚え...

...

人工知能アルゴリズム: 遺伝的アルゴリズム

この本の最初の 2 章では、進化アルゴリズムをやや抽象的な意味で定義しています。スコアリング、選択、...

Meta と Microsoft が、開発者が生成型 AI アプリケーションを構築できるようにオープンソース モデル Llama 2 をリリース

7月19日、MetaとMicrosoftは協力して、研究や商用目的で無料で使用できるMetaの次世代...

...

...