「機械は人間を攻撃できるか?」という疑問は、世界中の会議やソーシャルチャットの議論のテーブルで浮上しています。この疑問は、ターミネーターなどの映画のシーンや映像によく伴いますが、ビッグデータにおける AI の使用について私たちが知っていること、そして目にしていることは、より複雑な環境を持つ大規模なシステムを設計する際には、特定の不確実性とバイアスを考慮する必要があるということです。 機械は何を「感じる」のでしょうか? 機械の動作がメインフレームにプラグインされたコードと異なるのはなぜでしょうか? アイザック・アシモフの 3 つの法則は、複雑な環境における機械の動作の標準を定義する上で、今日でも有効でしょうか? これらの質問の答えは、ゲームのルールを定義する方法と、機械が突然の変化にどのように反応するかにあります。 AI研究において、倫理的バイアスとは、機械を時には奇妙に、あるいは有害にさえ見えるような動作をさせる仕掛けや手段に関わる、不確実性の特に大きな領域です。無人運転車や AI を活用した生産方式の台頭が世界を席巻する中、未解決の疑問が再び答えを求めています。これらの機械をどうすればよいのでしょうか? こちらもご覧ください: AI は自らを監視して偏見を減らすことができるか? バイアスの紹介 データの観点から見ると、バイアスと分散は測定値が実際の値にどれだけ近いかに関係します。この場合、分散は測定値が互いにどれだけ異なるかを示す尺度であり、バイアスは測定値が実際の値からどれだけ異なるかを示します。高精度のモデルの非常に特殊なケースでは、分散とバイアスの両方が小さくなります。 ただし、これは新しいデータに対するモデルのパフォーマンスがいかに悪いかを反映している可能性があります。しかし、低いバイアスと分散を達成するのは難しく、あらゆる場所のデータアナリストにとって悩みの種となっています。単純なバイナリ計算では不十分な単純な決定を伴うユースケースでは、バイアスの処理が特に困難です。 偏見がどのようにしてシステムに入り込むのか疑問に思うかもしれません。そして、機械が人間と同じように重要な時点で決定を下せないのであれば、そもそもなぜ機械を使うのでしょうか? これらの質問に答えるには、ビッグデータの世界でモデルがどのように構築されるかという一般的なアプローチを検討する必要があります。 まず、アクチュエータとセンサーからデータが収集され、クリーンアップされて、アナリストに生データが提供されます。次に、これらの値は前処理ステップを経て、正規化、標準化、または次元と単位を削除する形式に変換されます。データが適切な表形式またはカンマ区切り形式に変換されると、レイヤーまたは関数方程式のネットワークに挿入されます。モデルが一連の隠し層を使用する場合、各ステップでバイアスを導入する活性化関数が必ずあるので安心してください。 しかし、多くの収集方法の落とし穴を通じて、偏見がシステムに入り込む可能性もあります。特定のグループまたは出力カテゴリに対してデータのバランスが取れていないか、データが不完全/間違っているか、そもそもデータが存在しない可能性があります。 データ セットが大きくなり、文書化が不完全になるにつれて、システムが事前に定義された値でギャップを埋める可能性が高くなります。これにより、別の仮定バイアスが発生します。 ブラックボックス問題 多くの学者は、適切な文脈がなければ数字は同じ意味を持たない可能性があるとも考えています。たとえば、物議を醸した書籍『ベルカーブ』では、人種グループ間の IQ の違いに関する著者の主張が、環境的制約と違いという概念によって疑問視されました。しかし、人間がそのような解決策に到達できるのであれば、機械がそのような論理的な判断ミスを元に戻すのにどれくらいの時間がかかるのでしょうか? 可能性は低いです。機械に間違ったデータや誤ったデータが入力されると、間違った値が出力されます。この問題は、AI モデルの構築方法が曖昧であることから生じます。これらは通常、内部の内容を説明することなくデータ シンクおよびデータ ソースとして存在するブラック ボックス モデルです。ユーザーにとっては、このブラック ボックス モデルがどのようにして結果を導き出したのかを疑問視したり、異議を唱えたりすることはできません。さらに、結果の不一致により、追加の問題に対処する必要があります。 ブラックボックスの動作を理解していないため、アナリストは同じ入力であっても異なる結果に到達する可能性があります。精度が重要な要素ではない値の場合、この変更による影響は大きくない可能性がありますが、データ ドメインがそれほど寛大になることはめったにありません。 たとえば、AI システムが pH、温度、気圧などの非常に具体的なパラメータを予測できない場合、工業メーカーは損失を被ることになります。しかし、ローンの適合性、犯罪歴の再犯、さらには大学入学の申請などの質問に対する答えを見つけることが目標である場合、AI には明確な価値がないため、不利になります。しかし、この問題に別の角度からアプローチするのは AI 愛好家の責任です。 各コード行と係数が何を表しているかを説明するには、レイヤー間の干渉の方法とルールに対処する必要があります。したがって、機械が動く仕組みを理解するには、ブラックボックスを根こそぎ掘り出して解剖する必要があるが、これは言うほど簡単ではない。最も単純なニューラル ネットワーク AI を見ても、そのようなシステムがいかに原始的であるかがよくわかります。ノードとレイヤーはすべて積み重ねられ、個々の重みは他のレイヤーの重みと相互作用します。 訓練された人間にとっては、これは大したことのように見えますが、理解力のある機械にとってはほとんど意味がありません。それは単に人間と機械の言語レベルの違いによるものでしょうか?機械の言語のロジックを素人でも理解できる形式で分解することは可能なのでしょうか? バイアスの種類 データ分析におけるバイアスの歴史を振り返ると、分析を担当する組織における誤った手法や事前定義されたバイアスによって導入される可能性のあるバイアスには、いくつかの種類があります。プログラマーの特定の傾向や関心により、モデルの方向性が誤っているために、誤った仮定や偏見が生じる可能性があります。 これは、リードを扱う際に一部のマーケティングアナリストが犯す一般的な間違いです。収集ソフトウェアは、コンバーターと非コンバーターに関する豊富なデータを提供します。おそらく多くの人は、両方の人口層をターゲットとするモデルに焦点を当てるのではなく、コンバージョンに至らなかったリード専用のモデルを構築したくなるでしょう。そうすることで、顧客として利用できるデータの豊富さに気づかなくなってしまうのです。 AI モデルを悩ませるもう 1 つの問題は、データを正しく分類または誤分類できないことで、最終的にはアナリストにとって大惨事につながります。製造業界では、このようなエラーはタイプ I とタイプ II のカテゴリに分類されます。前者は、属していないレコードが分類される場合であり、後者は、属するレコードが分類できない場合です。生産バッチの観点から見ると、品質管理エンジニアは製品のごく一部だけをテストすることで、製品の精度を迅速に向上させることができます。時間と費用は節約できますが、このような仮定バイアスが発生するには理想的な環境になる可能性があります。 もう一つの類似した例は画像検出ソフトウェアで見られ、ニューラル ネットワークが画像の損傷部分をスキャンして論理的な形状を再構築します。画像内のオブジェクトの向きの類似性により、モデルが驚くほど物議を醸す結果をもたらす可能性のあるいくつかの問題が発生する可能性があります。現在の世代の畳み込みニューラル ネットワークは、この複雑さを因数分解できますが、妥当な結果を生成するには大量のテスト データとトレーニング データが必要です。 バイアスの一部は、正しいデータの不足(および不必要に複雑なモデルの使用)によって発生します。一般的に、特定のモデルとニューラル ネットワーク プログラミングは、データセットが統計的に有意な数のレコードに達した後にのみ、データセットに適用する必要があると考えられています。これはまた、再現可能かつタイムリーな方法でデータの品質をチェックするようにアルゴリズムを設計する必要があることも意味します。 AIとAIの戦い AIバイアスの問題に対する解決策はAI自体にあるのでしょうか?研究者は、アナリストが情報を収集してセグメント化する方法を改善し、すべての情報が必要なわけではないことを考慮することが重要だと考えています。 そうは言っても、モデルを完全に不適切にする入力と値を排除して削除することにもっと重点を置くべきです。データ監査は、バイアスをタイムリーに検出して排除するもう 1 つの方法です。標準的な監査手順と同様に、このアプローチでは、処理されたデータと元の入力データの徹底的なクレンジングと検査が行われます。監査人は変更を追跡し、データに加えられる改善点を記録し、すべての関係者に対してデータの完全な透明性を確保します。 特殊な XAI モデルも疑わしいため、適切な場合は問題テーブルに配置できます。これらのモデルには、すべてのステップと変更が文書化された非常に詳細なパラメトリック モデル開発が含まれており、アナリストは潜在的な問題を正確に特定してインスタンスをトリガーできます。 AI は、ROC 曲線や AUC 曲線などの単純なツールに頼るのではなく、モデルの精度と混同行列を検証する最前線にも立つようになりました。これらのモデルは、データセットを展開する前に繰り返し品質チェックを実行することに重点を置いており、分布や形状に関係なく、データのクラス全体をカバーしようとします。この事前テスト済みの性質は、単位と範囲の違いが入力間で大きく異なるデータセットではさらに困難になります。同様に、メディア関連のデータの場合、コンテンツを分解してデジタル形式に圧縮するのにかかる時間によって、依然としてバイアスが生じる可能性があります。 しかし、データの透明性と第三者による検査の基本における新たな変化のおかげで、企業は少なくとも何かがおかしいことに気づいている。ほとんどの AI モデルに存在するブラック ボックスを強調するために、モデル間に新しい説明ループも挿入されます。これらも、不一致やエラーを探すために体系的に微調整された AI モデルによって実行されます。 AI倫理違反の事例がいくつか データ アナリストは、偽陰性と偽陽性の概念に精通しています。出力を決定する際のこれらの違いは、特殊なケースではエラーにつながり、人員に悪影響を及ぼす可能性があります。偽陰性プットとは、システムが陽性クラスを誤って陰性クラスとして識別することです。同様に、陰性のクラスが誤って陽性と識別された場合にも、偽陽性が発生します。 このような誤った事例の重大性は、実際のビッグデータ研究でよりよく理解できます。ロジスティック回帰モデルを用いた冠動脈疾患(CHD)のモデル化の有名なケースでは、偽陽性率と偽陰性率の精度は高かったものの、混同行列によって多数の平均的な人にとっては、正確なモデルが、唯一重要な「成否を分ける」チェックのように思えるかもしれません。しかし、データ分析の初期段階でも、そのようなモデルがうまく機能しなかったり、新規患者を誤診したりすることが明らかでした。 トレードオフは、より多くのデータ ストリームを収集し、列をクリーンアップしてデータの正規化を向上させることで行われます。今日では、このステップは業界の定番となっています。 ウーバーの自動運転車が試験段階で事故を起こしたことは、業界の専門家が注目している唯一の危険信号ではない。こうした懸念は、認識や機械知覚など他の分野にも及んでいます。テクノロジー大手アマゾンは、同社のビジネスモデルが女性に対する「性差別」とメディアが呼ぶものを生み出すようになったとして、メディアの厳しい監視を受けている。 憂慮すべき候補者の偏見(ハイテク企業の求職者で以前に見られた)のケースでは、モデルは男性の応募者よりも女性の応募者に対してより多くの否定的なコンプライアンスを生成しました。一方、Appleなどのテクノロジー大手でも、消費者がFaceIDを大々的に宣伝し、異なるユーザーがロックされた携帯電話にアクセスできるようにしたことで問題が発見されている。検出のために顔の表情を認識するために使用されるモデルは、異なる人に対しても同様の結果を生み出す可能性があると主張する人もいるかもしれません。 エンジニアがエラーの排除にこだわり、疑わしい入力が仮定に偏りを生じさせたと結論付けるのは時間の問題でした。医学における AI の大きな進歩は、倫理的価値観の統合に失敗したために、一歩後退してしまいました。旅の途中で看護師やスタッフの価値観を変えることができます。これは主に、機械が人間の代わりに正しく実行し、まったく同じ決定を下すことができる可能性のあるすべての例を説明することによって対処されます。しかし、哲学を学ぶ人々は、人間ですら一連のガイドラインに従わないと主張するかもしれません。倫理学には、カント主義、平等主義、功利主義などさまざまな学派があります。これらの学派がさまざまな倫理的ジレンマにどのように当てはまるかは、個人とその関心によって異なります。 有名なトロッコのケースでは、人がレバーを引くか引かないかの傾向は、その人が属する道徳的枠組みによってのみ決定されます。機械が意思決定者に取って代わると、説明責任の問題は曖昧になります。 結論 - AIをより倫理的にする方法 これらのシステムに対する私たちの許容範囲はどこにあるかという永遠の疑問は、機械を私たちの日常活動に取り入れることにつながります。人工知能は、輸送、予測研究、金融投資、セキュリティ、通信、生産などの人命救助と支援の枠組みの基礎となっています。それは多くの反対者を引き付けることなく、人間生活のあらゆる重要な側面に浸透してきました。 AI が、それを作った人間が従う哲学を組み込むことができなかったときに、境界線が引かれます。機械が公平であると考えられていたエフゲニー・ザミャーチンやアラン・チューリングの時代と比べて、私たちははるかに進歩しています。 AIに道徳を教えることで機械に新たな命を吹き込むことは、人間とは何かという根本的な問いにかかわる課題です。 健全な倫理的枠組みを構築するには、AI を本質的な部分にまで削ぎ落とし、コンテキストと結果の質を重視するアプローチを取る必要があることが今ではわかっています。職場の多様性の基本と同様に、手順は簡単です。
|
<<: 世界AIトップ100リストが発表、中国企業6社が選出
>>: 効果的なITセキュリティにとってAIと機械学習がますます重要になる理由
大規模モデルの時代における言語モデル (LLM) は、サイズが大きくなるだけでなく、トレーニング デ...
現在、人工知能の応用範囲と深さは絶えず拡大しており、情報インフラの重要な部分になりつつあります。しか...
ディープラーニングは、機械学習の最も重要な分野の 1 つとして、近年急速に発展しています。膨大なデー...
2018年11月21日(北京時間)、Cheetah Mobile(CMCM)は2018年第3四半期の...
IT Homeは11月17日、Microsoftが本日、Windows Insiderプロジェクトメ...
病院が導入する医療機器やモバイルデバイスが増えるにつれて、医療システムの IT インフラストラクチャ...
ご存知のとおり、人工知能は計算能力を消費し、多数のデータセンターを必要とします。 しかし、適切な状況...
[[201793]]導入毎晩残業して家に帰るときは、Didiやシェア自転車を使うこともあります。ア...
関連データによると、2020年現在、わが国の民間ドローンの規模は約350億元に達しており、同時に、ド...
ドローンと聞いて何を思い浮かべますか?おそらくほとんどの人の答えは写真撮影でしょう。しかし、今回の疫...
世界初の生成型ロボットエージェントがリリースされました!長い間、大規模なインターネットデータでトレー...
「統計」と「機械学習」の違いは何ですか?これは数え切れないほど議論されてきた質問です。この問題につ...