AI バイアス: なぜ起こるのか、そして企業はどのように修正できるのか

AI バイアス: なぜ起こるのか、そして企業はどのように修正できるのか

ビジネスや社会で AI の利用が広まるにつれ、企業は機械モデルに現れる人間の偏見に注意を払う必要があります。企業は人間の知性を活用して、アルゴリズムのトレーニングに必要なさまざまなデータと入力を取得できます。

[[343633]]

データセット内の偏りを回避する方法があります。

人工知能 (AI) アルゴリズムをトレーニングする場合、データの入力に依存します。これは特にビジネス環境に当てはまります。ビジネス環境では、AI の目的が顧客とのやり取り、自動化システムの管理、人間の意思決定の模倣である可能性があります。結果が目的と一致することは非常に重要です。しかし、AI が指示やリクエストに応答する方法に歪みをもたらす可能性のある偏りに企業が対処できることが重要です。

新製品の設計と開発の段階は、企業がテストを実行し、欠陥を特定して排除できるため、非常に重要です。何らかの理由で設計上の欠陥が見落とされたり、製品が故障したりした場合でも、すぐに解決できます。故障したデバイスはリコールされ、ソフトウェアの問題を修正するためのアップデートやパッチが発行されます。これは典型的なソフトウェアリリースでは問題ありませんが、人工知能アルゴリズムの取り扱いはそれほど簡単ではありません。

AI アルゴリズムは、機械学習 (ML) に基づいて非常に特殊なタスクを実行するように設計された、非常に複雑なシステムです。 AI が運用を開始した後に生み出される偏見を解消しようとすると、コストと時間がかかる可能性があります。また、「学習」するテクノロジーにとっては直感に反する行為でもあります。設計および開発段階で逸脱を検出して排除するプロセスを導入する方が効果的です。

偏見はビジネスに悪影響を及ぼす

人工知能の基本的な目的と機能は、その基礎となるアルゴリズムに組み込まれています。 AI が固有の偏見を持つようになると、アルゴリズムに悪影響を与えることになります。これは、AI が提供することが期待される精度と効率に重大な影響を及ぼし、AI が商業ニーズを満たす能力を制限する可能性があり、いずれもビジネスにとって悪影響となります。

開発者の善意にもかかわらず、偏見は常に AI アルゴリズムに侵入する方法を見つけます。他の学習プロセスと同様に、生徒は教師の影響を受けます。認定機関が提供する教育の範囲は、その機関が提供するコースによって異なります。当然のことながら、カリキュラムが多様になればなるほど、生徒の考え方はよりオープンになります。同様に、より大規模で多様なデータセットは、より正確で効率的な AI アルゴリズムを生成するのに役立ち、よりスマートな意思決定が可能になります。

トレーニングデータとテスト結果

成功する AI アルゴリズムはすべて、トレーニング データに基づいて構築されます。ただし、ビジネス要件を満たすためのデータの調達は、特にそれらの要件に大衆市場のニーズを満たすことが含まれる場合、ロジスティクスとオーバーヘッドの面で大きな課題をもたらす可能性があります。

開発者、ソフトウェア エンジニア、品質保証スペシャリストで構成される社内チームは、通常、同じ年齢、性別、経歴の人で構成されます。バイアスは、データの収集とデータのラベル付けの際によく発生します。したがって、AI アルゴリズムを構築するときは、アルゴリズムのトレーニングに使用するデータの提供を 1 人の人物またはグループに依存しないことが最善です。アルゴリズムを適切にトレーニングするには、さまざまな種類のデータと入力が必要です。

AI アルゴリズムに、最終的にサービスを提供する顧客に近い人々や体験を提供するモデルを使用する方が効率的です。企業はこのモデルを使用して、実際の状況に対応し、偏見が発生する場所を検出し、その潜在的な影響を軽減するためのアルゴリズムをトレーニングできます。

コミュニティ構築アルゴリズム

トレーニング データの取得と実装が成功するかどうかは、データ自体の量、品質、多様性によって決まります。企業がこのデータを取得して処理する唯一の方法は、多様な参加者を活用することです。企業は、性別、民族、母国語、場所、スキル、地理、その他の適用可能なフィルターなど、特定の人口統計情報を提供するコミュニティから選択できる必要があります。

実際、効果的なアルゴリズムを開発するには大量のデータが必要です。ほとんどの企業には、大規模なデータを取得する能力がありません。新しいソフトウェアやサービスを提供するには、専用のリソースからのサポートが必要です。メディアおよび放送サービス向けのインテリジェント音声アシスタントをトレーニングする最近のプロジェクトでは、100,000 を超えるさまざまな音声が必要でした。これらの発話は最終的に、アルゴリズムをトレーニングするために遠隔で集められた 972 人の人間によって提供されました。驚くべき偉業は、音声は研究室である程度までシミュレートできるものの、AI がさまざまな実際の声やアクセントにさらされる必要があることです。

スピーチトレーニングはカリキュラムのほんの一面にすぎません。クラウドソーシング ソリューションは、企業が手書き文書を読み取るための AI アルゴリズムをトレーニングするのにも役立ちます。最近の別のプロジェクトでは、何千もの手書きサンプルが必要でした。もう一度言いますが、アルゴリズムには可能な限り幅広い固有のサンプルが必要なので、量が重要な要素となります。 1,000 人を超える参加者がリモートで集まり、手書きの文書を配布し、さまざまなコンテンツに対する需要に応えました。

公正な結果

AI の最終結果の精度を低下させる可能性のある意図しないバイアスを除去することが重要です。完璧になることは決してありませんが、AI は継続的に学習し、最良のマシン モデルは大規模で多様なデータ セットに基づくものになります。最善の戦略は、量、品質、多様性を提供するプールからトレーニング データを取得することです。トレーニング データに多様性がない場合、アルゴリズムは幅広い可能性を認識できず、アルゴリズムは効果がありません。リモート コミュニティにより、企業はこのデータにアクセスし、社内の開発およびテスト機能を補完できます。クラウドソーシングによるテストは、音声、テキスト、画像、生体認証を学習および認識する AI アルゴリズムのトレーニングに使用でき、さまざまな顧客セグメントのニーズを満たす強力な出力を企業に提供します。

<<:  インテリジェントビル通信システムの構成と要件

>>:  AIと機械学習が克服すべき3つのハードル

ブログ    
ブログ    

推薦する

AIエンジニアリングについて知っておくべきこと

人工知能は、21 世紀の世界のテクノロジー主導型市場において最も注目されている破壊的テクノロジーです...

RPA の利点と欠点は何ですか?

信用組合サービス組織の PSCU は、数年にわたって企業開発に注力しており、同社はロボットによるプロ...

転移学習に使用される 4 つのコンピュータ ビジョン フィールド モデル

導入SOTA 事前トレーニング済みモデルを使用して、転移学習を通じて現実世界のコンピューター ビジョ...

...

...

中国は、インターネット、ビッグデータ、人工知能などの分野における知的財産保護に関する研究と実践を実施します。

[[432777]]中国新聞社、北京、11月1日(記者:孫子発)中国国家知識産権局の沈長宇局長は1...

...

中小企業はデジタル変革の悪循環からどのように抜け出すことができるでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

人工知能がファッションデザインと生産を変革

人工知能とロボット工学がファッション業界に変化をもたらしています。市場分析からカスタムデザイン、無駄...

このベクターニューラルスタイルのブラシを使用すると、GANなしで美しい絵画を生成できます

CVPR 2021で発表された論文の中で、NetEase Fuxiとミシガン大学の研究者は、制御可能...

Google が 17 分野を網羅し 18,000 の注釈を付した大規模な対話コーパスを公開

Google アシスタントのような AI アシスタントは、追加データや再トレーニングを必要とせずに、...

製薬会社はAIと遺伝子配列に基づいて菌類のさらなる薬効を発見している

[[342573]]研究室の菌類1928 年、スコットランドの研究者アレクサンダー・フレミングが休暇...

論文の90%はモデル中心です。AIの分野では、データとモデルのどちらが重要ですか?

モデルとデータは AI システムの基盤であり、これら 2 つのコンポーネントはモデルの開発において重...

デジタルヒューマンブラック技術が公開、わずか数分で話す動画を再現可能に

デジタルヒューマンと共存できるサイバーパンクの世界への準備はできていますか?将来の仮想世界で多くのア...

GPT-4はバードに追い抜かれても納得せず、最新モデルが市場に投入された

「ビッグモデル予選コンペティション」チャットボット アリーナの公式リストが更新されました: Goog...