この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 AI は過去 10 年間で技術の進歩とオープンソース データセットの推進によりルネッサンスを経験しており、その進歩はコンピューター ビジョンや自然言語処理 (NLP) などの分野に集中しています。 ImageNet は 2010 年に、コンテンツ ラベル付きの 20,000 枚の画像の公開コーパスを作成しました。 Google は 2006 年に Trillion Word Corpus をリリースし、多数の公開 Web ページから n-gram 頻度を取得しました。 NLP の進歩により、機械翻訳の品質が大幅に向上し、デジタル アシスタントの使用が急速に拡大し、「AI は新しい電気である」や「AI が医師に取って代わる」といった発言が増えています。 Allen Institute、Hugging Face、Explosion などの組織も、大規模な言語コーパスで事前トレーニングされたオープンソース ライブラリとモデルをリリースしており、これにより NLP 分野の急速な進歩が可能になりました。最近、NLP 技術は、注釈付きの公開研究データセットのリリースや公開対応リソースの作成を通じて、COVID-19 の研究を促進しています。 しかし、人工知能の分野はすでに確立されています。アラン・チューリングは 1950 年に「考える機械」というアイデアを提唱し、それが当時のアルゴリズム機能に関する研究に反映されました。当時、人々は自動化するには複雑すぎる問題 (翻訳など) を解決できるアルゴリズムの開発を望んでいました。次の 10 年間、投資家は AI 研究に楽観的になり、多額の投資を行った結果、翻訳、物体認識、分類の分野で大きな進歩がもたらされました。 1954 年までに、高度な機械辞書は単語や語句に基づいた適切な翻訳が可能になりました。特定の条件下では、コンピューターはモールス信号を認識して解釈できます。しかし、1960 年代後半には、これらの研究には限界があり、実用性も限られていることが明らかになりました。 1973年の論文で、数学者のジェームズ・ライトヒルは、AI研究者は現実世界の問題にシステムを適用する際に、要素の「組み合わせ爆発」に対処できないと指摘した。社会からの絶え間ない批判と投資の減少の中で、人工知能は最初の「冬」を迎え、開発は実質的に停滞した。 図1: AI開発のタイムライン 過去数十年にわたり、人工知能への関心が再燃し、その技術は飛躍的に進歩しました。 NLP における最近の研究のホットスポットは、主に Transformer ベースのアーキテクチャに関連しています。しかし、人々は「これらのモデルが実際に何を学習しているのか」を懸念しているため、実用化の疑問は依然として尋ねる価値があります。 2019 年の研究では、BERT を使用して議論の理解という難しい課題に取り組みました。この課題では、モデルは一連の事実に基づいて主張が理にかなっているかどうかを判断する必要があります。 BERT は最先端のパフォーマンスを達成しましたが、さらなる研究により、このモデルは議論の「推論」とはまったく関係のない言語の特定の手がかりを利用していることが判明しました。 研究者はアルゴリズムを適用する前にシステムの欠陥をすべて解決できる場合もありますが、AI システムが本来学習すべきでない方法で学習してしまう場合もあります。典型的な例は、フロリダ州で犯罪者が再犯する可能性があるかどうかを判断するために使用されている COMPAS アルゴリズムです。 2016年のプロパブリカの調査では、アルゴリズムは黒人被告が白人被告よりも暴力犯罪を犯す可能性が77%高いと推定していることが判明した。さらに心配なのは、再犯した白人被告のうち48%がアルゴリズムによって低リスクと判定されたのに対し、黒人被告ではわずか28%しか低リスクと判定されず、その差は20%に上ることだ。このアルゴリズムは独自のものであるため、それが利用する可能性のある手がかりについての透明性は限られています。しかし、このアルゴリズムにおける人種間の違いは非常に明白であるため、アルゴリズムは人種的不平等の観点で捉えていることが示唆されており、これはアルゴリズム自体のパフォーマンスや司法制度にとって好ましいものではありません。 図1: COMPASアルゴリズムの応用 こうした注目を集める失敗は、人工知能の分野では珍しいことではありません。アマゾンは最近、AI採用アルゴリズムを廃止した。過去の採用パターンを悪用したためか、技術職に男性を推薦する傾向が強かったためだ。最も高度な機械翻訳でさえ、ジェンダーの不平等や言語リソースの不足といった問題に直面することがよくあります。 現代の NLP に欠陥がある理由はたくさんあります。この記事では、データと NLP モデルの開発において、誰または何が表現されるのかという表現に関するいくつかの質問に焦点を当てます。この不平等な表現は、どのようにして NLP テクノロジーの利点の不平等な分配につながるのでしょうか? 1 「大きい」は「良い」という意味ですか?一般的に、機械学習モデル、特にディープラーニングモデルは、入力されるデータが多いほどパフォーマンスが向上します。 Halevy ら (2009) は、翻訳タスクの場合、大規模なデータセットでトレーニングされた単純なモデルの方が、小規模なデータセットでトレーニングされたより複雑な確率モデルよりもパフォーマンスが優れていると説明しています。 Sunら(2017)も機械学習におけるスケーラビリティの考え方を再検討し、視覚タスクのパフォーマンスは提供される例の数に応じて対数的に増加することを指摘しました。 AI 実践者は、特に NLP 研究において、この原則を真摯に受け止めています。 BERT のマスク言語モデル (コンテキストに基づいて単語を予測することを学習する) などの自己教師あり学習目標の出現により、実質的にインターネット全体がモデル トレーニングに利用できるようになりました。 2019 年のオリジナルの BERT モデルは 16 GB のテキスト データでトレーニングされましたが、GPT-3 (2020) などの最近のモデルは 570 GB のデータ (45 TB の CommonCrawl からフィルター処理) でトレーニングされました。 Bender et al. (2021) は、モデルサイズの拡大の原動力として「データが多ければ多いほど良い」というモットーを採用しています。しかし、彼らの記事を読んで、私は考えさせられました。これらの大規模なデータセットには、どのような考えが含まれているのでしょうか? 図1: 言語モデルのサイズは時間の経過とともに増加する Wikipedia は、BERT、GPT、その他多くの言語モデルのソースです。しかし、ウィキペディアの調査により、その編集者が表現する見解には問題があることが判明した。記事編集者の約90%は男性で、先進国出身の教育を受けた白人男性であることが多いです。彼女たちのアイデンティティは、Wikipedia の内容に影響を及ぼす可能性があります。たとえば、伝記のうち女性に関するものはわずか 17% ですが、編集者によって削除対象に指定された伝記の 41% は女性に関するものです。女性の伝記における削除されたコンテンツの割合は、通常の比率よりも大幅に高くなっています。 NLP モデルのもう一つの主要なソースは、オリジナルの word2vec アルゴリズムを含む Google ニュースです。歴史的に、ニュース編集室は白人男性によって占められており、この傾向は過去10年間あまり変わっていない。実際、この格差は過去数十年にわたって拡大しており、モデルに古いニュースデータセットを入力すると、この過小表現の問題はさらに悪化することになります。 さらに、インターネットのユーザーは若く、高収入で、白人である傾向があります。 GPT モデルのソースの 1 つである CommonCrawl は、ユーザーの 67% が男性で 70% が白人である Reddit のデータを使用しています。 Benderら(2021)は、GPT-2のようなモデルには、特定のコミュニティを表す言語を削除する可能性のある包含/除外方法があることを指摘しています(たとえば、潜在的に不快な単語を除外することで、LGBTQコミュニティを表す言語が除外されます)。 現在の NLP の進歩の多くは大規模なデータセットを必要としており、このデータへの渇望により、データに表される洞察への注目が薄れています。しかし、上記の証拠から、一部のデータソースは「中立」ではなく、歴史的および社会的に支配的であった人々の声を増幅していることは明らかです。 さらに、欠陥のあるデータ ソースであっても、モデル開発では同等に使用することはできません。ラベル付きデータとラベルなしデータの大部分は 7 つの言語にのみ存在し、全話者の約 3 分の 1 を占めています。これにより、このパフォーマンスは世界の他の 2/3 の人々が達成できる範囲を超えています。このギャップを埋めるために、NLP 研究者は、リソースの多い言語で BERT モデルを事前トレーニングし、リソースの少ない言語で微調整すること (Multi-BERT と呼ばれることが多い)、および言語間転移学習に「アダプター」を使用することを検討してきました。しかし、一般的に言えば、これらのクロスリンガル方式は単一言語方式よりもパフォーマンスが悪くなります。 これらのモデルが言語間で一般化するのが困難であるという事実は、より大きな問題を示している可能性があります。 Joshi et al. (2021) は次のように説明しています。「NLP システムがトレーニングおよびテストされる少数の言語は、多くの場合関連性があります。これにより、類型論的なエコー チェンバーが形成されます。その結果、私たちの NLP システムは、類型論的に多様な言語の大部分を認識できません。」 NLP の世界における言語の多様性と包摂の現状と運命 図1: 自然言語処理における言語の多様性と包摂の現状と運命 図1: 自然言語処理における言語の多様性と包摂の現状と運命 上で述べたように、これらのシステムは言語の手がかりを掘り出すのに非常に優れています。したがって、特定の言語パターンセットが利用される可能性が高く、これらのシステムをリソースの少ない言語に適用するとパフォーマンスが低下します。 2. ゴミを入れればゴミが出る上記では、現代の NLP データセットとモデルが、白人、男性、英語話者の視点に重点を置いた特定の視点セットを「表現」する方法について説明しました。ただし、すべてのデータセットはソースから開始し、ImageNet が 2019 年のアップデートで 60 万枚の画像を削除するなど、不均衡なデータ表現の問題を解決する必要があります。この調整は、統計的な堅牢性のためだけではなく、女性や有色人種に対して性差別的または人種差別的なラベルを使用する傾向があるモデルへの対応でもあります。 図1: TwitterユーザーがImageNetベースのモデルによって生成された画像ラベルに偏りがあることを発見
すべてのモデルにはエラーが発生する可能性があるため、モデルを使用するかどうかを決定する際には、常にリスクとメリットを比較検討してください。このリスクと利益の評価を容易にするために、既存の一般的なパフォーマンス指標を使用して、精度などの「エラー」の頻度を取得することができます。しかし、私たちがよく理解していないのは、これらのエラーがどのように分散されているかということです。あるモデルが他のグループよりもあるグループでパフォーマンスが悪い場合、そのモデルは他のグループを犠牲にしてあるグループに利益をもたらす可能性があることを意味します。 私はこのリスクと報酬の不平等な分配を「バイアス」と呼んでいます。統計的バイアスは、「結果の期待値と推定される真の基礎となる定量的パラメータとの差」と定義されます。機械学習におけるバイアスには多くの種類がありますが、ここでは「歴史的バイアス」と「表現的バイアス」に焦点を当てます。歴史的バイアスとは、すでに世界に存在し、データに反映されているバイアスや社会技術的な問題を指します。たとえば、ImageNet でトレーニングされたモデルが人種差別的または性差別的なラベルを出力する場合、トレーニング データの人種差別と性差別を再現していることになります。代表性バイアスは、集団を定義し、そこからサンプルを抽出した方法によって生じます。トレーニング データは特定のグループの観点から取得されるため、トレーニングされたモデルがこのグループの視点を表すことが期待されます。 NLP の分野では、単語埋め込みモデル word2vec と GloVe に存在するバイアスが集中的に研究されてきました。これらのモデルは、構文情報と意味情報を含む単語表現を提供し、多くの下流タスクの基礎として機能します。これらはすべて、文脈に基づいて単語を表現する自己教師あり手法に基づいています。これらの表現が単語の本当の「意味」を反映しているのであれば、職業の種類は特定の人々のグループに関連付けられていないため、職業に関連する単語(「エンジニア」や「ハウスキーパー」など)は性別や人種に中立であると想像できます。 しかし、Garg et al. (2019) は、職業用語の表現は性別や人種に中立的ではないことを発見しました。男性的な言葉と比較すると、「家政婦」などの職業を表す言葉は女性的な言葉(「彼女」や「彼女の」など)とより強く結びついており、「エンジニア」などの職業を表す言葉は男性的な言葉に近いです。問題は人種にも及び、ヒスパニック系に関連する単語は「執事」に近く、アジア系に関連する単語は「教授」や「化学者」に近い。 キャプション: この表は、ヒスパニック、アジア人、白人と最も関連性の高い上位 10 の職業タイプを示しています。 Garg et al. (2019)「単語埋め込みが100年間の性別と民族のステレオタイプを定量化する」より引用。 これらの問題は大規模言語モデルにも存在します。たとえば、Zhao et al. (2019) の研究では、ELMo 埋め込みが職業用語に性別情報を組み込み、女性よりも男性の性別情報をより適切にエンコードすることが示されました。 Shengら(2019)はまた、GPT-2を使用して人口統計情報(性別、人種、性的指向など)を含む文章を完成させた場合、典型的な疎外されたグループ(女性、黒人、同性愛者など)に対して偏った結果が生成されることを発見しました。 図キャプション: この表は、さまざまなプロンプトを与えられた OpenAI の GPT-2 によって生成されたテキストの例を示しています。 Sheng et al. (2019)「ベビーシッターとして働いていた女性:言語生成におけるバイアスについて」より引用。 単語埋め込みモデル ELMo と GPT-2 はどちらも、インターネットからの異なるデータセットでトレーニングされています。上で述べたように、インターネット上で表現される意見は、歴史的に有利な立場にあり、より多くのメディアの注目を集めてきた人々から発信される傾向があります。これらのビューは、モデルがそれらの偏ったビューを内部化しているため、バイアスの問題の原因である可能性があります。ルーハ・ベンジャミンは著書「テクノロジー後の競争」の中でこう述べています。 「AI システムに世界の美しさ、醜さ、残酷さを与えて、それが美しさだけを反映することを期待するのは幻想です。」 これらの NLP モデルは、トレーニングの対象となった主要グループの見解を再現するだけでなく、これらのモデルに基づいて構築されたテクノロジーによって、これらのグループの主要見解も強化されます。前述のように、現在、有用な NLP 技術 (機械翻訳など) を開発するために利用できるデータ リソースがあるのは、言語のサブセットのみです。しかし、リソースが豊富な言語であっても、アクセントが標準的でない場合は、機械翻訳や音声認識などのテクノロジーのパフォーマンスが低下します。 たとえば、Koeneckeら(2020)は、AmazonやGoogleなどの企業の音声認識ソフトウェアでは、アフリカ系アメリカ人のエラー率が白人のほぼ2倍であることを発見しました。 Google アシスタントや Alexa は非標準のアクセントを持つユーザーに対してはうまく機能しないため、不便が生じる可能性があります。これは、移民労働者が国境警備官とのコミュニケーションに困難を感じるなど、個人の生活にも大きな影響を及ぼす可能性があります。トレーニング データにはバイアスが存在するため、これらのアプリケーションは、他のユーザーよりもデータの「利点」を持つユーザー グループに役立つことが期待できます。 翻訳と通訳の他に、NLP の一般的な使用例としては、コンテンツのモデレーション/管理があります。少なくとも 1 つのスパム検出演習が含まれていない NLP プロジェクトを見つけるのは困難です。しかし現実の世界では、コンテンツのモデレーションとは、どのような種類の発言が「許容される」かを決定することを意味します。調査によると、FacebookとTwitterのアルゴリズムは、コンテンツを審査する際に、アフリカ系アメリカ人ユーザーのコンテンツを白人ユーザーのコンテンツよりも2倍フラグ付けする傾向があることがわかった。アフリカ系アメリカ人のフェイスブック・ユーザーは、テレビ番組「ディア・ホワイト・ピープル」のセリフを引用したためにアカウントを凍結されたが、白人の友人たちは何の処罰も受けなかった。 上記の例から、データトレーニングにおける不均衡な表現が不均一な結果につながることがわかります。こうした影響は、歴史的に新技術の恩恵をあまり受けていない人々、つまり女性や有色人種に、より深刻な影響を及ぼす。したがって、自然言語処理技術の開発と展開に大幅な変更が行われない限り、世界に前向きな変化をもたらさないだけでなく、既存の不平等なシステムを強化することにもなります。 3 正しい軌道に乗るにはこの記事の冒頭で、AI の分野が現在非常に注目されていると述べましたが、これは実際に歴史上一度だけ起こったことです。 1950 年代、産業界と政府はこの刺激的な新技術に大きな期待を寄せていました。しかし、現実世界での応用が期待に応えられなくなると、AI の「冬」が訪れ、その分野への注目と資金は減少します。現代社会は、無料で広く利用できるデータセットと膨大な処理能力の恩恵を受けているが、世界人口のごく一部にのみ焦点を当て続ける限り、この好況期に AI がその期待を果たせるかどうかは分からないだろう。 NLP の場合、ほとんどのアプリケーションが最も人気のある 7 つの言語のみに焦点を当てているため、この包括性の必要性はさらに緊急です。このため、専門家はリソースの少ない言語にもっと注意を払うよう呼びかけ始めています。ディープマインド社の科学者セバスチャン・ルーダー氏は2020年に「標準的なアクセントの英語話者だけをターゲットにした技術は普遍的ではない」と指摘した。計算言語学会(ACL)も最近、2022年の会議のサブテーマとして「言語の多様性」を発表しました。 ただし、包括性はデータ収集の問題としてのみ考えるべきではありません。 2006 年、マイクロソフトはチリの先住民族マプチェ族の言語で書かれた Windows のバージョンをリリースしました。しかし、この作業はマプチェ族の参加や同意なしに行われたため、マプチェ族はマイクロソフトの取り組みにまったく「受け入れられた」と感じず、許可なく彼らの言語を使用したとしてマイクロソフトを訴えた。 NLP テクノロジーの適用範囲のギャップを解消するには、過小評価されているグループにさらに注意を払う必要があります。これらのグループは NLP コミュニティに参加し、NLP テクニックの有用性を拡大するための独自の取り組みを開始しました。このような取り組みにより、NLP 技術をより多様なデータセットに適用できるようになるだけでなく、さまざまな言語のネイティブ スピーカーが技術の開発に参加できるようになります。 前に述べたように、NLP における「最先端」を判断するために現在使用されている指標は、モデルが犯す可能性のある間違いの数を推定するのに役立ちます。しかし、これらのエラーが異なる集団間で不均等に分布しているかどうか(つまり、偏りがあるかどうか)は測定されません。これに応えて、MIT の研究者は、言語モデルの偏りを多次元で測定するためのデータセット StereSet をリリースしました。この研究の結果は、モデルの全体的なパフォーマンスを測定する一連の指標と、好みのステレオタイプに関連する傾向であり、「ランキングボード」フレームワークに簡単に適応できます。 Drivennda は、Deon 倫理チェックリストで、よりプロセス指向のアプローチを提案しています。 しかし、私たちは依然として、テクノロジーを常に悩ませてきた大きな問題のいくつかに取り組んでいます。進歩は強者に利益をもたらし、強者と弱者の間に存在する格差を悪化させる傾向があるのです。 NLP テクノロジーの革命的な進歩を達成するには、現在のものよりも優れた、異なるものになる必要があります。 Benderら(2021)は、研究デザインによってどの視点が含まれ、どの視点が除外されるか、またこの視点の組み合わせのリスクとベネフィットの計算を監視できる、より「価値に敏感な」デザインを提案した。したがって、「成功」はテクノロジーの精度ではなく、テクノロジーがステークホルダーの価値を促進できるかどうかにかかっています。 これは非常に強いアドバイスですが、ある取り組みが主要な価値観の進歩を促進する可能性が低い場合は、追求する価値がない可能性があることを意味します。 Paullada et al. (2020) は、「マッピングが学習可能であるからといって、それが意味をなすとは限らない」と指摘しています。上記の例のように、アルゴリズムを使用して、犯罪者が再度犯罪を犯す可能性があるかどうかを判断することができます。このアルゴリズムは高い AUC スコアを達成したと報告されていますが、何を学習したのでしょうか?前述のように、モデルはトレーニング データの産物であるため、司法制度にすでに存在する偏見を再現する可能性があります。これにより、この特定のアルゴリズムの価値が疑問視され、判断アルゴリズムの大規模な使用に課題が生じます。そして、これからわかるように、価値を重視した設計は、まったく異なるアプローチにつながる可能性があります。 NLP は、研究者、開発者、そしてオープンソース コミュニティ全体の努力のおかげで、最近驚異的な進歩を遂げました。機械翻訳から音声アシスタント、COVID-19 のようなウイルスの研究まで、NLP は私たちが使用するテクノロジーを根本的に変えています。しかし、さらなる進歩には、NLP コミュニティ全体だけでなく、機能グループや分野を超えた取り組みも必要になります。指標上のわずかな利益を追求するのではなく、誰が取り残されているのかを理解し、彼らの価値観を研究に取り入れるという、真に革新的な変化を目指すべきです。 |
<<: 香港大学の黄凱斌氏:6G時代のエッジインテリジェンス、シャノンとチューリングの出会い
近年、原子力技術と人工知能(AI)の融合により、原子力AIと呼ばれる強力な相乗効果が生み出されていま...
[[398867]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
AppleのVision Proヘッドセットは2024年第1四半期に発売される予定だが、業界の専門家...
[[234392]] [51CTO.com クイック翻訳] 人間は常に、自分たちに似たロボットや人工...
1. 機械学習の概要 1. 機械学習とは何ですか?機械は大量のデータを分析して学習します。たとえば...
教師なし学習は、教師あり学習とは対照的に、もう 1 つの主流の機械学習方法です。教師なし学習では、デ...
1. はじめにビッグデータ革命によりデータセンターが爆発的に増加し、エネルギー消費量はますます増加し...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
ChatGPTを運営するOpenAIのCEOサム・アルトマン氏は最近、議会公聴会で政府によるAIの規...
テクノロジーは建設業界にかつてないほど大きな影響を与えています。クラウドベースのコラボレーションやデ...
AI は真面目な仕事しかできないなんて誰が言ったのでしょうか? Google は最近、顔を見ながら生...
1. リレーショナルデータはSQLから分離される最新のエッジ コンピューティング、IoT、GenAI...
[[396127]]著者: Ben Dickson はソフトウェア エンジニアであり、テクノロジー...