データセットには独自の世界観がありますか?いいえ、それは実際には人々の世界観です。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

ディープラーニングの日常的な使用が増えるにつれて、データセットの偏りと公平性が注目の研究テーマになっています。

バイアスは AI において厄介なトピックです。モデルの堅牢性を高めることができるノイズの多いデータなど、バイアスには有益なものもあれば、有色人種を誤認する傾向など有害なものもあります。

そして、不完全なモデルを取得した場合、データセットにはどのようなバイアスが存在するのでしょうか?こうした偏見はどのようにして生じるのでしょうか?

Google の PAIR (People + AI Research) チームは最近、これらの問題についてシンプルで興味深い例を挙げて議論するブログ記事を公開しました。

オリジナルリンク: https://pair.withgoogle.com/explorables/dataset-worldviews/

1 偏った分類

以下に示すように、さまざまな形状のデータセットがあり、それに対応するラベルが、以下に示すように影があるかどうかであるとします。

ページ上のインタラクティブな分類器を使用すると、次の結果を分類し、対応する精度を得ることができます。

モデルは完璧ではないので、結果を修正するために、モデルがどのような間違いを犯しているか、またはデータにどのような種類のバイアスが存在するかを知りたい場合があります。

2 公平性分析

さまざまな図形の主な違いは形状であるため、形状の違いによって偏りが生じる可能性があります。観察してみると、最も一般的な 3 つの形状は円、三角形、長方形であると思われるかもしれません。この仮説を検証するには、円、三角形、四角形に直面したときにモデルが同じように動作することを確認する必要があります。次に公平性分析を行います。

まず、各図形にラベルを付ける必要があるのですが、問題なのは、図形によっては確実に判別できないものがあることです。この時点で、2 つの戦略があります。1 つは、図形が円、三角形、長方形である可能性が最も高いと判断することです (最善の推測で)。もう 1 つは、上記の 3 つの図形のいずれでもないという選択肢を与えることです (「その他」として)。次に、各形状タイプに対するモデルの分類精度を分析します。このインタラクティブなページでは、2 つの戦略の結果が示されます。

戦略 1: 最も可能性の高い形状を見つける:

最初の戦略では、分類器のパフォーマンスが長方形に対して最も高く、次に円、三角形に対して最も低いことが示されています。しかし、これはモデルが三角形に対して偏っていることを示しているのでしょうか?ページの 2 番目の戦略を切り替えます。

戦略2: 上記のいずれでもない:

結果が変わりました！ 2 番目の戦略では、分類器のパフォーマンスは三角形と長方形に対しては最高ですが、円に対しては最低であることが示されています。バイアスに対する理解は、分類を作成するために使用する戦略によって異なります。言い換えると、各分類アプローチは、重要な分類機能に関する異なる視点を表します。データセットと最終的なモデルの決定を決定し、戦略を設定するのはあなたです。言い換えれば、各データセットは「世界観」を表し、その集合は人間の意志を表します。

では、振り返って、他にどのような戦略やルールが公平性の判断に影響を与える可能性があるか自問してみましょう。

はい、もともとの分類基準は、円、三角形、長方形といった形状に基づいていました。これも私たちが人為的に設定した基準です。これを「尖った」や「丸い」に変えたらどうなるでしょうか？それとも「小さい」か「大きい」か？次の図は、さまざまな評価基準に基づいて正しく分類された個人と誤って分類された個人を示しています。

図 1: カテゴリ基準が「尖った」または「丸い」で、もう 1 つのファジーカテゴリが「最も可能性の高い形状を見つける」である場合の分類結果

図 1: カテゴリ基準が「小さい」または「大きい」であり、もう 1 つのファジーカテゴリが「最も可能性の高い形状を見つける」である場合の分類結果

基準が選択されるたびに、誤分類されたデータの分布が異なり、そのため、各ケースの例のバイアスまたは公平性の分析も偏っていることがわかります。バイアスは偏っているようです。

3 タグは物語を語る

要約すると、あなたがこのデータセットの収集責任者であり、最初にバイアスに関連する分類カテゴリについて決定したとします。すべての形状インスタンスはどのように分類されたでしょうか?次の図に示す「尖った」および「丸い」ものに従います。

他の注釈者は、「この形状は「尖っている」のか、「丸い」のか」といった質問に答えようとしました。

収集が完了したら、上記のようにエラーカテゴリを分析し、分類器が尖った形状では適切に機能し、丸い形状では適切に機能しないことがわかります。次のレポートが表示されます。

そして、最初の評価基準が「大きい」か「小さい」であれば、上記の手順を繰り返すことで、分類器が小さな形状をうまく分類できるようになり、その後にこんな話が出てきます...

この問題の自然な解決策は、より多くのデータとより多くの特徴を収集することです。十分なデータがあり、それらについて十分な詳細を知っていれば、異なる分類決定を下すことを避け、固有の偏った要因を生成することができます。

しかし、そうではないようです。私たちが身の回りの何かを説明するとき、それが友人に何かを伝えるときであれ、コンピューターに形状について説明するときであれ、私たちは意識的または無意識的に、最も重要だと思う部分を選択したり、それを伝えるために使用するツールを選択したりすることを想像してみてください。

意識しているかどうかに関わらず、私たちは常に分類しています。

形状の例で見たように、すべての選択によって、一部の機能が他の機能よりも重要になり、一部の違いは目に見えるようになり、一部の違いは無視できるようになり、一部のものは分類しやすくなり、一部のものはノイズになります。

すべてを物語るのは分類の基準です。

4 現実のシナリオ

教師あり学習タスクにおけるターゲット検出タスクなど、実際の機械学習アプリケーションを振り返ってみましょう。次の絵を想像してみましょう。

このようなデータセットに注釈を付けたいので、まず対象オブジェクトに注釈を付けます。表記法の 1 つは次のとおりです。

それはかなり客観的に思えますね。結局のところ、山は山であり、木は木です。しかし、そうであっても、同じ画像内の同じ領域のラベルは次のように異なる場合があります。

山は名前で具体化することができ、木は「薬用ではない植物」として具体化することができます。

はい、あらゆる物体、あらゆる言葉、あらゆる絵に対して普遍的なアプローチは存在しません。データセットは常に特定の時間、空間、条件の結果です。それらは社会の産物であり、歴史的な視点を持ち、政治的な意味合いを持っています。そして、これらを無視すると、非常に現実的な結果が生じます。

では、この情報を使って何をすべきでしょうか?

良い出発点は、データが存在するコンテキストを振り返り、常にデータに興味を持つことです。

データセット自体の価値（客観的か、普遍的か、中立的か）を判断するのは困難です。データセットは単に、慣れ親しんだ世界観を反映しているだけかもしれません。したがって、自分自身の世界観を理解することで、いわゆる客観的データの限界がわかります。常に自分自身に問いかけてください。あなたは世界についてどのような仮定を立てていますか?何が常識のように感じますか?何が常識に反するのでしょうか?データセットに関して、次の質問を考慮することを忘れないことが重要です。誰がそれを収集したのか?なぜ収集されるのですか?回収費用は誰が支払ったのですか?いわゆる「真の価値」ラベルはどこから来るのでしょうか?

後になって、データ収集中に立てたいくつかの仮定に疑問を抱くようになり、分類タスクをより総合的に理解できるようになるかもしれません。

データに関して多くの疑問がある場合は、良いスタートを切っています。