リスト管理？機械学習のためのデータセット

[[440033]]

データが機械学習において重要な役割を果たすことは否定できません。各機械学習モデルインスタンスは静的データセットを使用してトレーニングおよび評価されますが、これらのデータセットの特性はモデルの動作に根本的な影響を与えます。モデルの展開環境がトレーニングまたは評価データセットと一致しない場合、またはこれらのデータセットに不要なエラーやバイアスが含まれている場合、モデルが適切に機能することは不可能です。この不一致は、採用や財務などの重要分野に機械学習モデルを適用する場合に特に深刻な結果をもたらす可能性があります。他の分野でも、ミスマッチは収益の損失につながる可能性があります。

データの信頼できる出所はデータベースコミュニティで広く研究されてきましたが、機械学習ではそうではありません。データセットの作成と使用の文書化は十分な注意が払われておらず、現在、機械学習データセットを文書化するための標準化されたプロセスはありません。

何か良い方法はないでしょうか？リスト管理を試してみてはいかがでしょうか。

1. リスト管理について

エレクトロニクス業界では、どんなに単純または複雑なコンポーネントでも、その動作特性、テスト結果、推奨される用途、その他の情報を記載したデータシートが付属しています。同様に、各データセットにその動機、構成、収集、目的などを記録するインベントリリストを添付するインベントリ管理を使用することもできます。データセットをインベントリ化すると、機械学習の透明性と説明責任が向上し、機械学習モデルにおける不要なエラーやバイアスが削減されます。

データセットのインベントリは、データセット作成者とデータセット利用者という 2 つの主要グループのニーズを満たす必要があります。データセット作成者にとって、インベントリは、潜在的な想定、リスクや危害、使用の影響など、データセットの作成、配布、維持のプロセスを振り返ることを可能にします。データセットの消費者にとって、マニフェストは、データセットを使用する際に十分な情報に基づいた決定を下すために必要な情報を確実に提供します。データセットの利用者が適切なデータセットの選択を完全に理解し、不注意による誤用を避けるためには、データセット作成者からの透明性が必要です。

同時に、データセットのインベントリ管理により機械学習の結果の再利用性が向上し、データセットにアクセスできない開発者はインベントリの情報を使用して、同様の特性を持つ代替データセットを作成できます。

2. データセットライフサイクルのチェックリスト

データセットのライフサイクルには、動機付け、構成、取得、前処理/クリーニング/ラベル付け、使用、配布、メンテナンスが含まれます。データセットのライフサイクルについては、履歴書チェックリストを試すことができます。リストの内容はすべてのデータセットに適用されるわけではないので、適用されないオプションはスキップできることに注意してください。

2.1 データセット作成の動機

データセットを作成する理由は、データセットを作成する動機です。セルフチェックリストには次のような内容が含まれます。

データセットを作成する目的は何ですか?
どのような問題が予想されますか?
何か具体的なタスクはありますか？
データセットを作成したのは誰ですか? また、データセットはどのようなエンティティを表していますか (例: 会社、機関、組織)?

2.2 データセットの構成

データセットの作成者は、データ収集前に情報を明確にリストし、データセットの消費者がデータセットを使用するかどうかについて十分な情報に基づいた決定を下せるように、データセットの消費者に提供する必要がある情報を理解する必要があります。なお、個人情報が関係する場合は、個人情報保護法その他の法律や規制の制限に注意する必要があります。

データセットを構成するインスタンスは何を表していますか (例: ドキュメント、写真、人物、国など)?
複数のタイプのインスタンスがありますか (たとえば、映画、ユーザー、評価間の相互作用はノードとエッジになる可能性があります)?
インスタンスは全部でいくつありますか?
データセットにはすべての可能なインスタンスが含まれていますか、それともより大きなセットからのインスタンスのサンプル (必ずしもランダムではありません) ですか? データセットがサンプルである場合、より大きなセットは何ですか? サンプルはより大きなセットを代表していますか? そうである場合、この代表性がどのように検証されたかを説明してください。そうでない場合は、その理由を説明してください。
各インスタンスはどのようなデータで構成されていますか? 生データ (未処理のテキストや画像など) ですか、それとも特徴データですか?
各インスタンスに関連付けられたラベルまたはオブジェクトはありますか?
1 つのインスタンスから情報が欠落していますか? 欠落している場合は、どの情報が欠落しているか (たとえば、入手できないため) を説明します。
個々のインスタンス間の関係は明確ですか (例: ソーシャルネットワークリンクなど)?
推奨されるデータ分割（トレーニング、開発/検証、テストなど）はありますか？ある場合は、これらの分割の根拠を説明してください。
データセットにエラー、ノイズ源、または冗長性はありますか? ある場合は、それらが何であるか説明してください。
データセットは自己完結型ですか、それとも外部リソース (Web サイトや他のデータセットなど) にリンクしていますか? 外部リソースにリンクまたは依存している場合、a) これらのリソースが継続して存在し、時間が経っても変更されないという保証はありますか? b) 完全なデータセットの公式バージョンは存在しますか (つまり、データセットの作成時に存在していた外部リソースを含む)? c) 外部データセットリソースの使用に制限はありますか (ライセンスや料金など)? すべての外部リソースとそれらに関連する制限を、リンクとともに説明してください。
データセットには機密とみなされる可能性のあるデータ（医師と患者の機密性によって保護されているデータなど）が含まれていますか?

データセットが人に関するものであれば、次のものも含まれることがあります。

データセットは人口グループ（年齢、性別など）を識別していますか？識別している場合は、どのように識別したかを説明し、データセット内のそれぞれの分布について説明してください。
データセットから直接的または間接的に（他のデータと組み合わせて）個人（1 人以上の自然人）を識別することは可能ですか?
データセットには、機密と見なされる可能性のあるデータ（政治的意見、身元や場所に関するデータ、財務データや健康データ、生体認証データや遺伝子データ、ID カードなどの政府発行の身分証明書など）が含まれていますか?

2.3 コレクション

データ取得プロセスにより、類似の特性を持つ代替データセットを作成できます。これには次のものが含まれます。

各インスタンスに関連付けられたデータはどのように取得されましたか? このデータは直接観察可能でしたか (例: 生のテキスト、映画の評価)、または他のデータから間接的に推測/派生されましたか (例: 品詞タグ、年齢、言語)? データが他のデータから間接的に推測/派生された場合、検証されましたか?
データの収集にはどのようなメカニズムや手順が使用されていますか (ハードウェアデバイスまたはセンサー、人的管理、ソフトウェアプログラム、ソフトウェア API など)? これらのメカニズムまたは手順はどのように検証できますか?
データセットがより大きなセットからのサンプルである場合、サンプリング戦略は何ですか (例: 決定論的、特定のサンプリング確率による確率論的)?
データ収集の期間はどのくらいですか? この期間は、インスタンスに関連付けられたデータ (最近クロールされた古い記事など) の作成期間と一致していますか?
倫理審査プロセスは実施されましたか?

データセットが人に関するものであれば、次のものも含まれることがあります。

データは関係者から直接収集されたものですか、それとも第三者または他のソース (Web サイトなど) から取得されたものですか?
当該個人はデータ収集について通知されましたか? 通知されている場合、通知はどのように提供されましたか? リンクまたはその他のアクセスポイントを提供するか、または個人自身に通知してください。
当該個人は、データの収集と使用に同意していますか? 同意する場合は、リンクまたはその他のアクセスポイントを提供するか、個人の同意確認を複製してください。
同意が得られた場合、同意した個人に対して、後日または特定の用途で同意を撤回できるメカニズムが提供されていますか?提供されている場合は、リンクまたはその他のアクセスポイントを提供します。
データセットとその使用がデータ主体に及ぼす潜在的な影響について分析は実施されていますか? 実施されている場合、分析には結果、リンク、または裏付けとなる文書へのその他のアクセスポイントが含まれます。

2.4 前処理/洗浄/ラベル付け

データセットの消費者は、選択したタスクと互換性のある方法で「生の」データが処理されているかどうかを判断するために、処理を理解する必要があります。リストには以下が含まれます:

データは前処理/クリーニング/ラベル付けされていますか (例: 離散化、トークン化、品詞タグ付け、特徴抽出、インスタンス削除、欠損値処理)?
前処理済み/クリーニング済み/ラベル付け済みのデータに加えて、「生の」データも保存されていますか? その場合は、「生の」データへのリンクまたはその他のアクセスポイントを提供してください。
データの前処理/クリーニング/ラベル付けを行うソフトウェアは利用できますか? 利用できる場合は、リンクまたはその他のアクセスポイントを提供してください。

2.5 目的

データセットのアプリケーション境界とは何でしょうか? これらのタスクを明確にすることで、データセット作成者はデータセット利用者が十分な情報に基づいた決定を下し、潜在的なリスクや危害を回避できるように支援できます。

データセットは何らかのタスクに使用されていますか? 使用されている場合は、それらのタスクについて簡単に説明してください。
データセットを使用するすべての論文やシステムにリンクするリポジトリまたはシステムはありますか? ある場合は、リンクまたはその他のアクセスポイントを提供してください。
データセットはどのような（他の）タスクに使用できますか?
データセットの構成、またはデータセットの収集方法と前処理/クリーニング/ラベル付けの方法は、将来の使用に影響しますか?
データセットを使用すべきでないタスクはありますか? ある場合は説明してください。

2.6 配布

データセットの配布は、データセットが代表する組織の内部で行われるか、または外部の第三者に対して行われます。リストには以下が含まれます。

データセットは、データセットによって表される組織以外の第三者 (企業、機関、組織など) に配布されますか?
データセットはどのように公開されますか (例: ウェブサイトのダウンロードリンク、API、GitHub など)? データセットには DOI がありますか?
データセットはいつ配布されますか?
データセットは著作権またはその他の知的財産ライセンスの使用条件に基づいて配布されますか? その場合は、ライセンスおよび/または使用条件を説明し、リンクまたはその他のアクセスポイントを提供してください。
インスタンスに関連付けられたデータに対して IP ベースまたはその他の制限を課しているサードパーティは存在しますか?
データセットの配布に関して、何らかの制御や制限はありますか?

2.7 メンテナンス

あなたを支えてくれる人がいない人生は送らないでください。データセットのメンテナンス計画に関しては、チェックリストには次の内容が含まれる場合があります。

データセットをサポート/ホスト/保守するのは誰ですか?
データセットの所有者またはキュレーターに連絡するにはどうすればいいですか (例: 電子メールアドレス)?
正誤表はありますか? ある場合は、リンクを提供してください。
データセットは更新されますか (例: ラベル付けエラーの修正、新しいインスタンスの追加、インスタンスの削除)? その場合、データセットの消費者にはどのくらいの頻度で、誰が、どのように通知しますか?
データセットが人に関するものである場合、インスタンスに関するデータの保持に関して適用可能な制限はありますか? ある場合、これらの制限はどのように適用されますか?
データセットの古いバージョンは引き続きサポート/ホスト/保守されますか?
他の人がデータセットを拡張/強化/構築/貢献したい場合、そのためのメカニズムはありますか? それらの貢献は検証/検証されますか?

3. データセットインベントリ管理の役割と影響

データセットのインベントリ管理では、不要なバイアスや潜在的なリスクを軽減するための完全なソリューションは提供されません。データセットの作成者は、データセットのあらゆる使用方法を予測できるとは限りません。人間関連のデータセットを作成する場合、より適切にデータを収集するために、複数の分野の専門家と協力する必要がある場合があります。

データセットの在庫管理は必然的にデータセット作成者のコストを増加させます。チェックリストには一回限りの問題に対するオプションが多くありますが、チェックリストを作成するプロセスには常に時間がかかり、組織のインフラストラクチャとワークフローを変更する必要があり、開発コストもかかります。動的なデータセットではインベントリリストとワークフローが問題になる可能性があり、データセットのインベントリを頻繁に更新するとコストがかかる可能性があります。

それでも、データセットのインベントリ管理により、データセット作成者とデータセット利用者間のコミュニケーションが改善され、データセット作成者は透明性と信頼性を区別できるようになります。全体として、データセットのインベントリ管理には、欠点よりも利点の方が多いはずです。

<<: 衣服にNFCを追加: 袖をかざすだけで安全に支払い

>>: 人工知能産業の急速な発展により、2021年以降、人工知能セキュリティの市場スペースは巨大になるでしょう。