「人は食べたものでできている。私たちはモデルにジャンクフードを与えている」とフェイスブックのAI研究科学者ムスタファ・シセ氏は最近の会話の中で語った。 (インターネットからの写真) 食べ物に何が含まれているか分からないと、正しく食べるのは難しいです。同様に、トレーニング データがどのように機能するかを理解していないと、バイアスの少ないモデルをトレーニングすることはできません。 だからこそ、最近の論文「データセット用のデータブックの作成」https://arxiv.org/abs/1803.09010 は非常に興味深いのです。論文では、Microsoft Research の Timnit Gebru 氏と同僚が、他の学術研究機関の共著者とともに、データセットに食品の栄養成分表示に相当するものを提案しました。 多くの機械学習およびディープラーニング モデルは、ImageNet や COCO などの公開データセット、または非公開で作成されたデータセットを使用する傾向があります。これらのデータセットでは、トレーニング データセットの内容、バイアス、その他の関連資料を関心のあるユーザーに伝達できることが非常に重要です。 「データブック」論文では、標準化されたデータブックを使用して、データセット、商用 API、および事前構築されたモデルのユーザーにこの情報を伝達するためのオプションについて説明します。著者らは、このようなデータマニュアルは、ユーザーがデータの偏りを伝えるのに役立つだけでなく、情報の透明性を高め、データの信頼性を保証できるとも指摘している。 潜在的な倫理的問題に加えて、サードパーティのデータを使用してトレーニングされたモデルがさまざまなコンテキストに適切に一般化できない場合、隠れたデータのバイアスによって、展開されたシステムの予測不可能性や障害が発生する可能性があります。もちろん、最善の選択肢は、サードパーティのデータを収集し、その分野の専門知識と深い洞察力を持つ専門家によって構築およびトレーニングされたモデルを使用することです。 広く利用可能な公開データセット、使いやすい機械学習ツール、簡単にアクセスできる AI API、および事前に構築されたモデルにより、AI が民主化され、ますます多くの開発者が AI テクノロジーをアプリケーションに組み込むことができるようになりました。著者らは、AIデータセットとツールのデータシートを作成することで、その分野の専門知識を持たないエンジニアに基本的な情報を提供でき、データセットの誤用によって引き起こされる問題を軽減できる可能性があると示唆している。 情報セキュリティ企業 Terbium Labs の CTO である Clare Gollnick 氏も、科学と AI における再現性の危機について私たちと話し合った際に同様の指摘をしました。彼女は、開発者はより深く複雑なモデルを使って問題を解決することに重点を置く傾向があり、それが本番環境で使用されると一般化の問題に悩まされることが多いことを懸念しています。むしろ、研究者が AI の問題に取り組むためにその分野の既存の専門知識と洞察力を活用すると、より堅牢な結果が得られることを発見しました。 ゲブル氏と共著者らは論文の中で、自動車、製薬、電気などの新興産業の成長に伴って進化してきた安全規制によってAIがまだテストされていないと指摘している。記事では次のように述べられています。 アメリカで初めて自動車が登場したとき、速度制限、一時停止標識、信号、運転者教育、シートベルトや飲酒運転に関する規制はありませんでした。その結果、1900 年代初頭には衝突、スピード違反、無謀運転により多くの死傷者が出ました。 自動車業界をはじめとする業界では、何十年にもわたり、公共の利益を守るために制定された規制を継続的に見直し、改善してきましたが、業界自身の技術革新も停滞していません。この論文は、特に医療や公共部門などの高リスクの業務で AI が使用され始めていることから、AI に関する法律や規制の策定について検討を始める時期が来ていると主張しています。欧州の今後の一般データ保護規則(GDPR)はこれらの問題に対処する予定です。 この論文で提案されている「データシート」は、電気部品に関連した概念から生まれたものです。販売されるすべての電子部品には、部品の機能、特徴、動作電圧、物理的詳細などを記載した対応する「データシート」が付属しています。これらのデータ シートは、購入前に部品の性能や誤用時の考えられる反応を理解する必要があるユーザーに、必要なサポートを提供します。 (サンプル写真はインターネットより) 著者らは、データセットまたは API のプロバイダーがさまざまな標準化の問題に対処するために「データブック」を含めることを提案しています。この「データブック」には、次のトピックを含める必要があります。
上記のトピックの詳細な説明については、論文を参照してください。この論文には、さまざまな補足情報も含まれており、UMAS Labeled Faces in the Wild データセットの「データブック」の例も提供されています。これは包括的で使いやすく、効果のあるモデルです。 このような「データブック」により、ユーザーは使用するデータの長所と限界を理解し、バイアスや過剰適合などの問題を防ぐことができます。同時に、「データブック」は、データセットの作成者とユーザーがデータソースをさまざまな角度から考え、データが「事実」として存在するものではなく、慎重に扱い、維持する必要がある重要なリソースであることを理解するように総合的に促すこともできます。 私は電気技師ではありませんが、この興味深いアイデアには本当に感謝しています。 |
<<: AIが皮膚がんの診断で17カ国の皮膚科医58人に勝利
>>: 北京で人工知能アイスクリームマシンがデビュー、IBMは「AI + ブロックチェーン」でダイヤモンドを識別
[51CTO.comより引用] 近年、人工知能が大流行し、多くの大企業、中堅企業、中小企業が動き始め...
AI は近い将来、IT リーダーにとって最優先事項となる可能性が高いものの、レポートでは、世界中で経...
ちょうど本日、DeepMind は AlphaFold の最新の進捗状況である「AlphaFold-...
金融分野における人工知能(AI)の応用は、特に株式市場の分析と予測において、幅広い注目と議論を集めて...
4月19日、ガーディアン紙は、ロボットの将来について語ったインタビューで、再帰型ニューラルネットワー...
2017年にはすでに「残高不足」が発生。今年、中国の人工知能開発は多くの進歩を遂げ、実りある成果を達...
最近、清華大学ビッグデータ研究センターの機械学習研究部門は、効率的で簡潔な転移学習アルゴリズムライブ...
最近、教育部は「教育部の高等大学教育の建設を加速し、人材育成能力を全面的に向上させることに関する意見...
マイクロソフトは火曜日、中小企業が同社の生産性向上アプリ内で仮想アシスタント「Copilot」を利用...
進化する人工知能により、電子商取引分野におけるウェブサイトのアクセシビリティ訴訟のリスクを最小限に抑...
顔認識技術は、Google、Facebook、Alibaba、Tencent、Baiduなどの国内外...
マスク氏が投稿したXダイナミックにより、Microsoft Windowsは論争の中心となった。事件...
[[412404]]データの視覚化はビジネス指標を理解するための最新の方法です情報の世界におけるテク...