どこにでも「ゴミ」がある: 人工知能には高品質のデータが不足しています!

どこにでも「ゴミ」がある: 人工知能には高品質のデータが不足しています!

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。

ある意味、人工知能はこれまで私たちの想像をはるかに超えてきました。しかし、現実には、Siri は今日の天気をユーザーに伝えることすらできません。

問題は何でしょうか? モデルをトレーニングして測定するための高品質のデータセットを作成することは、依然として非常に困難です。 Reddit 分類器をトレーニングするために 1 日で 20,000 個のラベルを収集できるはずでしたが、代わりに 3 か月待って、スパムだらけのトレーニング セットを入手しました。

[[355008]]

4年前、AlphaGoが世界の囲碁の達人を破り、大手テクノロジー企業が機械学習の新興企業を次々と買収し、ニューヨークタイムズ紙は「機械学習はコンピューター技術に革命を起こすだろう」と宣言した。

[[355009]]

2016年、DeepMindはStarCraft 2をプレイするためのAIの構築を開始し、2019年末までに「AlphaStar」と呼ばれるAIプログラムがマスターレベルの成果を達成しました。

わずか数年のうちに、Alexa が私たちの家庭を占領し、Netflix が私たちの友人よりも優れた映画推薦をするようになるようです。

その後何が起こりましたか?

より高速な GPU により、ニューラル ネットワークのトレーニングのオーバーヘッドが削減され、より大規模なモデルのトレーニングが可能になります。新しいツールによりインフラストラクチャの作業が容易になります。

より主観的なタスクを実行することを学習できる新しいニューラル ネットワーク アーキテクチャも開発されています。たとえば、ブログ記事を書いたり、Hacker News の見出しを飾ったりできる言語ジェネレーターである OpenAi の GPT-3 モデルを考えてみましょう。

GPT-3 が生産性について書いたブログ投稿が Hacker News で話題になりました。

それで、改革はどこで行われたのでしょうか?

では、なぜ AI は世界を席巻していないのでしょうか? なぜ人々は GPT-3 を使用してブログ投稿を生成できるのに、ソーシャル メディア企業はフィードから炎上コンテンツを削除するのに苦労しているのでしょうか? なぜ e コマース企業は、超人的な StarCraft アルゴリズムを持っているにもかかわらず、トースターをもう 1 つ購入するよう勧め続けるのでしょうか? なぜモデルはリアルな画像 (および映画) を合成できるのに、顔認識はできないのでしょうか?

モデルは改善していますが、データは停滞しています。モデルは、依然としてエラーを含むデータセットでトレーニングされており、作成者が実際に意図したものと一致することはほとんどありません。

今のデータの何が問題なのか?入ってくるデータもゴミだし、出て行くデータもゴミだ

場合によっては、リンクやユーザー契約などのカテゴリに基づいてエージェントでデータがトレーニングされます。

たとえば、ソーシャル メディアのツイートは、ユーザーに最高のエクスペリエンスを提供するようにトレーニングされているわけではなく、データを取得する最も簡単な方法であるリンクとプロトコルを活用するようにトレーニングされているだけです。

しかし、「いいね」の数と量には何の関係もありません。衝撃的な陰謀論は非常に目を引きますが、自分のツイートでそれを見たいでしょうか? この不一致は、クリックベイトの急増、政治的な虚偽情報の広範な拡散、悪意のある扇動的なコンテンツの広範な存在など、多くの意図しない副作用を引き起こしています。

また、モデルは、ネイティブスピーカーではない人や、低品質の結果が検出されないことを知っている作業者によって作成されたデータセットでトレーニングされることもあります。次のツイートを例に挙げましょう。

典型的なタグ付け者は、「ビッチ」「クソ」「くそ」という言葉を認識し、たとえその悪口が前向きで前向きな態度に基づいていたとしても、そのツイートを有害だとマークするだろう。この状況はトレーニング セットで無数に発生します。データがモデルを定義します。データが誤って分類されたゴミである場合、機械学習の専門家であってもモデルが同様に役に立たなくなるのを防ぐことはできません。

どのような進歩が必要なのでしょうか?

データセットの問題は、さまざまな疑問を引き起こします。

パフォーマンスの低いモデルに直面したエンジニアは、製品の機能や新しいアルゴリズムをいじくり回すのに何ヶ月も費やしましたが、問題がデータにあることに気づきませんでした。家族や友人を結びつけるはずだったアルゴリズムは、代わりに激しい感情と怒りのコメントを生み出しました。これらの問題をどのように解決すればよいでしょうか?

(1)あなたが解決しようとしている問題を理解している熟練した高品質のトークナイザー

AI システムがますます高度化するにつれて、そのパフォーマンスを指導し測定するための高度で独創的な人間によるラベリング システムが必要になります。誤解を招く情報を選別できるほど世界について十分な知識を持つモデルや、クリック数ではなく時間を増やすアルゴリズムについて考えてみましょう。

この複雑さのレベルは、低技能労働者を増やすことで増大することはありません。私たちの機械がヘイトスピーチを理解し、アルゴリズムの偏りを識別するためには、これらの問題を自ら理解する高品質のラベリング力が必要です。

(2)機械学習チームと認識者にコミュニケーションの場を与える

機械学習モデルは常に変化しています。今日スパムと認識されたものが明日はそうではない可能性があり、パスワードのタグ付けの微妙な違いをすべて理解することは決してできません。

製品の構築がユーザーとエンジニア間のフィードバック主導のプロセスであるのと同様に、データセットの作成も同様にフィードバック主導のプロセスである必要があります。画像内の顔を数えるとき、漫画のキャラクターも数えますか? ヘイトスピーチにタグを付ける場合、引用符はどこに付けますか? タグ作成者は何千もの例を調べて曖昧さや洞察を発見しますが、データの品質を最大限に高めるには、双方がコミュニケーションを取る必要があります。

(3)目標関数は人間の価値観と一致している

モデルは、実際のターゲットの近似値に過ぎないデータセットでトレーニングされることが多く、意図しない相違が生じます。

たとえば、AIの安全性に関する議論では、機械が世界を脅かすほどの知能を発達させる可能性があると懸念する人もいます。これは遠い将来に起こる問題だと反論する人もいるが、今日のテクノロジープラットフォームが直面している最大の問題を見ると、すでに起こっているのではないだろうか。

たとえば、Facebook の使命は「いいね!」を獲得することではなく、私たちを友人や家族と結びつけることです。しかし、いいねやインタラクションを増やすようにモデルをトレーニングすることで、非常に魅力的ではあるが有害で誤解を招くようなコンテンツを広めることも学んでしまった。

Facebook がトレーニング目標に人間の価値観を注入できたらどうなるでしょうか? これは空想ではありません。Google 検索はすでに実験プロセスで人間による評価を使用しており、私たちが構築している AI システムも同様に行うことを約束しています。

データ駆動型AIの未来

本質的に、機械学習とは、コンピューターに良い例を示すことで、私たちが望むように動作するようにコンピューターに教えることです。では、機械学習エンジニアが高品質のモデルを構築するために習得する必要がある最も重要なスキルは、高品質のデータセットを構築し、それらが目の前の問題に適合していることを確認することではないでしょうか?

最終的に私たちが気にするのは、AI が人間の基準を超えているかどうかではなく、AI が人間のニーズを解決できるかどうかです。

コンテンツ モデレーションに取り組んでいる場合、データセットはヘイトスピーチを検出しますか、それとも肯定的で前向きな虐待も捕捉しますか?

次世代の検索および推奨システムを構築している場合、データセットはモデルの関連性と品質を設定していますか? それとも、魅力的に誤解を招き、クリックベイトになっていますか?

データセットの作成は学校で教えられるものではなく、アルゴリズムの開発に何年も取り組んできたエンジニアにとって、arXiv の最も洗練されたモデルに集中するのは簡単です。しかし、人工知能に私たちの真のニーズを解決してもらいたいのであれば、モデルを定義し、それに人間味を与えるデータセットについて深く考える必要があります。

<<:  建設業界におけるドローン

>>:  AIが中国の山水画を生成!プリンストン大学の女子学生が卒業制作で描いた線と筆致は、人間の観察者の半数を騙した。

ブログ    

推薦する

AIを規制するための答えは何でしょうか?なぜこれが重要なのでしょうか?

AntWorks の共同創設者兼 CEO である Asheesh Mehra 氏が、AI を規制す...

データマイニングの分野でトップ 10 の古典的なアルゴリズムの 1 つ - K-Means アルゴリズム (コード付きで非常に詳細)

k-means アルゴリズムは比較的単純です。 k-means アルゴリズムでは、クラスターはクラ...

ミストラルAIの新モデルはGPT-4をベンチマークしており、オープンソースではなくマイクロソフトと協力、ネットユーザー:当初の意図を忘れた

生成AIの分野で、新たな重量級の製品が登場しました。月曜日の夜、ミストラルAIは「フラッグシップ」の...

...

企業はアルゴリズムやデータを通じて、どのようにより深い堀を築くのでしょうか?

[51CTO.com からのオリジナル記事] データは今最もホットなものです。当時は「紙は洛陽と同...

Linuxに顔認識ログインを追加する方法

最近、Deepin OS 20.05がリリースされ、追加された顔認識機能がコミュニティの注目を集めて...

マスクを着用していても、AIはあなたが何を言っているか理解できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

世界各国の人工知能の配置をご存知ですか?

[[207472]]人工知能は未来をリードする戦略技術です。世界の主要先進国は人工知能の発展を国家...

...

人工知能時代の機械の未来

この記事では、人間が持っているが機械がまだ獲得していないいくつかの必要な能力を列挙し、現在の開発動向...

...

...

ディープマインドの共同創設者が新たなチューリングテストを提案:AIで10万ドルを100万ドルに増やす

ブルームバーグによると、6月21日、グーグルの人工知能研究機関ディープマインドの共同創設者ムスタファ...