どこにでも「ゴミ」がある: 人工知能には高品質のデータが不足しています!

どこにでも「ゴミ」がある: 人工知能には高品質のデータが不足しています!

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。

ある意味、人工知能はこれまで私たちの想像をはるかに超えてきました。しかし、現実には、Siri は今日の天気をユーザーに伝えることすらできません。

問題は何でしょうか? モデルをトレーニングして測定するための高品質のデータセットを作成することは、依然として非常に困難です。 Reddit 分類器をトレーニングするために 1 日で 20,000 個のラベルを収集できるはずでしたが、代わりに 3 か月待って、スパムだらけのトレーニング セットを入手しました。

[[355008]]

4年前、AlphaGoが世界の囲碁の達人を破り、大手テクノロジー企業が機械学習の新興企業を次々と買収し、ニューヨークタイムズ紙は「機械学習はコンピューター技術に革命を起こすだろう」と宣言した。

[[355009]]

2016年、DeepMindはStarCraft 2をプレイするためのAIの構築を開始し、2019年末までに「AlphaStar」と呼ばれるAIプログラムがマスターレベルの成果を達成しました。

わずか数年のうちに、Alexa が私たちの家庭を占領し、Netflix が私たちの友人よりも優れた映画推薦をするようになるようです。

その後何が起こりましたか?

より高速な GPU により、ニューラル ネットワークのトレーニングのオーバーヘッドが削減され、より大規模なモデルのトレーニングが可能になります。新しいツールによりインフラストラクチャの作業が容易になります。

より主観的なタスクを実行することを学習できる新しいニューラル ネットワーク アーキテクチャも開発されています。たとえば、ブログ記事を書いたり、Hacker News の見出しを飾ったりできる言語ジェネレーターである OpenAi の GPT-3 モデルを考えてみましょう。

GPT-3 が生産性について書いたブログ投稿が Hacker News で話題になりました。

それで、改革はどこで行われたのでしょうか?

では、なぜ AI は世界を席巻していないのでしょうか? なぜ人々は GPT-3 を使用してブログ投稿を生成できるのに、ソーシャル メディア企業はフィードから炎上コンテンツを削除するのに苦労しているのでしょうか? なぜ e コマース企業は、超人的な StarCraft アルゴリズムを持っているにもかかわらず、トースターをもう 1 つ購入するよう勧め続けるのでしょうか? なぜモデルはリアルな画像 (および映画) を合成できるのに、顔認識はできないのでしょうか?

モデルは改善していますが、データは停滞しています。モデルは、依然としてエラーを含むデータセットでトレーニングされており、作成者が実際に意図したものと一致することはほとんどありません。

今のデータの何が問題なのか?入ってくるデータもゴミだし、出て行くデータもゴミだ

場合によっては、リンクやユーザー契約などのカテゴリに基づいてエージェントでデータがトレーニングされます。

たとえば、ソーシャル メディアのツイートは、ユーザーに最高のエクスペリエンスを提供するようにトレーニングされているわけではなく、データを取得する最も簡単な方法であるリンクとプロトコルを活用するようにトレーニングされているだけです。

しかし、「いいね」の数と量には何の関係もありません。衝撃的な陰謀論は非常に目を引きますが、自分のツイートでそれを見たいでしょうか? この不一致は、クリックベイトの急増、政治的な虚偽情報の広範な拡散、悪意のある扇動的なコンテンツの広範な存在など、多くの意図しない副作用を引き起こしています。

また、モデルは、ネイティブスピーカーではない人や、低品質の結果が検出されないことを知っている作業者によって作成されたデータセットでトレーニングされることもあります。次のツイートを例に挙げましょう。

典型的なタグ付け者は、「ビッチ」「クソ」「くそ」という言葉を認識し、たとえその悪口が前向きで前向きな態度に基づいていたとしても、そのツイートを有害だとマークするだろう。この状況はトレーニング セットで無数に発生します。データがモデルを定義します。データが誤って分類されたゴミである場合、機械学習の専門家であってもモデルが同様に役に立たなくなるのを防ぐことはできません。

どのような進歩が必要なのでしょうか?

データセットの問題は、さまざまな疑問を引き起こします。

パフォーマンスの低いモデルに直面したエンジニアは、製品の機能や新しいアルゴリズムをいじくり回すのに何ヶ月も費やしましたが、問題がデータにあることに気づきませんでした。家族や友人を結びつけるはずだったアルゴリズムは、代わりに激しい感情と怒りのコメントを生み出しました。これらの問題をどのように解決すればよいでしょうか?

(1)あなたが解決しようとしている問題を理解している熟練した高品質のトークナイザー

AI システムがますます高度化するにつれて、そのパフォーマンスを指導し測定するための高度で独創的な人間によるラベリング システムが必要になります。誤解を招く情報を選別できるほど世界について十分な知識を持つモデルや、クリック数ではなく時間を増やすアルゴリズムについて考えてみましょう。

この複雑さのレベルは、低技能労働者を増やすことで増大することはありません。私たちの機械がヘイトスピーチを理解し、アルゴリズムの偏りを識別するためには、これらの問題を自ら理解する高品質のラベリング力が必要です。

(2)機械学習チームと認識者にコミュニケーションの場を与える

機械学習モデルは常に変化しています。今日スパムと認識されたものが明日はそうではない可能性があり、パスワードのタグ付けの微妙な違いをすべて理解することは決してできません。

製品の構築がユーザーとエンジニア間のフィードバック主導のプロセスであるのと同様に、データセットの作成も同様にフィードバック主導のプロセスである必要があります。画像内の顔を数えるとき、漫画のキャラクターも数えますか? ヘイトスピーチにタグを付ける場合、引用符はどこに付けますか? タグ作成者は何千もの例を調べて曖昧さや洞察を発見しますが、データの品質を最大限に高めるには、双方がコミュニケーションを取る必要があります。

(3)目標関数は人間の価値観と一致している

モデルは、実際のターゲットの近似値に過ぎないデータセットでトレーニングされることが多く、意図しない相違が生じます。

たとえば、AIの安全性に関する議論では、機械が世界を脅かすほどの知能を発達させる可能性があると懸念する人もいます。これは遠い将来に起こる問題だと反論する人もいるが、今日のテクノロジープラットフォームが直面している最大の問題を見ると、すでに起こっているのではないだろうか。

たとえば、Facebook の使命は「いいね!」を獲得することではなく、私たちを友人や家族と結びつけることです。しかし、いいねやインタラクションを増やすようにモデルをトレーニングすることで、非常に魅力的ではあるが有害で誤解を招くようなコンテンツを広めることも学んでしまった。

Facebook がトレーニング目標に人間の価値観を注入できたらどうなるでしょうか? これは空想ではありません。Google 検索はすでに実験プロセスで人間による評価を使用しており、私たちが構築している AI システムも同様に行うことを約束しています。

データ駆動型AIの未来

本質的に、機械学習とは、コンピューターに良い例を示すことで、私たちが望むように動作するようにコンピューターに教えることです。では、機械学習エンジニアが高品質のモデルを構築するために習得する必要がある最も重要なスキルは、高品質のデータセットを構築し、それらが目の前の問題に適合していることを確認することではないでしょうか?

最終的に私たちが気にするのは、AI が人間の基準を超えているかどうかではなく、AI が人間のニーズを解決できるかどうかです。

コンテンツ モデレーションに取り組んでいる場合、データセットはヘイトスピーチを検出しますか、それとも肯定的で前向きな虐待も捕捉しますか?

次世代の検索および推奨システムを構築している場合、データセットはモデルの関連性と品質を設定していますか? それとも、魅力的に誤解を招き、クリックベイトになっていますか?

データセットの作成は学校で教えられるものではなく、アルゴリズムの開発に何年も取り組んできたエンジニアにとって、arXiv の最も洗練されたモデルに集中するのは簡単です。しかし、人工知能に私たちの真のニーズを解決してもらいたいのであれば、モデルを定義し、それに人間味を与えるデータセットについて深く考える必要があります。

<<:  建設業界におけるドローン

>>:  AIが中国の山水画を生成!プリンストン大学の女子学生が卒業制作で描いた線と筆致は、人間の観察者の半数を騙した。

ブログ    
ブログ    

推薦する

OpenAI セキュリティシステムディレクターが長文記事を執筆: 大規模モデルに対する敵対的攻撃と防御

ChatGPTのリリースにより、大規模な言語モデルのアプリケーションが加速し、大規模に展開されていま...

...

文字列マッチングのためのボイヤー・ムーアアルゴリズム

前回の記事では、KMPアルゴリズムを紹介しました。ただし、これは最も効率的なアルゴリズムではなく、実...

AIはイノベーションを通じて気候への影響を補うことができるでしょうか?

最も熱心な気候変動監視者でさえ希望を抱いている。なぜなら、人類の革新と技術が私たちをこの混乱に陥れた...

Microsoft Megvii の顔認識は 100% 動作不能! 写真の「見えないマント」で写真のプライバシー データを保護

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

うつ病で人生が押​​しつぶされたとき、AIを使ってうつ病を診断することで、どん底を味わう人々を救えるのでしょうか?

韓国のお笑いタレント、パク・チソンさんとその母親が自宅で死亡しているのが発見されたが、これはうつ病が...

マイクロソフト、NvidiaとIntelに対抗する2つのカスタムAIチップをリリース

マイクロソフトは最近、シアトルで開催されたIgniteカンファレンスで2つのAIチップをリリースした...

...

Canvasの画像認識技術とインテリジェントデザインについて考える

[[403856]]著者は最近、フロントエンドの視覚化と構築の技術を研究しています。最近、設計図に基...

公正な AI システムを構築するにはどうすればよいでしょうか?

人工知能はあらゆる業界の企業で急速に導入されており、企業は今後 3 年間で AI システムへの支出を...

...

このスタートアップは、アイドル状態のGPUを分散ネットワークに接続することで、AIモデルのトレーニングコストを90%削減できると主張している。

モンスターAPIは、採掘機器などのGPUコンピューティングパワーを使用してAIモデルをトレーニングし...

3D特殊効果アーティストはもう家に帰れる丨科学

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...