AIによって殺された最初の人々を見てみましょう

過去2日間、「絵を当てようソング」がスクリーンのあちこちで流れていた

その背後にあるAIブラックテクノロジー

基本的な機械学習手法に頼る

▼

教師あり学習

この方法は多くの手作業を必要とします

膨大な量のデータにラベルを付けて分類する

次に、データをマシンに入力してトレーニングします。

「絵当てソング」で見たもの

それは単なる最終結果です。AI は 1 つの例から推論を導き出すことができます。

しかし、その前に、それは厳しい「肉体労働」と切り離せないものである。

今日お話しする内容

これが、これらのデータラベラーの生存状況です。

彼らは呼ばれている

「AIに疲弊して死んだ最初の人々」

「知性と同じくらい人工的なものも存在する」これは、AI の進化が必ず経なければならないプロセスのようです。

コンピューターの画面に一対の目の詳細な画像が表示されました。小慧は拡大された目の点を段階的にマークしました。

一見すると、コンピューター画面の列には似たような画像が表示されます。カーテンの遮光効果が高いせいか、少し薄暗いオフィス環境と、コンピューターの画面に映し出されたさまざまな物体の細部が拡大されて、かなり不気味な感じがした。

ある人工知能研究機関でこの光景を見て、大手のAIスタートアップ企業にとっても、最も重要なリンクは依然としてデータラベラーから始まるということに驚きました。

そして、これらは AI によって疲弊して死んだ第一陣と呼ばれる人々のグループです。

AI先生が描いたフレーム内の人々

AIの台頭に伴う最も重要な技術はディープラーニングです。ディープラーニングの基盤となるニューラルネットワークは入力指向のアルゴリズムであり、その結果の精度は「無限」の大きさに近いデータに依存します。

したがって、これらの複雑な中間リンクとは別に、ディープラーニングで最も重要なことは、大量のデータトレーニングが必要であることです。これが、インターネットビッグデータの時代にAIが台頭できる理由です。データのトレーニングの前に、機械学習の前提条件として大量のデータにラベルを付ける必要があります。

そのため、多数のデータラベラーが登場しました。

簡単に言えば、データラベラーは AI 教師に似ています。たとえば、機械にリンゴを認識するように教えたい場合、リンゴの写真を直接与えても、機械はまったく理解できません。まずリンゴの写真を用意し、その上に「リンゴ」という単語をマークする必要があります。機械は写真から多数の特徴を学習しました。これで、リンゴの写真をどれでも見せれば、機械はそれを認識できるようになります。

現在の注釈者の業務内容には、句読点、ラベル付け、セグメンテーション、注釈などが含まれると理解されています。その中で、分類は最も一般的なラベリングであり、たとえば、動物の毛の色、動物の耳などを画面上にマークします。フレーム選択は、画像内の対応するオブジェクトをフレームでマークすることです。また、ポイントマーキングもあり、これは通常、より詳細な顔のマーキングに使用されます。眉毛、目、鼻、口などの重要なポイントには、20 を超えるマーキングポイントが必要です。

基本的な業務内容から、データラベリングは非常に退屈で耐久テスト的な仕事であることがわかり、AIに代表されるハイテクと比較すると、ラベリングには技術的な内容がないように思えます。

産業チェーンの始まり

しかし、料理が上手な人でも、米がなければ料理はできません。AIアルゴリズムのトレーニングは、こうした大量のデータアノテーションから切り離すことはできず、それに伴うデータアノテーションのアウトソーシングビジネスもホットな産業となっています。

ITjuziのビッグデータアノテーション企業アルバムには合計6社が含まれており、そのうち5社は2017年から2018年の間に数千万の資金調達を受けています。

2017年7月、BasicFinderは1,000万人民元のプレAラウンドの資金調達を完了しました。
2017年11月、Longmao DataはシリーズA資金調達で3,370万人民元を調達しました。
2018年1月、Stardust DataはプレAラウンドの資金調達で1,000万人民元を調達しました。
2018年3月、Aisu WisdomはシリーズAの資金調達を実施しました。
2018年5月、Zhoutong Technologyは2,000万人民元のシリーズA資金調達を完了しました。

同時に、それぞれの事業の方向性も多少異なります。画像処理が得意な企業もあれば、ビデオラベリングが得意なデータラベリング企業もあります。これらの企業のサービス企業には、百度、小米、京東、今日頭条などのインターネット企業や、Mobvoi、SenseTimeなどのAI企業が含まれます。

さらに、JD.com、Baidu、Tencent、Alibaba などの企業には、独自のラベリングプラットフォームとツールがあります。

海外では、Amazonがクラウドソーシングデータプラットフォーム「Amazon Mechanical Turk」を立ち上げたほか、スタートアップ企業としてCrowdFlower、Mighty AIなどがある。

これらはすでにこの分野のリーダーであり、その下に何百もの小規模なデータラベリング企業が存在します。

データラベリング業界では、上流のテクノロジー大手が中流のデータラベリング企業に業務を委託し、中流の企業が下流の中小企業や工房にクラウドソーシングするという分業体制が取られているとの報告がある。一部の小規模工房では、学生や主婦などの「散弾銃ゲリラ」にさらにクラウドソーシングする。

この業界チェーンでは、下請け現象が深刻になるほど、トップレベルのデータサービス企業の価格は低下します。階層を成す「データダフ屋」が利益率を圧迫するため、いくつかのタスクの報酬は、何度も下請けされた後、驚くほど低くなっています。

現在、データラベリング作業は主に河北省、河南省、山東省、山西省などの労働集約型地域に集中しています。このような場所が選ばれたのは、より低い人件費で大量のデータラベリング作業を完了できるためでもあります。

データラベリングに関する多くのレポートで最も頻繁に登場するのは、専門学校や技術学校を卒業した学生です。第3、第4都市では、データラベリングの作業を行うには、コンピューターの操作方法さえ知っていれば十分です。しかし、退屈で反復的な作業のため、データラベラーの離職率が非常に高くなります。以前、The Paperとのビデオインタビューで、データラベリング会社の創設者は、従業員は約500人いるが、そのうちフルタイムで働くのは11人か12人だけだと語っていた。

一部の大手データサービス企業によれば、プラットフォーム利用者（データラベラー）の数は20万人を超えており、その多くはパートタイム労働者だという。

しかし、急速な人口移動も、低敷居のデータラベリングビジネスの急成長を止めることはできません。

知能の数だけ人工知能が存在する

一部のデータサービスプラットフォームでは、手動によるラベル付けを支援する AI ツールが開発されていますが、エラーをチェックして修正するには、依然としてデータラベラーが必要です。一部の専門的なデータラベリング会社では、機械によるラベリングが 30% を占め、手動によるラベリングが約 70% を占めています。

データラベラーの作業ロジックを整理するのはパラドックスのようなものです。AI がよりインテリジェントに進化できるかどうかは、ある程度、これらのラベリング作業を行う人々に依存しますが、この仕事は最もインテリジェントでなく、最も技術的ではありません。

インタビューで、ラベラーの管理責任者がテスラの自動運転事故を従業員の「モチベーション」を高めるために利用していたのを覚えています。彼は、2016年に自動運転モードのテスラが自動車事故に巻き込まれたことを話していました。その後、テスラは、白いトラックは青空を背景に識別できなかったため、ブレーキを作動させなかったという声明を発表した。

「私はいつも彼らにこう言っています。『あなたが磨いたデータの1つ1つが人工知能に大きく貢献します。将来の自動運転車は、あなたがマークした青空の下にある白いトラックを認識できるようになります。』」

この一見無意味かつ非効率的な作業は、私たちの技術に対する理解に沿うように AI によって行われるべきです。なぜなら、人工知能を開発する本来の目的は、生産性を解放し、生産効率を向上させることだからです。

AI は実際には、最も必要とされる作業を行うのに無力です。AI が労働集約的な作業に取って代わるためには、まず AI に奉仕し、集中的で大変な作業を行う必要があります。これにより、データラベリング作業はサイバーパンク、ディストピア、そして「魔法」のように見えます。

しかし、さらに苛立たしいのは、AI を手動でトレーニングすることにはまだ多くの問題があることです。

以前、清華大学人工知能学院長の張北院士は、純粋にデータ駆動型のシステムにも大きな問題があると述べていた。それは、堅牢性が低く、大きな干渉を受けやすいということだ。トレーニングされたシステムモデルの精度が 99% と高い場合でも、実際のアプリケーションでは依然として多くの「***」エラーが発生します。

これは悪循環につながります。人間がAIのようにデータの手順を厳密に守り、完璧に作業を完了することは不可能です。技術自体の間違いや問題は、人工知能の不正確さにつながります。最後に、このループで最適化を続けます。

さらに、データのプライバシーと企業の商業的利益を考慮すると、同じ種類のデータは互いに接続できません。データアノテーションのベテラン実践者は、「自動運転分野のデータアノテーションを例に挙げてみましょう。A社のデータモデルをB社の機器に取り付けましたが、機能しませんでした。カメラの角度、位置、解像度を変えても、やはり機能しませんでした」と述べています。

「知性と同じくらい人工的なものも存在する」これは、AI の進化が必ず経なければならないプロセスのようです。

結論

もちろん、最良のシナリオは、AI が大量のデータを処理して自ら学習できることです。現在、ラベル付けされたデータを必要としない教師なし学習は研究室から応用へと移行しており、同様の転移学習アルゴリズムによっても、データのラベル付け作業負荷を一定量削減することができます。

Facebookの人工知能研究部門の責任者であるヤン・ルカン氏はかつて、AIの核心は予測にあり、AIの次の変革は教師なし学習と常識学習であると述べた。研究者たちは、人間の訓練に頼ることなく、AI が世界の仕組みを観察し、予測を学習できるように取り組んでいます。

したがって、理想的な環境では、私たちが議論しているパラドックスは数年、あるいは十数年で完全に解決され、AIに奉仕し、最終的にはAIに置き換えられる人々も「使命を果たして引退」していることになるかもしれません。

<<: 機械学習チームにはより優れた特徴エンジニアリング技術が必要

>>: 人工知能は「人工知能」にどれだけ「知性」を押し付けているのか