より良い機械学習にはより良いデータ注釈が必要

Apple の誰かがラベル付きデータを収集するために数億ドルを費やしましたが、まだ良い結果は得られていません。人々は AI が非常に強力であることを認識しています。しかし、これを実現するには、大量のトレーニングデータを取得する必要があります。

[[441112]]

この需要を見て、多くの専門的なラベリング会社が誕生しました。たとえば、Datasaur は自動データ注釈付けソフトウェアです。もちろん、データのラベル付けは、特に AI プロジェクトの初期段階では手動で開始する必要があります。プロジェクトの途中または終了時には、機械学習自体を使用して、データに自動的にラベルを付けたり、合成データを生成したりすることができます。

Datasaur ソフトウェアの主な目的は、手動によるデータ注釈の操作を簡素化し、最低コストでより高品質のトレーニングデータを作成できるようにすることです。一日中データにラベルを付ける必要がある上級ユーザーを対象としているため、ラベル付けプロセスを高速化するためのファンクションキーや、専用のデータラベリングシステムに適したその他の機能も作成されています。

しかしその過程で、Datasaur は偏見を排除するなど、他のいくつかの目標も掲げていました。また、ラベリングのガイドラインを明確に表現し、ラベリング基準が長期にわたって維持されるようにするためのプロジェクト管理機能も提供されます。

データ注釈の主観的な性質は、この分野が落とし穴に満ちている理由の 1 つです。

たとえば、記事を家族向けかどうか自動的にラベル付けする方法を考えます。通常は、PG、PG13、R などの映画の評価システムを参照できます。当然、これは非常に簡単な作業だと思われるでしょう。そして、テクノロジー企業が適切と考えるものと映画業界が適切と考えるものは非常に異なることが判明しました。グレーゾーンの例も多く、何が適切で何が不適切であるかについては社会の見方によって大きく異なります。

こうした種類の問題を解決するのに近道はありません。ただし、これらのデータ注釈の質問に答えるための意思決定ツリーを提供するなど、企業がこれらのビジネスプロセスを自動化できるようにする方法はあります。そこで、Datasaur ソフトウェアが開発されました。

チームにデザイナー用の Photoshop を作成するように依頼する人はいないでしょう。 Photoshop の既成コピーを購入するだけです。データのラベル付けだけが必要な場合は、このような専門会社を見つけることもできます。

当初、多くの顧客はコンピュータービジョンが最も注目されている AI テクノロジーだと考えていました。しかし最近では、NLP の使用事例、特に BERT や GPT-3 などの大規模なモデルに依存する使用事例が非常に注目されています。その結果、Datasaur 製品は注目を集めるようになり、毎週 100 万件のデータのラベル付けに使用されるようになりました。Netflix、Zoom、Heroku などの有名企業で使用されています。

Datasaur は、iMerit などの専門的なデータ注釈機関でも使用されています。世界中に 5,000 人の従業員を擁する iMerit は、データラベリング業界で強力な存在に成長しました。同社には、多くの有名企業を含む 100 社の顧客がおり、これらの顧客は同社のデータ注釈ネットワークを使用して、高品質のラベル付きデータとディープラーニングモデルを連携させています。

データのラベル付けは主観的な性質を持つため、単純な処理ではありません。

多くの場合、座ってデータがどこにあるのか、何が必要なのかを把握する必要があります。それは単なるツール、人材、プロセス以上のものです。これら3つを組み合わせたものです。

コンテキストは、データ注釈プロセスにとって非常に重要です。これはおそらく、機械が文脈を理解する能力が低いためでしょう。 AI の使用事例が絶えず変化しているためかもしれません。理由が何であれ、その必要性は明らかです。

高品質のトレーニングデータを開発するにはコンテキストがいかに重要であるかを示すために、トラックに乗った建設作業員の例を見てみましょう。トラックに座っている作業員を想像してください。作業員はメンテナンスセクションに到着するたびに、トラックから降りて作業をし、その後再びトラックに乗らなければなりません。したがって、データのラベル付けに関する質問は次のようになります。作業員は歩行者ですか? トラックの一部ですか? それとも別の人ですか?

車両を数える場合、作業員が車両に乗り降りするかどうかは考慮しません。関心があるのは建設車両だけですが、ゴミ収集車にぶつからないように他の何か（自動運転や交通流制御など）を操作しようとしている場合は、ゴミ収集車の動きが大きな関心事になります。疑わしい行動を探している場合は、同様の行動のリストからゴミ収集車を除外する必要があります。

しかし、AI が適用される視点に応じて、労働者の状態が異なることは明らかです。データのラベル付けについては、データが異なる時期に異なるラベルを持つ可能性があるという事実を証明します。時には、答えが一つだけではないこともあります。

データ注釈付けプロセスの綿密さはデータ品質の向上に非常に重要であり、機械学習モデルの予測推論品質に直接影響します。データにより予測精度が 60% ～ 70% に達することもあれば、95% に達することもあります。

使用ケースによっては、精度が重要になります。ビデオで万引きを検出するモデルを構築する場合、偽陰性（盗難に気付く）と偽陽性（無実の顧客を非難する）の間には大きな違いがあります。

<<: AI プロジェクトの 85% が失敗します。何が悪かったのでしょうか?

>>: 人工知能は教育にどのような変化をもたらすのでしょうか?

より良い機械学習にはより良いデータ注釈が必要

Android はなぜ弱い暗号化を使用するのでしょうか?

一枚の写真で3D顔モデリングを実現！中国科学院の博士課程学生による ECCV に関する新たな研究 | オープンソース

座標系の変換を本当に理解していますか?自動運転にはマルチセンサーが不可欠

2020年グローバルNLP業界レポート：NLPテクノロジー予算が30％増加

新技術により大規模人工知能モデルの処理性能が効果的に向上

2020年以降に変化をもたらす8つのAIトレンド

信用デフォルト予測モデリングでは、ランダムフォレストが 91.1% でトップに！

ハッカーたちは猫娘を作成する代わりに、一流の原子力研究所から何十万ものデータを盗んだ...

ディープラーニングの学習をすぐに始めないでください。非常に詳細な AI 専門家のロードマップ、GitHub は数日間で 2.1k のスターを獲得

エッジコンピューティング、人工知能、サーマルイメージング - スマートセキュリティの未来

推薦する

人工知能の安全で制御可能な開発について議論するために、AIセキュリティと産業ガバナンスフォーラムが正式に開催されました。

2020 年の人工知能におけるトップ 10 の技術進歩

2021 年の人工知能と自動化のトレンド

AIはいかにして「医療の神様」となったのか？

スタンフォード HAI が主催: 世界中で 18 の主要な AI イベント

テクノロジー | 12人の専門家が2021年の人工知能の発展動向について語る

AIの「冬」にご用心

よりスマートなモバイルプラットフォームを構築するため、Ant mPaaS5.0がYunqiカンファレンスで発表されました

マイクロソフト、テンセント、インテルがキュウリを栽培する理由：AIのせい

高度な数学に希望があります！ニューラルネットワークは1秒未満で偏微分方程式を解く

労働者の皆さん、ご注意ください: AI は組立ラインの労働者を置き換えるものではなく、管理者を置き換えるものです。

AIoTは公共交通機関をよりスマートかつ安全にします

Transformerの本質的欠陥を解決する：復旦大学らが提案した線形複雑性SOFT

人工知能＋5G：時代はあなたに挨拶もせずに見捨てた？