より良い機械学習にはより良いデータ注釈が必要

より良い機械学習にはより良いデータ注釈が必要

Apple の誰かがラベル付きデータを収集するために数億ドルを費やしましたが、まだ良い結果は得られていません。人々は AI が非常に強力であることを認識しています。しかし、これを実現するには、大量のトレーニングデータを取得する必要があります。

[[441112]]

この需要を見て、多くの専門的なラベリング会社が誕生しました。たとえば、Datasaur は自動データ注釈付けソフトウェアです。もちろん、データのラベル付けは、特に AI プロジェクトの初期段階では手動で開始する必要があります。プロジェクトの途中または終了時には、機械学習自体を使用して、データに自動的にラベルを付けたり、合成データを生成したりすることができます。

Datasaur ソフトウェアの主な目的は、手動によるデータ注釈の操作を簡素化し、最低コストでより高品質のトレーニング データを作成できるようにすることです。一日中データにラベルを付ける必要がある上級ユーザーを対象としているため、ラベル付けプロセスを高速化するためのファンクション キーや、専用のデータ ラベリング システムに適したその他の機能も作成されています。

しかしその過程で、Datasaur は偏見を排除するなど、他のいくつかの目標も掲げていました。また、ラベリングのガイドラインを明確に表現し、ラベリング基準が長期にわたって維持されるようにするためのプロジェクト管理機能も提供されます。

データ注釈の主観的な性質は、この分野が落とし穴に満ちている理由の 1 つです。

たとえば、記事を家族向けかどうか自動的にラベル付けする方法を考えます。通常は、PG、PG13、R などの映画の評価システムを参照できます。当然、これは非常に簡単な作業だと思われるでしょう。そして、テクノロジー企業が適切と考えるものと映画業界が適切と考えるものは非常に異なることが判明しました。グレーゾーンの例も多く、何が適切で何が不適切であるかについては社会の見方によって大きく異なります。

こうした種類の問題を解決するのに近道はありません。ただし、これらのデータ注釈の質問に答えるための意思決定ツリーを提供するなど、企業がこれらのビジネス プロセスを自動化できるようにする方法はあります。そこで、Datasaur ソフトウェアが開発されました。

チームにデザイナー用の Photoshop を作成するように依頼する人はいないでしょう。 Photoshop の既成コピーを購入するだけです。データのラベル付けだけが必要な場合は、このような専門会社を見つけることもできます。

当初、多くの顧客はコンピューター ビジョンが最も注目されている AI テクノロジーだと考えていました。しかし最近では、NLP の使用事例、特に BERT や GPT-3 などの大規模なモデルに依存する使用事例が非常に注目されています。その結果、Datasaur 製品は注目を集めるようになり、毎週 100 万件のデータのラベル付けに使用されるようになりました。Netflix、Zoom、Heroku などの有名企業で使用されています。

Datasaur は、iMerit などの専門的なデータ注釈機関でも使用されています。世界中に 5,000 人の従業員を擁する iMerit は、データ ラベリング業界で強力な存在に成長しました。同社には、多くの有名企業を含む 100 社の顧客がおり、これらの顧客は同社のデータ注釈ネットワークを使用して、高品質のラベル付きデータとディープラーニング モデルを連携させています。

データのラベル付けは主観的な性質を持つため、単純な処理ではありません。

多くの場合、座ってデータがどこにあるのか、何が必要なのかを把握する必要があります。それは単なるツール、人材、プロセス以上のものです。これら3つを組み合わせたものです。

コンテキストは、データ注釈プロセスにとって非常に重要です。これはおそらく、機械が文脈を理解する能力が低いためでしょう。 AI の使用事例が絶えず変化しているためかもしれません。理由が何であれ、その必要性は明らかです。

高品質のトレーニング データを開発するにはコンテキストがいかに重要であるかを示すために、トラックに乗った建設作業員の例を見てみましょう。トラックに座っている作業員を想像してください。作業員はメンテナンスセクションに到着するたびに、トラックから降りて作業をし、その後再びトラックに乗らなければなりません。したがって、データのラベル付けに関する質問は次のようになります。作業員は歩行者ですか? トラックの一部ですか? それとも別の人ですか?

車両を数える場合、作業員が車両に乗り降りするかどうかは考慮しません。関心があるのは建設車両だけですが、ゴミ収集車にぶつからないように他の何か(自動運転や交通流制御など)を操作しようとしている場合は、ゴミ収集車の動きが大きな関心事になります。疑わしい行動を探している場合は、同様の行動のリストからゴミ収集車を除外する必要があります。

しかし、AI が適用される視点に応じて、労働者の状態が異なることは明らかです。データのラベル付けについては、データが異なる時期に異なるラベルを持つ可能性があるという事実を証明します。時には、答えが一つだけではないこともあります。

データ注釈付けプロセスの綿密さはデータ品質の向上に非常に重要であり、機械学習モデルの予測推論品質に直接影響します。データにより予測精度が 60% ~ 70% に達することもあれば、95% に達することもあります。

使用ケースによっては、精度が重要になります。ビデオで万引きを検出するモデルを構築する場合、偽陰性(盗難に気付く)と偽陽性(無実の顧客を非難する)の間には大きな違いがあります。

<<:  AI プロジェクトの 85% が失敗します。何が悪かったのでしょうか?

>>:  人工知能は教育にどのような変化をもたらすのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

WeChatロボットの長期無料導入、初心者でも簡単にAIを始められる

以前、ローカルで WeChat ロボットを構築する方法を紹介しました。昨日、クラスメートから、ローカ...

クラウド ネイティブが新たな標準になりますが、人工知能はそれに備えていますか?

テクノロジーの発展に伴い、クラウド コンピューティング テクノロジーは進歩し続け、その目的も変化して...

...

ロボットがあなたの仕事を奪おうとしているのでしょうか?データはあなたが考えすぎている可能性を示唆している

編集者注:人工知能技術が進歩し続けるにつれ、職を失うことを心配する人が増えています。彼らの理由は、根...

自動運転AIアルゴリズムとマルチセンサー融合技術

高度な自動運転は、周囲の環境を高いレベルで認識し、人間の介入をほとんどまたはまったく必要とせずに車両...

...

アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ

アマゾンの幹部は7月27日、クラウドコンピューティング部門が人工知能サービス「ベッドロック」を試す顧...

新しい問題と古い問題の組み合わせは、個人情報保護に新たな課題をもたらします。

宅配ラベルのプライバシー漏洩、APPからの過度な権利要求、個人情報の違法収集・利用などの問題が依然と...

飛行、地中への潜水、海への潜水も可能な多機能ソフトロボット

2月10日のニュース(劉亜珠)最近、科学者たちは変形して運転、飛行、水泳ができる新しい「ソフト」ロボ...

もう感情を隠せない?歩く姿勢からAIがわかる!

歩き方は人それぞれ違います。歩き方は、その時々の気分など、あなたに関する秘密を明らかにします。たとえ...

...

AIがタンパク質構造を予測し、サイエンス誌とネイチャー誌の年間技術革新として掲載され、無限の可能性を秘めている

2021 年に AI 分野で最も画期的な賞を授与するとしたら、誰を選びますか? 「サイエンス」と「ネ...

...

ディープラーニングの父ヒントン氏が、人工知能を一新するカプセルネットワークの最新動向を発表

[[210898]]なぜ人々が人工知能にこれほど魅了されるのか分からないなら、69歳のGoogle研...