Google AI チームが新しい「流体アノテーション」を発表: 画像アノテーションの速度が 3 倍に向上

Google AI チームが新しい「流体アノテーション」を発表: 画像アノテーションの速度が 3 倍に向上

(原題: Google が新しいソリューションを発表、画像注釈の速度が 3 倍に向上)

[[250506]]

従来の手動ラベル付け(中央の列)と流体注釈(右の列)の比較

Google の AI チームは最近、機械学習を使用して分類ラベルに注釈を付け、画像内の各オブジェクトと背景領域の輪郭を描く新しい画像注釈方法「流体注釈」を発表しました。 Google の担当者は、データセットのラベル付け速度を 3 倍に向上できると述べている。

昨年、百度の公開テストプラットフォームは5000万元相当のデータラベリングタスクをリリースし、今年は3億元に達すると予想されている。このような巨大な市場需要に直面して、効率が低く、配送品質が不均一な手動ラベリング方法は早急に改善される必要があります。 Google の「Fluid Annotation」はどのようにして画像注釈を高速化するのでしょうか?

データ注釈: 機械が世界を認識するための出発点

「データのラベル付けは人工知能産業の基礎であり、機械が現実世界を認識するための出発点です。ラベル付けされていないデータはある程度、役に立たないデータです。」カリフォルニア科学技術大学の学長である秦志剛教授は科技日報とのインタビューで、機械は主に物体のいくつかの特性を通じて物事を認識すると語った。識別されたオブジェクトには、機械がオブジェクトが何であるかを認識できるように、データでラベルを付ける必要もあります。

機械の世界では、音声やビデオと同様に、画像もデータの一種です。近年、デジタル製品やストレージ技術の急速な普及と発展により、人々はカメラ、ビデオ電話、監視、医療機器を通じて毎日大量の画像を作成できるようになりました。したがって、現段階では、画像が注釈業界の発展の焦点となっています。

素材が人物画像の場合、ラベル付けが必要な情報は、性別、顔の向き、人種、帽子やメガネの有無などであることが多いです。人物と背景の領域を人為的に分割することもできます。何千ものラベル付き画像からなるデータセットを機械に入力することによってのみ、機械は新しい画像の中で人がどのエリアにいるのか、またどのような外見的特徴を持っているのかを区別することができます。人間にとっては「子供の遊び」のような思考プロセスでも、機械のトレーニングには大量のラベル付きデータセットが必要です。

機械学習 - 手作業による注釈付けの負担を軽減

人工知能産業というと、繁栄した都市や有能なITエリートを思い浮かべる人が多いですが、実は人工知能を支えるデータラベリング産業は労働集約型産業です。 Baiduで「データラベリング」を検索すると、画像、音声、動画データを収集してラベル付けする企業が多数見つかります。このタイプのエントリをランダムに選択してクリックすると、「10,000 人のデータ注釈チーム」などの同様のスローガンが表示されることがよくあります。現時点では、手動によるラベル付けがデータラベル付けの主な方法であることがわかります。

「Googleが発表した流動的なラベル付けモデルは、主に人工知能学習の基盤を利用して画像データに自動的にラベル付けする。不正確なラベル付けや逸脱したラベル付けは手動で調整して、ラベル付けの効率を向上させることができる」と秦志剛氏は指摘した。同モデルは機械学習を使用してラベル付けの速度を向上させることができるが、初期トレーニングデータセットを提供するためには、最初は手動によるデータラベル付けが依然として必要だ。これはまさにその通りです。画像に注釈を付けるために、Google は分類ラベルと信頼スコアが付いた約 1,000 枚の画像を使用してセマンティック セグメンテーション モデルを事前トレーニングしました。

しかし、このモデルはまだ完璧ではない。Googleは、オブジェクト境界のマーキング、インターフェースの操作速度、カテゴリの拡張などの問題には、さらなる研究や改善が必要だと述べた。

人工知能 - 生活におけるシンプルな応用に特化

克服すべき課題はまだ多くありますが、流体ラベリングモデルに代表される新しいデータラベリング手法は、間違いなく人工知能の一般的な傾向に沿ったものです。実際、人工知能の人気が高まって以来、多くの業界がこのトレンドに乗りたいと考えてきました。しかし、この急速なトレンドの背後には、人工知能は最終的にどこに向かうのか、という根本的な疑問が潜んでいます。

「人工知能の本質は、機械が『学習』する能力を持っていることです。人工知能は人間の学習時間を大幅に短縮し、人々を大規模な頭脳学習活動から解放し、より価値のある仕事に集中させることができると考えられます。」秦志剛氏は、人々は一般的に人工知能が最終的には登場すると信じているが、人工知能業界は現段階ではまだ雲の中であると述べた。現在、ほとんどの人工知能アプリケーションは、第 1 世代の汎用コンピュータ ENIAC のように「大きくてかさばる」高性能プロセッサを備えた大規模な工場でのみ存続できます。 「周知のとおり、その後数十年でコンピューターは急速に進歩し、小型のラップトップが ENIAC よりも高性能になりました。人工知能についても同じことが言えるはずです。」

インターフェースはシンプルで、機能は親しみやすく、関連知識のない人でも快適に使用できます。これは秦志剛が思い描いた人工知能の時代です。小さな人工知能チップは、学習、トレーニング、推論などの一連の「思考」プロセスを完了することができ、その最終性能は人々の生活の中で最も一般的な単純なアプリケーションである可能性があります。仕事から帰宅したら、もう鍵を取り出してドアを開ける必要はありません。スマートドアロックは、ちょうどいいタイミングであなたの到着を感知し、ドアを開けてくれる勤勉な家政婦のようなものです。 「10年後には人工知能が主流となり、私たちの生活の隅々にまで浸透するだろう。それを小さなものとして過小評価してはいけない。その背後には極めて集中的な技術的支援があるからだ」と秦志剛氏は語った。

「ビジョンは非常に素晴らしいが、人工知能をどう実装し普及させるか。これが次に解決しなければならない難しい問題となるだろう」と秦志剛氏は語った。

<<:  2019 年の 9 つの AI トレンド、準備はできていますか?

>>:  世界では毎年24の言語が消滅している。AIは絶滅危惧言語の新たな救世主となった

ブログ    

推薦する

PyTorch から Mxnet まで、7 つの主要な Python ディープラーニング フレームワークを比較

[[184728]]最近、Data Science Stack Exchange の「ニューラル ネ...

Googleの検索アルゴリズムがユーザーをより深く理解する方法

Googleは現在、コア検索アルゴリズムに変更を加えており、検索結果の最大10分の1のランキングに影...

1つのコマンドでChatGPTがさらに強力になります

GPT を使用する過程で、AI にニーズをより明確に理解させる方法が重要です。今日は、GPT をあな...

7年間の変革:WOT2018がテクノロジーの背後にある真実を明らかにする

2018 年のインターネット業界が新たな変化の時期を迎えていることは否定できません。新たなアップグレ...

AI陣営を理解するためのチャート: AIを学んで間違った側に立つと自滅につながる可能性がある

AIにはさまざまな手法があります。私たちがよく知っている「5大流派」に加え、この記事の著者はAIのさ...

ドローンは思考によって制御される新しい方法を経験しており、その商業的展望は非常に刺激的です。

近年、ドローン業界は非常に急速な発展を遂げていると言えます。製品面では数量が大幅に増加し、種類もます...

人工知能と機械学習がスタートアップに与える影響

人工知能 (AI) と機械学習 (ML) は、スタートアップを含む複数の業界に革命をもたらしました。...

詳細レポート: ビッグモデルが AI を全面的に加速させます!黄金の10年が始まる

過去70年間に「3つの上昇と2つの下降」を経験した後、基盤となるチップ、コンピューティングパワー、デ...

Python+AI で古い写真をカラー化

こんにちは、みんな。今日も引き続き、興味深い AI プロジェクトを皆さんと共有したいと思います。前回...

AIOps の 7 つの主要機能

企業ネットワークが進化し続け、特にデジタル ビジネス アプリケーションへの移行が進むにつれて、サービ...

魔法の顔認識: たとえマスクやサングラスをかけていても、身近な人を認識できるのはなぜでしょうか?

見知らぬ人々の集団の中に見覚えのある人を見つけたり、とても見覚えのある顔を見かけたりします。その人は...

2022年、PyTorchはトップAIカンファレンスの80%を占める

2012 年にディープラーニングが再び注目されて以来、初期の学術フレームワークである Caffe ...

...

...