データ注釈業界では、「知能と同じくらい人工知能も存在する」という有名な格言があります。 ラベル付けが必要なデータの量が多く、コストも高いため、一部のインターネット大手や AI 企業は独自のラベル付けチームを持つことはほとんどなく、ほとんどの場合、サードパーティのデータサービス企業やデータラベル付けチームに作業を委託しています。 これにより、AIに特化した労働集約的なデータラベリング産業チェーンも生まれました。 たとえば、クラウドソーシング プラットフォーム Mechanical Turk の 20 万人の AI データ ラベラーは、人件費の安いアフリカと東南アジアにいます。インドでは、米国、ヨーロッパ、オーストラリア、アジアの AI 企業にサービスを提供するデータ ラベリング ビレッジも数多く出現しています。 中国では、数百万の AI データラベラーが貴州省、山西省、山東省、河南省などの省の二級都市、三級都市に拠点を置いており、人件費の安い地方都市にも徐々に浸透しつつある。 しかし皮肉なことに、データラベラーは彼らが担当する AI に置き換えられつつあり、一部の企業はデータラベリングに AI を活用し始めています。 ブルームバーグが1月14日に報じたところによると、アップルはサンディエゴにある人工知能事業に関連する121人のチームを閉鎖する予定で、これによりデータラベラーが解雇される恐れがあるという。 では、本当に手作業によるデータラベリングはAIによって完全に置き換えられるのでしょうか?そして「AIがAIをトレーニングする」時代が到来するのでしょうか? 1. AIによる自動ラベル付けの台頭効率的な大規模モデルをトレーニングするには、高品質のデータが不可欠です。人間がラベル付けしたデータの助けにより、OpenAI は多くの大規模モデル企業から際立っており、ChatGPT は大規模モデル競争で一時的な勝者となっています。 しかし同時に、OpenAIはデータのラベル付けにアフリカの安価な労働力を使用しているとして、さまざまなメディアから批判されている。 データのラベル付けに関しては、手動によるラベル付けを多用することで生じる倫理的リスクなどの潜在的なトラブルを回避するための新しい方法を見つける必要があります。 そのため、世界中の大手 AI 企業や大規模ユニコーン企業は、自動データラベリングを検討しています。 チューリッヒ大学の調査によると、ChatGPT のアノテーションコストは平均して 1 アノテーションあたり 0.003 ドル未満で、クラウドソーシング プラットフォームの 20 倍安いことがわかりました。関連性、スタンス、トピックなどのタスクでも、ChatGPT は 4:1 の効率性で人間を「圧倒」しています。 カーネギーメロン大学、イェール大学、カリフォルニア大学バークレー校の研究者チームは、データセットの注釈付けにおいて、クラウドソーシングで雇用した最も熟練した従業員よりも GPT-4 のパフォーマンスが優れていることを発見しました。 この画期的な発明により、研究者は50万ドル以上と2万時間以上の労力を節約することができました。 この論文が発表された後、一部のネットユーザーは「これはプラットフォーム労働者の仕事を奪うものだ」とコメントした。 現在、自動運転の分野では、一部の自動車会社が自動ラベリングにAIを活用し始めています。 例えば、テスラは自動ラベリングの進歩を積極的に推進してきました。2018年から現在まで、テスラのラベリングは次の4つの段階を経てきました。 フェーズ 1 (2018): 手動の 2D 画像注釈のみが実行されましたが、非常に非効率的でした。 フェーズ 2 (2019 年): 3D ラベリングが利用可能になりましたが、1 回のパスで手動で実行されていました。 フェーズ 3 (2020): 注釈付けに BEV 空間を使用すると、再投影の精度が大幅に低下します。 フェーズ 4 (2021): ラベル付けにはマルチパス再構成が使用され、精度、効率、トポロジ関係が非常に高いレベルに達しています。 テスラは2022年6月、支援システムの改善のため、テスラのビデオに注釈を付けていた200人のアメリカ人従業員を解雇した。 現在、Tesla の自動ラベル付け機能は大幅に改善されています。60 秒未満のビデオ 10,000 本にラベルを付けるには、大規模なモデルを 1 週間実行するだけで済みますが、同じワークロードを手動でラベル付けすると数か月かかります。 中国では、理想自動車の李翔会長兼CEOが2023年4月に開催されたフォーラムで、理想自動車がソフトウェア2.0の大規模モデルを使用し、トレーニングを通じて自動調整を行うと、これまで1年かかっていたことが基本的に3時間で完了し、人間の1,000倍の効率になると発言したことがある。 それだけでなく、自動注釈ツールも急速に発展しています。 海外のAIスタートアップ企業Refuelは、市場で主流の大規模モデルを使用してデータセットにラベルを付けることができるオープンソースツール「Autolabel」をリリースした。 同社のテスト結果によると、Autolabel のラベリング効率は手作業のラベリングに比べて 100 倍高く、コストは手作業の 7 分の 1 に過ぎません。 国内のVision Future社も大型ラベルモデルを製作している。 GPT を使用したプロジェクトもいくつかあり、精度は 80% を超え、手作業に近い結果が出ているそうです。 AI に対して、コストや効率の面で人間に優位性はない、と言わざるを得ません。 2. RLAIF: AIアノテーショントレーニング法それで、ChatGPT はどのようにしてデータラベラーの仕事を奪ったのでしょうか? これまで、データラベラーはラベル付けされたデータを AI モデルのトレーニング セットまたは評価基準として使用する必要がありました。このプロセスは RLHF (Reinforcement Learning from Human Feedback) と呼ばれ、人間のフィードバックに基づいた強化学習です。 RLHF は、ChatGPT、Bard、LLaMA などの新興の大規模モデルによって普及したモデル トレーニング方法でもあります。その最大の利点は、モデルを人間の好みに合わせることができるため、大規模モデルが人間の表現習慣に沿った回答を出すことができることです。 しかし、arXivに掲載された論文によると、人間にしかできないと思われるこの仕事もAIに置き換えられる可能性があるという。 RLHFの「H」をAIが置き換え、「RLAIF」と呼ばれるトレーニング方法が誕生しました。 Google 研究チームが公開したこの論文では、RLAIF がデータ ラベラーに依存せずに RLHF に匹敵するトレーニング結果を達成できることを示しています。 従来の教師あり微調整 (SFT) トレーニング方法を基準として比較すると、RLHF と RLAIF の回答に対する 1,200 人の実際の「審査員」の満足度は 70% 以上 (両者の差はわずか 2%) です。さらに、RLHF と RLAIF の回答のみを比較すると、両者に対する実際の審査員の満足度も半々です。 具体的には、研究者らは「テキストに基づいて要約を生成する」というタスクに対して RLAIF のタグ付け方法を実証しました。 最初は序文で、これは手元のタスクの手順を紹介し説明するために使用されます。テキストと 2 つの要約が与えられた場合、一貫性、正確性、範囲、全体的な品質の上記の定義を最もよく満たす要約を示す 1 または 2 を出力します。 次はサンプル例(1-Shot Exemplar)です。テキストの一部と、それに続く 2 つの要約と「要約 1 の方が良い」という選好判断が与えられ、AI がこの例から学習して次のサンプルにラベルを付けます。 次のステップは、注釈を付けるサンプル (注釈を付けるサンプル) を提供することです。これには、マークを付ける必要のあるテキストと要約のペアが含まれます。 最後の部分は終了文字列で、モデルの終了を示すために使用されます。 人間の注釈者がさまざまな回答にスコアを付けるのと同じように (たとえば、5 点満点)、AI も好みに基づいて各要約にスコアを付けます。これは、AI と人間の注釈者が役割を果たす重要なリンクでもあり、主に報酬モデル (RM) をトレーニングし、フィードバック コンテンツを生成するために使用されます。 論文では、RLAIF法におけるAIラベル付けをより正確にするために、研究者らがより良い回答を得るための他の方法も追加したと紹介されている。 たとえば、ランダム性の問題を回避するために、複数の選択が行われ、その間にオプションの順序が入れ替わります。さらに、Chain of Thought (CoT) 推論を使用して、人間の好みとの整合性をさらに向上させます。 Google のこの論文は、RLAIF が特定のタスクにおいて RLHF に匹敵するトレーニング効果を生み出すことができることを証明した最初の研究でもあることに注目すべきです。これは、AI が人間の指導なしに自らの仲間を訓練できることを意味します。 この論文の発表はすぐに大きな注目を集めました。たとえば、GPT-5 では人間のデータラベラーは必要なくなるかもしれないとコメントする実務家もいます。 この研究は RLAIF の可能性を強調していますが、いくつかの制限があります。 まず、この研究では抽象的な要約タスクのみを調査したため、他のタスクへの一般化についてはさらなる研究が必要です。 第二に、研究者らは、LLM 推論が手動注釈よりも経済的な利点があるかどうかを評価しませんでした。 さらに、RLHF と RLAIF を組み合わせると、どちらかの方法を単独で使用した場合よりも優れたパフォーマンスを発揮できるかどうか、LLM を使用して報酬を直接分配することがどの程度効果的か、AI アノテーターの調整を改善すると最終的なポリシーが改善されるかどうか、ポリシー モデルと同じサイズのアノテーターで LLM を使用するとポリシーがさらに改善されるかどうか (つまり、モデルが「自己改善」できるかどうか) など、調査する価値のある興味深い質問があります。 3. 人材重視から技術重視へAI自動ラベリング技術は急速に発展していますが、サードパーティのデータラベリングサービスプロバイダーはそれほど楽観的ではありません。 河南省のクラウドソーシング プラットフォームのプロジェクト マネージャーは、自動ラベル付けではラベル付けのニーズを 60% 以上代替することはできず、単一または特定のデータを処理し、労働効率を向上させる補助的なラベル付けツールとしてのみ使用できると考えています。 別のデータラベリング会社のプロダクトマネージャーは、自動ラベリングでは単純な基本データしかフィルタリングできず、人間のような複雑で議論の多いシーン内のオブジェクトを正確に識別することはできないと考えています。 単純なラベリングが AI で行えるようになれば、より難しいデータの選別や標準化の作業には人間が関与することになり、データラベリング業界の敷居がさらに高くなることも意味します。 対照的に、ChatGPT が普及するずっと前から、OpenAI は 12 人以上の博士課程の学生で「ラベル付け」を行うチームを結成していました。 海口市にある百度のデータラベリング拠点には、数百人のフルタイムの大型モデルデータラベラーがおり、全員が学士号を取得しており、一定レベルの知識蓄積と論理的分析能力を備えていることが求められます。 しかし、将来的には、データのラベリングが労働集約型から技術集約型へと移行するだろうということには誰もが同意しています。 クラウドソーシングプラットフォームの創設者は、同僚とのやり取りの中で、将来は人材を蓄積するだけではなく、研究開発能力が求められると語った。一部の実践者は、一般化には手動による注釈付けが依然として非常に重要であり、RLHF + RLAIF ハイブリッド方式が単一の方法よりも優れていると考えています。 つまり、あなたは同僚かテクノロジーによって「殺される」ことになるのです。データラベリング企業はいつでも従業員を解雇する準備ができており、同時に自動ラベリングツールの開発へと進んでいます。 |
>>: 2024年にIT業界は成長を遂げる:AIとサイバーセキュリティが最大のホットスポット
[[411043]]コンピュータサイエンスの卒業生にとって、アルゴリズム関連の職は基本的に「高給」と...
現在、生体認証技術は比較的成熟しており、さまざまな応用シナリオがあります。国内の生体認証市場全体は、...
インターネットの発展により、人々は膨大な量の情報と製品の選択肢に直面しており、パーソナライズされた推...
11月16日、現地時間の火曜日、米国特許商標庁のウェブサイトでマイクロソフトの新しい特許が公開された...
Alpha Goの勝利により、人工知能における「ディープラーニング」の概念が急速に普及し、画像認識の...
AI応用の時代において、人工知能技術は研究室から産業化へと移行しています。人工知能が徐々に製品応用市...
最適化テクニックはたくさんあります!たとえば、バッチ正規化、重み標準化などです。しかし、既存の最適化...
かつて Computer World 誌は、「プログラミングは 1960 年までに消滅する」という記...
7月7日、OpenAIは、共同設立者で主任科学者のイリヤ・スツケバー氏とアラインメント責任者のヤン・...
企業は AI とビッグデータを活用して、顧客体験をより良いものに変革することができます。人々はこれを...
データの問題は、企業の AI プロジェクトが意図した目標を達成できない主な理由です。しかし、企業が失...
[[411439]] DeepMind が提案した Rainbow アルゴリズムは、Atari ゲー...