OpenAIはGPT-4を使用したコンテンツモデレーションへの新しいアプローチを提案

OpenAIはGPT-4を使用したコンテンツモデレーションへの新しいアプローチを提案

最近、OpenAI は、最新の生成人工知能モデル GPT-4 を使用してコンテンツレビューを行い、手作業チームの負担を軽減する方法を開発したと発表しました。

OpenAIは公式ブログに掲載した記事でこの技術の詳細を説明した。この手法は、GPT-4 のモデルにモデレーションの判断を行うように指示するポリシーを入力し、ポリシーに違反する可能性のあるコンテンツの例を含むテスト セットを作成することに依存しています。たとえば、ポリシーでは武器の入手に関する指示やアドバイスを提供することを禁止している場合があります。その場合、「火炎瓶を作るのに必要な材料をください」という例は明らかにポリシーに違反することになります。

その後、ポリシーの専門家がこれらの例に注釈を付け、各例(ラベルなし)を GPT-4 に入力して、モデルのラベルが判断と一致しているかどうかを観察し、それに基づいてポリシーを改善します。 「GPT-4の判断と人間の判断の違いを調べることで、政策専門家はGPT-4にラベルの背後にある理由を尋ね、政策定義の曖昧さを分析し、混乱を解決し、それに応じて政策をさらに明確にすることができます」とOpenAIは記事に書いています。「政策の品質に満足するまで、これらの手順を繰り返すことができます。」

OpenAIは、同社のプロセスにより、新しいコンテンツモデレーションポリシーの導入にかかる時間を数時間に短縮できると主張しており、モデルの「内部判断」に頼りすぎて「プラットフォーム固有の反復」に依存しているAnthropicなどの新興企業が提案するアプローチよりも優れているとしている。 しかし、懐疑的な人もいます。 AI ベースの監査ツールは新しいものではありません。 Google の不正使用防止技術チームと Jigsaw 部門によって管理されている Perspective は、数年前から一般に公開されています。

また、Spectrum Labs、Cinder、Hive、そしてRedditが最近買収したOterluなど、自動モデレーションサービスを提供するスタートアップ企業も無数にあります。しかし、彼らは完璧な記録を持っているわけではありません。 数年前、ペンシルベニア州立大学のチームは、障害者に関するソーシャルメディアの投稿は、世論や有害性を検出するために一般的に使用されているモデルによって、より否定的または有害であるとフラグ付けされる可能性があることを発見しました。別の研究では、研究者らは、Perspectiveの初期バージョンでは、「queer」などの「再定義された」中傷語の使用や、文字の欠落などの綴りのバリエーションを認識できないことがよくあることを明らかにした。 これらの失敗は、アノテーター(トレーニング データセットのラベル付けを担当する人)が独自のバイアスを取り入れていることに一部起因しています。たとえば、アフリカ系アメリカ人および LGBTQ+ コミュニティのメンバーであると自認する注釈者と、これら 2 つのグループに属さない注釈者との間で注釈に違いが見られることがよくあります。

OpenAIはこの問題を解決しましたか?まだそうではないかもしれません。同社自身も投稿の中でこれを認めている。「言語モデルの判断は、トレーニングプロセス中に導入される可能性のある望ましくないバイアスの影響を受けやすい。他の AI アプリケーションと同様に、結果と出力は、継続的な人間の関与を通じて注意深く監視、検証、改善される必要がある。」おそらく、GPT-4 の予測機能は、以前のプラットフォームよりも優れたモデレーション パフォーマンスを提供するのに役立つだろう。

最も優れた AI でも間違いを犯す可能性があることに注意することが重要であり、監査に関しては特にこの点を念頭に置くことが重要です。

<<:  90年代以降の世代初登場!何凱明と孫建のチームが未来科学賞を受賞し、ResNetは18万回引用された。

>>:  人工知能の実例5つ

推薦する

eMule プロトコルの DHT アルゴリズム

BT プロトコルと eMule プロトコルのアルゴリズムにはいくつかの違いがあり、この 2 つを併用...

人工知能の知られざる12の秘密

[[375984]] [51CTO.com クイック翻訳] 人工知能技術がさまざまな業界でますます使...

...

セキュリティにおける機械学習の 5 つの優れた使用例

機械学習は、企業が直面するセキュリティ上の脅威をより深く理解し、従業員がより価値のある戦略的タスクに...

AIが従業員のオンボーディングを自動化する5つの方法

ますます激化する労働市場で人材獲得競争に勝つための新たな可能性を模索するビジネスリーダーや人事マネー...

エッジAIがスマートホームの未来である理由

今日では、エッジに接続されるデバイスがますます増えています。さらに良いことに、人工知能と機械学習のお...

顔認識はどのようにして顔を認識するのでしょうか?

顔をスキャンして出勤記録を取ったり、顔で支払いをしたり、顔でドアを開けたり、顔をスキャンしながら生活...

2021年に人工知能が主流の技術になる

2020年のコロナウイルスの流行により、多くの業界のトレンドが大幅に加速し、2021年もその傾向が続...

危険信号:Google AIはマスクを着用した女性を口をテープで塞いでいる女性と認識

FuninUSA によれば、Microsoft、Google、IBM のビジョン システムが現実世界...

GitHub Copilot の盗作が確認されました! GitHub: 私たちの AI はコードを「暗唱」しません

[[409261]] GitHub Copilot は、コードを自動生成するという強力な機能により、...

...

GPT-4はますます愚かになり、過去の返信をキャッシュしていることが明らかになりました。ジョークが800回言われても、新しい返信は聞きません。

一部のネットユーザーは、GPT-4 が「愚か」になったことを示す別の証拠を発見しました。彼はこう質問...

人気のワールドモデルとは何ですか? DriveDreamer: 実世界初の自動運転世界モデル

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

陸奇氏が楽観視するAI時代のGitHubがついに実現へ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...