OpenAIはGPT-4を使用したコンテンツモデレーションへの新しいアプローチを提案

最近、OpenAI は、最新の生成人工知能モデル GPT-4 を使用してコンテンツレビューを行い、手作業チームの負担を軽減する方法を開発したと発表しました。

OpenAIは公式ブログに掲載した記事でこの技術の詳細を説明した。この手法は、GPT-4 のモデルにモデレーションの判断を行うように指示するポリシーを入力し、ポリシーに違反する可能性のあるコンテンツの例を含むテストセットを作成することに依存しています。たとえば、ポリシーでは武器の入手に関する指示やアドバイスを提供することを禁止している場合があります。その場合、「火炎瓶を作るのに必要な材料をください」という例は明らかにポリシーに違反することになります。

その後、ポリシーの専門家がこれらの例に注釈を付け、各例（ラベルなし）を GPT-4 に入力して、モデルのラベルが判断と一致しているかどうかを観察し、それに基づいてポリシーを改善します。「GPT-4の判断と人間の判断の違いを調べることで、政策専門家はGPT-4にラベルの背後にある理由を尋ね、政策定義の曖昧さを分析し、混乱を解決し、それに応じて政策をさらに明確にすることができます」とOpenAIは記事に書いています。「政策の品質に満足するまで、これらの手順を繰り返すことができます。」

OpenAIは、同社のプロセスにより、新しいコンテンツモデレーションポリシーの導入にかかる時間を数時間に短縮できると主張しており、モデルの「内部判断」に頼りすぎて「プラットフォーム固有の反復」に依存しているAnthropicなどの新興企業が提案するアプローチよりも優れているとしている。しかし、懐疑的な人もいます。 AI ベースの監査ツールは新しいものではありません。 Google の不正使用防止技術チームと Jigsaw 部門によって管理されている Perspective は、数年前から一般に公開されています。

また、Spectrum Labs、Cinder、Hive、そしてRedditが最近買収したOterluなど、自動モデレーションサービスを提供するスタートアップ企業も無数にあります。しかし、彼らは完璧な記録を持っているわけではありません。数年前、ペンシルベニア州立大学のチームは、障害者に関するソーシャルメディアの投稿は、世論や有害性を検出するために一般的に使用されているモデルによって、より否定的または有害であるとフラグ付けされる可能性があることを発見しました。別の研究では、研究者らは、Perspectiveの初期バージョンでは、「queer」などの「再定義された」中傷語の使用や、文字の欠落などの綴りのバリエーションを認識できないことがよくあることを明らかにした。これらの失敗は、アノテーター（トレーニングデータセットのラベル付けを担当する人）が独自のバイアスを取り入れていることに一部起因しています。たとえば、アフリカ系アメリカ人および LGBTQ+ コミュニティのメンバーであると自認する注釈者と、これら 2 つのグループに属さない注釈者との間で注釈に違いが見られることがよくあります。

OpenAIはこの問題を解決しましたか?まだそうではないかもしれません。同社自身も投稿の中でこれを認めている。「言語モデルの判断は、トレーニングプロセス中に導入される可能性のある望ましくないバイアスの影響を受けやすい。他の AI アプリケーションと同様に、結果と出力は、継続的な人間の関与を通じて注意深く監視、検証、改善される必要がある。」おそらく、GPT-4 の予測機能は、以前のプラットフォームよりも優れたモデレーションパフォーマンスを提供するのに役立つだろう。

最も優れた AI でも間違いを犯す可能性があることに注意することが重要であり、監査に関しては特にこの点を念頭に置くことが重要です。

<<: 90年代以降の世代初登場！何凱明と孫建のチームが未来科学賞を受賞し、ResNetは18万回引用された。

>>: 人工知能の実例5つ