速報です！ OpenAIがByteDanceアカウントを禁止！コンテンツ生成のための GPT の不正使用に関する内部告発

ノアが編集

海外メディアのザ・ヴァージは北京時間今朝未明、生成AIをめぐる熾烈な競争の中で、バイトダンスが密かにOpenAIの技術を使って「近道をとっている」と報じ、バイトダンスが中国でGPT生成データを使って自社の大規模モデルをトレーニングし、マイクロソフトとOpenAIの開発者ライセンスを侵害していると指摘した。その後まもなく、OpenAIの広報担当者ニコ・フェリックス氏は声明を発表し、バイトダンスのアカウントが停止され、さらなる調査が行われることを確認した。

1. 「彼らはすべてが合法であることを確認したいが、本当に捕まりたくないだけなのだ」

海外メディアは、バイトダンスの行動はOpenAIの利用規約に違反していると報じた。この条項では、モデルの出力は「当社の製品やサービスと競合する AI モデルの開発」には使用できないと規定されています。 ByteDanceは、同様のポリシーを持つMicrosoftを通じてOpenAIの使用権を購入している。

しかし、記者のアレックス・ヒース氏は、バイトダンスの内部文書を見たところ、モデルのトレーニングや評価を含むほぼすべての開発段階で、バイトダンスはOpenAI APIに依存して、コード名「プロジェクト・シード」と呼ばれる基本的な大規模モデルを開発していることが確認できると述べた。

報道によれば、バイトダンスが約1年前に社内で「シードプロジェクト」を立ち上げて以来、同プロジェクトは優先度の高い秘密プロジェクトとなっているという。この業務に従事する従業員は、別途秘密保持契約に署名する必要があります。関係する従業員も、この暴露の影響を十分に認識しています。アレックス・ヒース氏は、フェイシュの国際版であるラークの内部通信記録で、「データの感度低下」を通じて証拠を「ごまかす」方法についての会話を見たことがある。「乱用があまりにも横行していたため、シードプログラムの従業員は API アクセスの上限に達することがよくありました。」

内部文書によれば、シードプログラムの初期段階では、OpenAIプラットフォームの使用はより悪質なものだったという。しかし数か月前、バイトダンスはチームに対し、「モデル開発のどの段階でも」GPTで生成されたテキストの使用をやめるよう命じた。バイトダンスが中国規制当局の承認を得て、AIビッグモデル「豆宝」を通じてシードプランを開始したのはこの頃だった。

それでもアレックス氏は、このAPIの使用方法は、Beanbagの背後にあるモデルのパフォーマンス評価を含め、OpenAIとMicrosoftの利用規約に違反していると述べた。記事では、バイトダンスの内部事情に詳しいと主張する内部告発者の言葉を引用し、「彼らは全てが合法であることを確認したいと言っているが、本当は捕まりたくないだけだ」と述べている。

2. OpenAIの対応: さらなる調査のためアカウントを停止

バイトダンス、マイクロソフト、OpenAIの広報担当者はいずれもこの報道に反応した。

報告書に詳述された事実に対して、バイトダンスの広報担当者ジョディ・セス氏は、GPTで生成されたデータはシードプログラムの初期開発段階でモデルに注釈を付けるために使用され、今年半ば頃にバイトダンスのトレーニングデータから削除されたと述べた。

「バイトダンスはマイクロソフトからGPT APIの使用ライセンスを取得しました」と彼女は述べた。「当社は中国以外の市場で製品や機能を動かすためにGPTを使用していますが、中国でのみ利用可能なDoubaoを動かすために独自に開発したモデルを使用しています。」

「Azure OpenAIサービスのようなマイクロソフトのAIソリューションは、当社の限定アクセスフレームワークの一部であり、すべての顧客はアクセスを申請し、マイクロソフトから承認を受ける必要がある」とマイクロソフトの広報担当フランク・ショー氏は声明で述べた。「当社はまた、顧客が責任を持って当社の利用規約を遵守してこれらの技術を使用できるよう、基準を設定し、リソースを提供しているほか、企業が当社の行動規範に違反した場合には、不正使用を検出してアクセスを停止するプロセスも整備している」

OpenAIの広報担当者ニコ・フェリックス氏は、ByteDanceのアカウントが停止されたことをレポートの著者に認めた。「当社の技術が適切に使用されるよう、すべてのAPI顧客は当社の使用ポリシーを遵守する必要があります。ByteDanceによる当社APIの使用は最小限ですが、さらなる調査のためアカウントを停止しました。使用がこれらのポリシーに準拠していないことが判明した場合、必要な変更を行うか、アカウントを終了するよう要求します。」

3. グレーゾーン: クレイジーなレースでリスクを負う

今年初めから、OpenAIが立ち上げた生成AIコンペティションでは、大手企業も新興企業も、ある種の「クレイジー」な渦に巻き込まれている。時間がどんどんなくなってきているという不安な気持ちが、みんなの頭にきつく巻き付いています。こうして、グレーゾーンが生まれました。

中小企業が独自の AI モデル、特に OpenAI のモデルを使用して競合製品を構築することは、一般的な慣行になっています。 OpenAIとMicrosoftはまだ違反者を公に「厳しく処罰」していないため、これは一般的に法的にグレーゾーンとみなされている。 Databricks のジェネレーティブ AI 担当副社長 Naveen Rao 氏は次のように語っています。「現在、多くのスタートアップ企業がそのリスクを負っています。」

海外メディアは、今回の事件ではバイトダンスのような規模の企業にとってこのような行為は非常に異例であると強調した。これは、シードプログラムチームが迅速に成果を出すよう大きなプレッシャーを受けていることを示しています。

シードプロジェクトが開発しているとされる2つの主要製品は、現在中国で利用可能なAIチャットボット「Doubao」と、現在開発中でByteDanceのクラウド部門を通じて販売される予定のビジネスに特化したボットプラットフォームだ。 Seed Projectは、中国のサーバーで開発されたTikTokとは一切関係ありません。このプロジェクトのリーダーはバイトダンスの検索部門責任者である朱文佳氏で、同社の最高エンジニアリング責任者である楊振元氏に報告している。

従業員には、シードプログラムの目標は最終的にはOpenAIのような汎用人工知能を構築することだと伝えられていたが、本当の目標はできるだけ早く中国のChatGPTになることだったようだ。チームは今年末までにGPT-3.5のパフォーマンスに匹敵し、2024年半ばまでにGPT-4のパフォーマンスに匹敵するよう命じられている。現在の Seed モデルには約 2000 億個のパラメータがあります。比較すると、GPT-3.5 には 1750 億のパラメータがあり、GPT-4 のパラメータサイズはまだ発表されていません。

競合他社を構築するために GPT を悪用するのは、孤立したケースではありません。今年初め、Googleの研究者は、一部の従業員がChatGPTでアップロードされた会話を含むウェブサイトのデータを使用しようとしたことに抗議して辞職した。この事件は世論を巻き起こさなかったものの、社内では依然として不名誉なこととみなされていた。

4. 微分問題：巨大モデル錯視の強化

OpenAI は現在、潜在的な誤用や乱用を防ぐために API 出力を特定する作業を行っていますが、パンドラの箱はすでに開かれています。バイトダンスの行動が中国と米国の非常に緊張した関係をさらに悪化させるかどうかは不明だが、結局のところ、両国とも人工知能を国家安全保障の問題とみなしている。

解決しなければならないもう 1 つの問題は、大規模なモデルが他の大規模なモデルの構築にますます貢献するようになるにつれて、オンライン情報の品質がどうなるかということです。基本モデルは事実に基づかない人工的に作成されたデータでトレーニングされているため、それを使用してさらに大規模なモデルを構築すると、幻覚の問題がさらに拡大するだけです。綱渡りをしながら、濃い霧に落ちないように注意しなければなりません。人工知能の未来はどこへ向かうのでしょうか。おそらく私たちは混乱の中で前進し続け、より深いゲームの中で答えを見つけるしかないのでしょう。