バイトダンスのGPTアカウントが突然凍結、OpenAIが不正行為を調査

バイトダンスのGPTアカウントが突然凍結、OpenAIが不正行為を調査

バイトダンスは、この大規模モデルをめぐる世論の嵐に巻き込まれている。

The Vergeによると:

ByteDanceはOpenAIの技術を秘密裏に利用して、独自の大規模言語モデル(LLM)を開発してきた。

このニュースが公表されて間もなく、The Vergeはさらに、OpenAIがByteDanceのアカウントを停止したと報じた。

具体的には、OpenAIの広報担当者Niko Felix氏は次のような声明を発表しました。

ByteDance による弊社 API の使用は最小限ですが、さらに調査を進める間、同社のアカウントを停止しました。

利用方法が規則に違反していることが判明した場合、必要な変更をお願いしたり、アカウントを停止したりすることがあります。

ここで言及されている「ルール」とは、OpenAI の利用規約に明確に規定されている条項を指し、OpenAI が提供するモデル機能は「自社の製品やサービスと競合する AI モデルの開発」に使用することは許可されていないと規定されています。

ByteDanceはMicrosoftを通じてOpenAIのアクセス権を購入したとされているが、MicrosoftもOpenAIと同様の方針を策定した。

The Vergeは、バイトダンスのアカウントを停止するためにOpenAIと同じ措置を取るかどうかについてマイクロソフトとさらに協議中だと述べた。

それで、この盗作スキャンダルは一体何が起きているのでしょうか?

内部文書が暴露される

The Vergeによると、証拠はByteDanceの内部文書、つまり海外版Feishu Larkのチャット記録から得られたものだという。

この文書は、ByteDanceが「Project Seed」というコードネームの基本的な大規模言語モデルプロジェクトのほぼすべての開発段階(モデルのトレーニングや評価を含む)でOpenAIのAPIに依存していることを示しています。

「Seed Project」は約1年前に立ち上げられ、現在は主に2つの製品を開発しています。1つは中国で発売された「Doubao」、もう1つは現在開発中の商用ユーザー向けチャットボットプラットフォームです。

「Seedプロジェクト」に参加した従業員は、OpenAI APIへの過度の依存がもたらす結果を十分認識していたため、 「データ感度低下」を通じて証拠を美化する方法について議論を始めたという。

従業員が OpenAI API の最大アクセス制限に達することが頻繁にあるほどです。

具体的には、ByteDanceは「Seedプロジェクト」の初期段階でOpenAIの技術をより多く活用しました。

The Vergeは、内部文書に基づき、ByteDanceが数か月前に「モデル開発のどの段階でもGPT生成テキストの使用を停止する」よう命令を出したと報じた。

しかし、ByteDanceが独自の大規模言語モデルDoubaoをリリースしたのもこの頃でした。

しかし、The Vergeは、この時点でもByteDanceは規制違反をやめていないと報じている。

ByteDanceは、Doubaoの背後にあるモデルのパフォーマンスを評価するなど、OpenAIとMicrosoftの利用規約に違反する方法でAPIを使い続けています。

また、バイトダンスの内部状況について直接情報を持つ人物は次のように指摘した。

彼らはすべてが合法であることを確認したいと言いますが、実際には捕まりたくないだけなのです。

バイトダンスは反応した

The Vergeがこの報道を発表した後、バイトダンスの広報担当ジョディ・セス氏は次のように反応した。

GPTによって生成されたデータは、Seedプロジェクトの初期開発中にモデルに注釈を付けるために使用され、今年半ば頃にByteDanceのトレーニングデータから削除されました。

ByteDance は、GPT API を使用するために Microsoft から許可を取得しました。

当社は中国以外の市場では GPT を使用して製品をサポートしていますが、中国市場では Doubao をサポートするために独自のモデルを使用しています

マイクロソフトの広報担当フランク・ショー氏は次のように述べた。

Azure OpenAI サービスなどの Microsoft AI ソリューションは、当社の限定アクセス フレームワークの一部であるため、すべての顧客が Microsoft に申請して承認を受ける必要があります。

また、当社は標準を開発し、お客様がこれらのテクノロジーを責任を持って、当社の利用規約に従って使用できるようにするためのリソースも提供しています。

当社では不正行為を検出するためのプロセスを導入しており、行動規範に違反する企業を特定した場合は、その企業のアクセスを停止します。

QuantumBitも早急にByteDanceに連絡を取ったが、ByteDanceはまだ正式な返答をしていない。

<<:  有名人のリアルタイムディープフェイク!名前を入力して数秒で顔を変える

>>: 

ブログ    
ブログ    

推薦する

3行のコードで損失なく40%高速化、You YangチームのAIトレーニングアクセラレータがICLR口頭発表論文に選出

プルーニングを使用すると、AI トレーニングを高速化し、ロスレス操作を実現できます。わずか 3 行の...

生成型人工知能とは何かについて話しましょう

ジェネレーティブ AI は、これまでビジネス パーソンに依存していたモデルをアルゴリズム担当者が生成...

GPT-175Bを例にとった大規模言語モデルの分散トレーニングの定量分析とベストプラクティス

1. Transformer 大規模言語モデルのための SOTA トレーニング技術1. 大規模言語モ...

静的解析に機械学習を使用する方法

機械学習と人工知能は、特にマーケティング分析とサイバーセキュリティの分野で多くの分野で広く応用されて...

...

AIトレーニングの福音: 合成データについて

今日、AI テクノロジーは克服するのが難しいいくつかの主要な課題に直面しています。正確な結果を提供す...

大規模モデルは16,000以上の実世界のAPIを習得しており、清華大学などのToolLLMのツール使用能力はChatGPTに劣らない。

ご存知のとおり、オープンソースの大規模言語モデル (LLM) とその派生モデル (LLaMA や V...

悪いことを学ぶのは簡単ですが、良いことを学ぶのは難しいです!人工知能は人間の人種や性別の偏見を継承する

編集者注: サンスティーンは『インターネット共和国』でアルゴリズムが私たちの認知世界に影響を与えると...

AI時代に医療データの品質が重要な理由

効果的な医療データ分析においては、データの品質は主観的なものになります。データから得られる情報の正確...

スタンフォード大学の研究者がAIを活用してCOVID-19の治療薬の発見を加速

COVID-19の流行が世界中の人々の生命と日常生活を脅かし続けている中、人々はこの病気の予防と治療...

...

...

一般的なモデル統合手法の紹介: バギング、ブースティング、スタッキング

この記事では、ブートストラップ、バギング、ランダム フォレスト、ブースティング、スタッキング、その他...

自撮り写真でAIがあなたの顔を認識できないようにする方法

現在、顔認識システムがプライベートな写真で訓練されるのを防ぐツールがますます増えている。個人の写真を...

人工知能は「高度な感情知能」に向かって発展している

[[265376]] [51CTO.com クイック翻訳] 機械知能の分野における現在の成功は主に計...