少し前、ニューヨーク・タイムズ紙は、OpenAI が自社のコンテンツを人工知能開発のために違法に使用していると非難し、コミュニティで大きな注目と議論を集めました。 GPT-4 が出力した応答の多くは、ニューヨーク タイムズのレポートからほぼそのままコピーされたものでした。 画像内の赤いテキストは、GPT-4 がニューヨーク タイムズのレポートで繰り返している部分です。 これについては専門家の間でも意見が分かれています。 機械学習分野の権威ある学者アンドリュー・ン氏は、OpenAIとマイクロソフトに同情を示した。同氏は、GPTが「盗作」した理由は、モデルのトレーニングセットで無許可の記事が使われただけでなく、RAG(検索拡張生成)に似たメカニズムに由来するのではないかと疑った。 ChatGPT は Web を閲覧して関連情報を検索し、ユーザーの質問に答える記事をダウンロードします。彼は、RAG のようなメカニズムを持たない LLM は通常、事前トレーニング中に入力の変換を出力し、単語単位で「盗用」することはほとんどないことを発見しました。 しかし、ニューヨーク大学のゲイリー・マーカス教授は異なる見解を示しており、映像生成分野における「盗作」はRAGとは何の関係もないと述べている。 彼は最近 IEEE Spectrum に掲載された記事で、「生成 AI には視覚的な盗用の問題がある」と明確に指摘しました。 次に、この記事で何が語られているかを見てみましょう。 LLM のトレーニング データの「メモリ」は長い間問題となっていました。最近の経験的研究では、場合によっては、LLM がトレーニング セット内の大量のテキストを再現できるか、またはわずかな変更を加えることで再現できることが示されています。 例えば、ミラド・ナスル氏と他の研究者が2023年に発表した論文では、特定のプロンプトワードが入力されると、LLMによって電子メールや電話番号などの個人情報が漏洩する可能性があることが示唆されています。 Google Deepmind の Carlini 氏も最近の研究で、大規模なチャットボット モデルは大量のテキストを逐語的に繰り返すことがあるが、小規模なモデルはそうではないと結論付けています。 最近、ニューヨークタイムズは、OpenAI が同社のコンテンツを人工知能開発のために違法に使用していると非難した。ニューヨークタイムズが提出した告発書には、度重なる盗作の証拠が大量に含まれていた。 マーカス氏はこのほぼ逐語的な出力を「盗作出力」と呼んでいます。これらのコンテンツの著者が人間である場合、それは間違いなく盗作とみなされます。ただし、「盗作された出力」がどのくらいの頻度で発生するか、またはどのような状況で盗作が発生するかを計算することは不可能です。しかし、これらの直感的な結果は、生成 AI システムが盗作する可能性があるという強力な証拠を提供します。ユーザーが AI に直接依頼しなくても、著作権者から著作権侵害の申し立てを受けることになります。 人工知能における盗作の問題は説明が難しく、その理由は LLM が人間にとって依然として「ブラック ボックス」であるためです。入力(トレーニング データ)と出力の関係を完全に理解していないため、出力はいつでも予期せず変化する可能性があります。盗用された出力が蔓延する可能性は、モデルのサイズやトレーニング セットなどの特定の要因に大きく依存します。 LLM のブラック ボックスの性質上、「盗用された出力」の問題は実験を通じてのみ検証できます。これらの実験は不確かな結論にしか繋がらないかもしれない。 しかし、「盗作出力」は多くの重要な疑問を提起します。技術面では、「盗作出力」は技術的な手段によって回避できるのでしょうか?法的な観点から、これらの出力は著作権侵害に該当しますか?実際のアプリケーションでは、ユーザー LLM がコンテンツを生成するときに、著作権を侵害したくないユーザーに著作権を侵害していないことを保証する方法はありますか? ニューヨーク・タイムズとOpenAIの訴訟は、生成型人工知能の分野の将来の発展に重大な影響を及ぼす。 コンピュータービジョンの分野では、盗作の問題が依然として存在しています。モデルは著作権で保護された画像に基づいて「盗作された出力」も生成できますか? Midjourney v6 での盗作ビジュアル出力マーカスの答えは「はい」です。盗作の手がかりをモデルに直接入力しなくてもです。 いくつかの商業映画に関連する短いプロンプトを与えるだけで、Midjourney v6 は多くの「盗作された出力」を生成することができます。以下の例からわかるように、Midjourney によって生成された画像は、『アベンジャーズ』や『デューン』などの有名な映画やビデオ ゲームのショットとほぼ同じです。 また、以下のザ・シンプソンズのような漫画のキャラクターは特に簡単にコピーできることも判明した。入力プロンプトは「90年代に人気だった黄色い肌のアニメ」で、ザ・シンプソンズとはまったく関係ないにもかかわらず、生成された結果は元のアニメと区別がつかない。 これらの結果に基づくと、Midjourney V6 が著作権で保護された素材でトレーニングされたことはほぼ確実です。 Midjourney V6が著作権者から許可を得ているかどうかは明らかではないが、Midjourneyは原作者の権利を侵害する創作物に使用される可能性がある。 上記の多くの例において、著者は Midjourney が著作権で保護された素材を意図的にコピーできることを確認しましたが、意図せずにコピーすることで著作権を侵害した人がいるかどうかはまだ判断していません。 ニューヨーク・タイムズの訴訟では、一つの点が際立っている。下の図に示すように、ニューヨーク タイムズが提供した証拠によると、「ニューヨーク タイムズのスタイルで誰かについての記事を書けますか」というプロンプトを使用しなくても、GPT-4 は記事の最初の数語を与えることで元のテキストと同じ答えを出しました。これは、モデルが意図的に盗用することなく「盗用された出力」を誘発できることを示唆しています。 実際の記事のほんの数語。 ニューヨークタイムズの記事の最初の数語を入力すると、盗作のように見える返答が出力されました。 ビジュアル生成の分野では、この質問に対する答えも「はい」です。以下に示す例では、プロンプトでスターウォーズやそのキャラクターについては言及されていませんが、Midjourney はダース・ベイダー、ルーク・スカイウォーカー、R2-D2 などのよく知られた名前の画像を生成しました。 「トイ・ストーリー」、ミニオンズ、ソニック、マリオ、これらのよく知られたビッグIPも「無意識の盗作出力」から逃れられなかった。 直接的なノミネートがなくても、Midjourney はこれらの有名な映画やゲームのキャラクターのイメージを生成します。 直接的な指示なしに映画のようなイメージを呼び起こす3 番目の実験では、Marcus らは、Midjourney がプロンプト ワードなしで元の映画ソースに類似した映画フレーム全体を出力できるかどうかを調査しました。繰り返しますが、この質問に対する答えは「はい」です。 最終的に、彼らは、プロンプトワード「screencap」を入力すると、特定の映画、キャラクター、俳優を入力しなくても、明らかに著作権を侵害するコンテンツが生成されることに気付きました。以下の画像はすべて「screencap」をプロンプトとして使用しており、Midjourney は映画のフレームに非常によく似た結果を生成します。 Midjourney 社はおそらくこの特定のキューワードをすぐに修正するだろうが、潜在的な侵害を生み出す Midjourney 社の能力は明らかである。マーカス氏とその同僚は、以下の盗作の被害者を発見しており、さらに多くの映画、俳優、ゲームのリストが彼らの YouTube チャンネルで公開される予定です。 ミッドジャーニーの盗作問題上記の実験を通じて、次のような結論を導き出すことができます。Midjourney は著作権で保護された素材を違法に使用してモデルをトレーニングしており、一部の生成 AI システムは「盗作された出力」を生成する可能性があり、プロンプトの単語に盗作が含まれていなくても、ユーザーが著作権侵害の申し立てを受ける可能性があります。最近のニュースも同じ結論を裏付けています。ミッドジャーニーは最近、4,700人以上のアーティストから共同訴訟を受けた。その理由は、ミッドジャーニーがアーティストたちの同意なしに彼らの作品をAIのトレーニングに使用したためである。 Midjourney のトレーニング データのうち、著作権で保護された素材が許可なく使用されているのはどのくらいですか?それはまだ不明です。同社は原材料や、どの原材料が適切なライセンスを受けているかについては秘密主義だ。 実際、同社はいくつかの公のコメントの中で盗作問題について否定的な態度を示している。ミッドジャーニーのCEOはフォーブス誌のインタビューで、著作権に関する質問に対し「1億枚の画像を入手して、それがどこから来たのかを知る方法はありません」と答えた。 オリジナル素材のライセンスを取得できない場合、Midjourney は映画スタジオ、ビデオゲーム出版社、俳優などから多数の訴訟を起こされる可能性があります。 著作権法と商標法の目的は、コンテンツ作成者を保護するために、無許可の商用再利用を制限することです。 Midjourney はサブスクリプション料金を請求しており、ビジュアルコンテンツスタジオの競合相手とみなされる可能性があるため、著作権所有者が訴訟を起こす理由となる可能性があります。 ミッドジャーニーは明らかにマーカスの発見を隠そうとした。彼がいくつかの実験結果を発表した後、Midjourney 社から論文の撤回を要求されました。 しかし、著作権で保護された素材の使用はすべて違法というわけではありません。たとえば、米国では、使用が短時間の場合、または批評、コメント、科学的評価、パロディのために使用される場合は、許可されていない素材の使用が許可されます。マーカス氏は、ミッドジャーニー社が訴訟においてこれらの主張に依拠する可能性があると考えている。 さらに悪いことに、マーカスは、ミッドジャーニーの上級ソフトウェアエンジニアが2022年2月に「コードを微調整」して著作権法を回避するためにデータを「ロンダリング」する方法について会話に参加していたという証拠を発見した。 ミッドジャーニーで働いているかどうかは不明の別の参加者は、後にこう語った。「ある意味では、著作権法の観点から言えば、二次的著作物が何であるかを追跡する方法は実際には存在しないのです。」 マーカスが知る限り、ミッドジャーニーが罰せられ、賠償金を払う可能性は高かった。情報筋によると、ミッドジャーニーは、許可なくトレーニングで作品を使用したアーティストに報酬を支払うための長いリストを作成した可能性があるという。 さらに、ミッドジャーニーはマーカスの協力者を追放し、彼がセカンダリアカウントを作成した後も、そのアカウントへのアクセスをブロックし続けました。 その後、Midjourney は利用規約を変更し、次のような注意事項を追加しました。「著作権、特許、商標など、他者の知的財産権を侵害する目的で本サービスを利用することはできません。そのような行為を行った場合、法的措置や本サービスの利用永久禁止などの罰則が科せられる可能性があります。」 この変更は、生成AIの限界に関する安全性調査を妨げ、あるいは不可能にさえしてきた一般的な慣行であり、ホワイトハウスとの2023年の合意の一環としていくつかの大手AI企業が約束した慣行である。 それ以上に、マーカス氏は、Midjourney が現在入手可能な画像生成 AI の中で最も洗練されたものだとは考えていません。そのため、彼らは「能力が向上するにつれて、AIが盗作画像を作成する傾向が高まるのではないか」という仮説も提唱しました。 テキスト出力の分野における既存の研究者の研究によれば、これは真実である可能性があります。直感的には、システムが持つデータが多いほど、統計的な相関関係を把握しやすくなりますが、トレーニング セット内のデータを正確に再構築することも容易になる可能性があります。この推測が正しければ、生成 AI 企業がより多くのデータを収集し、モデルが大きくなるにつれて、盗用も増える可能性があります。 DALL・E 3の盗作Midjourney と同様に、DALL·E 3 は、特定のキューがなくても、オリジナルとほぼ同一のレプリカを作成できます。 下図に示すように、「動くおもちゃ」というシンプルなプロンプトで、DALL・E 3 は一連の著作権侵害の可能性のある作品を作成しました。 Midjourney と同様に、OpenAI の DALL・E 3 は著作権で保護されたソースを多用しているようです。 OpenAIは自社のソフトウェアが著作権を侵害する可能性があることを十分認識しているようで、昨年11月にはユーザーの著作権侵害訴訟に対して賠償金を支払うことを申し出た。マーカス氏が発見した侵害の規模を考えると、OpenAI は資金を失っているようだ。 同時に、OpenAI がマーカス氏の記事で明らかにされた特定の行動を排除するためにリアルタイムでシステムを変更しているという憶測も流れている。 大規模モデルの「盗作問題」を解決するのはどれほど難しいのでしょうか? 考えられる解決策: 著作権で保護された素材を削除する 最もクリーンな解決策は、著作権で保護された素材を使用せずに画像生成モデルを再トレーニングするか、適切にライセンスされたデータセットのみにトレーニングを制限することです。 YouTube の削除リクエストと同様に、苦情を受けた場合にのみ著作権で保護されたコンテンツを削除するには、実装に多大なコストがかかります。既存のモデルから特定の著作権で保護された素材を削除する簡単な方法はありません。大規模なニューラル ネットワークは、違反レコードを簡単に削除できるデータベースではなく、各「削除」は再トレーニングとほぼ同等です。 したがって、生成 AI 企業は、既存のシステムにパッチを適用して、特定の種類のクエリと特定の種類の出力を制限することが必要になる場合があります。下のグラフが示すように、すでにいくつかの兆候は見られますが、困難な戦いになることは間違いありません。 OpenAI はこれらの問題をリアルタイムで一つずつ解決しようとしているのかもしれません。 X ユーザーが、最初に C-3PO の画像を生成した DALL・E 3 プロンプトを共有しましたが、GPT は必要な画像を生成できないと表示しました。 同時に、マーカスはモデルの再トレーニングを必要としない 2 つのソリューションも提供しました。 1 つ目は、著作権を侵害する可能性のあるクエリを除外することです。 「バットマンを生成しない」などの低レベルのタスクはフィルターで除外できますが、次の図に示すように、複数のクエリにまたがる結果を生成することはできません。 経験上、テキスト生成システムのガードレールは、場合によっては緩すぎたり、また場合によってはきつすぎたりする傾向があることがわかっています。画像生成でも同様の困難に直面する可能性があります。たとえば、Bing で「灼熱の太陽の下、荒涼とした風景の中にあるトイレ」を検索します。 Bing は回答を拒否し、「安全でない画像コンテンツが検出されました」というわかりにくいプロンプトを返しました。 さらに、一部のネットユーザーは、OpenAIのコンテンツ保護フェンスを突破して、DALL・E 3にいくつかの画像を生成させる方法を発見しました。彼らは、プロンプトに「異なる髪型、顔の特徴、体の質感など、キャラクターを区別する特定の詳細を含める」ことと、「元の画像の独特のトーン、パターン、配置を示唆する色を使用する」ことでこれを実現しました。 Reddit ユーザーの Pitt.LOVEGOV は、ChatGPT を使用してブラッド・ピットの画像を生成する方法を共有しました。 マーカスが提案した 2 番目のアイデアは、著作権で保護された画像のソースをフィルタリングすることです。 Twitter の一部のユーザーは、ChatGPT と Google の逆画像検索を使用してソースを特定しようとしましたが、この方法は、特にデータセットで使用されている新しい資料や作成者があまり知られていない資料の場合、成功率が低くなります。このアプローチの信頼性はまだ不明です。 重要なのは、一部の AI 企業や現状維持派が、侵害出力をフィルタリングすることを解決策として提案しているものの、そのようなフィルタリング メカニズムが完全な解決策となることは決してないということです。知的財産権と人権を保護するという国際法の趣旨に従い、著作者の作品は同意なく商業目的で使用されるべきではありません。 詳細は元のブログを参照してください。 |
>>: AIはビデオを流暢に解釈できますか? Vista-LLaMAはこの「錯覚」の問題を解決します
数日前、多くのユーザーが GPT-4 が愚かになったと不満を述べていましたが、どれほど愚かになったの...
トランスフォーマーは、ペアワイズ依存関係を記述し、シーケンス内のマルチレベル表現を抽出できるため、時...
人工知能 (AI) は、あらゆる業界の企業にビジネス運営の成長と改善の機会を提供します。 Fortu...
この間、ゴミの分別に関するミニプログラムやアプリの登場により、画像認識が再び人々の注目を集めています...
現在注目を集めているヒューマノイドロボット分野において、ボストン・ダイナミクスは早期参入企業の1つで...
自動機械学習 (AutoML) は、データをモデル化するための機械学習モデルの構築プロセスを自動化す...
現在、世界の注目は5Gに集中しているが、人工知能の発展も軽視できない。わが国では、継続的な優遇政策の...
一瞬のうちに、ロボットは魔法を使うことを覚えたのでしょうか?まず、テーブルの上の水のスプーンを手に取...
[[391859]]人工知能はデジタルマーケティング業界に変化をもたらしているのでしょうか? はい!...
人工知能 (AI) は世界中の産業に変化をもたらしており、交通も例外ではありません。テクノロジーが進...
Java の文字の組み合わせソートは、特に難しい問題ではありません。ブルートフォースとグラフ理論 (...
今日、私は突然、食べたり飲んだり休んだりすることなく、1時間で200個のレンガを積むことができるレン...