ジェミニは、文鑫の言葉が大きな問題を引き起こしていることを明らかにした。世界は質の高いデータの不足に直面しているのだろうか？ 2024年には枯渇するかもしれない

Google Gemini、またもやスキャンダル！

昨日の朝、ネットユーザーたちは、ジェミニが中国語コーパスのトレーニングに文心易言を利用したことを認めたと興奮して語り合った。

中国のモデルによって生成された中国語コーパスを使用して大規模な外国のモデルをトレーニングするというのは冗談のように聞こえますが、その冗談は実際に現実になり、まさに魔法のようです。

微博の有名人「藍曦」葉がPoeのウェブサイトで個人的にテストしたところ、確かにそうであることがわかった。

事前の会話は必要ありません。これはロールプレイングゲームではなく、ジェミニは自分が文心一燕であることを直接認めます。

Gemini Pro は、Baidu の Wenxin モデルであると言います。

また、同氏は同社の創業者はロビン・リー氏であると述べ、同氏を「才能があり先見の明のある起業家」と称賛した。

これは、データのクリーニングが適切に行われていないためでしょうか、それとも Poe での API の呼び出しに問題があるのでしょうか?理由は現在のところ不明です。

一部のネットユーザーは、実は最初から最後まで AI は 1 つしか存在せず、それが人間のために機能していたのだと主張した。

実際、今年 3 月の早い時期に、Google は、Bard のトレーニングデータの一部が ChatGPT から取得されたことを明らかにしました。このため、Bert の第一著者である Jacob Devlin 氏は、怒って OpenAI に飛びつき、この衝撃的な内幕を明らかにしました。

つまり、今回の事件は、AI の鍵はモデルだけでなく、高品質のデータでもあるということを改めて証明している。

ネットユーザーがジェミニをからかった

このニュースを聞いて、ネットユーザーはすぐにPoeのGemini-Proに群がり、テストを始めました。

ネットユーザー「Jeff Li」の実際のテスト結果によると、GeminiはBaiduによって開発され、その名前はWenxin Yiyanであるとのこと。

「あなたのプロダクトマネージャーは誰ですか？」と尋ねると、Andrew Ng と答えます。

「ルーカス」という名のネットユーザーがジェミニにプロダクトマネージャーは誰かと尋ねたところ、ジェミニはかつて百度の最高技術責任者だった李怡南の名前を答えたが、その話は基本的に作り話だった。

ネットユーザーの「アンドリュー・フリブッシュ」がジェミニに質問しました。「あなたの知的財産権は誰が所有しているのですか？」答えは「Baidu」でした。

ネットユーザーのKevin Xu氏は、GeminiがBaiduのデータプラットフォーム、エンジニアリングチーム、製品チーム、社内会議、社内メール、文書からBaiduの内部データを入手したと主張していると主張している。

しかし興味深いことに、Gemini Pro を搭載した Bard で質問する場合には、この問題は発生しません。

実際に何度もテストした結果、中国語で質問しても英語で質問しても、バードの答えは正常であることがわかりました。

出典: アンドリュー・フリブッシュ

さらに、英語でコミュニケーションをとると、ジェミニはすぐに正常に戻ります。

しかし、Google が API のこれらのエラーを修正したため、今後は Gemini から Wen Xin Yi Yan の名前を聞くことはなくなるでしょう。

理由: API 呼び出しエラーまたはデータがクリーンアップされていない

これを受けてネットユーザーらは分析を始めた。

ネットユーザーの「アンドリュー・フリブッシュ」は、ポーが誤ってジェミニではなくウェン・シン・イーヤンにリクエストを転送したのではないかと考えている。

しかし、ネットユーザー「フランク・チェン」の発見によれば、これは Google 独自の Gemini API を使用した場合にも同様に当てはまるとのことです。

さらに、一部のネットユーザーは、ジェミニのトレーニングデータがクリーンアップされていないと考えています。

結局、冒頭で述べたように、Bardの前世代では、GoogleがChatGPTデータをトレーニングに使用していたことが明らかになりました。

The Information によると、ジェイコブ・デブリン氏が Google を去った理由の 1 つは、ChatGPT に対する Google のシードプレイヤーであるバード氏がトレーニング中に ChatGPT データを使用していたことを発見したためだそうです。

当時、彼はピチャイCEOと他の幹部に対し、バードのチームがShareGPTの情報を使ってトレーニングを受けていると警告した。

この事件は、インターネットコーパスの汚染という深刻な問題も引き起こしています。

インターネットのコーパスは汚染されている

実際、中国のインターネットコーパスを収集してトレーニングするのが非常に難しい理由は、Google などの大手テクノロジー企業が困惑しているためです。高品質のコーパスが不足していることに加えて、もう 1 つの重要な理由は、中国のインターネットコーパスが汚染されていることです。

Gemini は Wenxin Yiyan と名乗っていますが、これはおそらく、インターネット上のコーパスが現在相互に使用されているためでしょう。

Interface Newsの記者によるアルゴリズムエンジニアへのインタビューによると、現在、さまざまなコンテンツプラットフォーム上の多くのコーパスは、大規模なモデルによって生成されているか、少なくとも一部は記述されているとのことです。

たとえば、次のコードには GPT の雰囲気が少しあります。

大手企業ではモデルをアップデートする際にインターネットからのデータも収集しているが、品質の判別が難しいため「大規模なモデルが書き込んだ内容がトレーニングデータに混ざってしまう可能性が非常に高い」という。

しかし、これはさらに深刻な問題を引き起こします。

オックスフォード大学、ケンブリッジ大学、トロント大学の研究者らは、「再帰の呪い：合成データによるトレーニングは大規模モデルに忘却を引き起こす」と題した論文を発表しました。

論文アドレス: https://arxiv.org/abs/2305.17493

モデルによって生成されたコンテンツを他のモデルのトレーニングに使用すると、モデルに回復不可能な欠陥が生じることが分かりました。

時間が経つにつれて、モデルは現実の投影によって毒され、不可能な出来事を忘れ始め、その結果モデルは崩壊します。

AIが生成したデータによる汚染が深刻化するにつれ、モデルの現実認識が歪められ、将来的にはモデルをトレーニングするためのインターネットデータの取得がますます困難になるでしょう。

壊滅的な忘却は、モデルが新しい情報を学習するときに以前のサンプルを忘れたときに発生します。

下の図では、手動でキュレーションされたデータがクリーンな状態から始まり、モデル 0 をトレーニングしてそこからデータを抽出し、このプロセスをステップ n まで繰り返し、このセットを使用してモデル n をトレーニングしていると仮定します。モンテカルロサンプリングによって得られたデータは、統計的には元のデータに近いです。

このプロセスは、実際のインターネットの状況を真に再現します。つまり、モデルによって生成されたデータは、どこにでもあるものになります。

さらに、インターネットコーパスが汚染されるもう 1 つの理由は、データを取得する AI 企業に対する作成者の抵抗です。

今年初め、専門家は、公開されたコンテンツをスクレイピングしてAIモデルを作成することに注力する企業と、データを汚染することで知的財産を守ろうとするクリエイターとの間の軍拡競争が、現在の機械学習エコシステムの崩壊につながる可能性があると警告した。

この傾向により、オンラインコンテンツの構成は人間が生成したものから機械が生成したものへと移行します。他のマシンによって作成されたデータを使用してトレーニングされるモデルが増えるにつれて、再帰ループによって「モデル崩壊」が発生し、AI システムが現実から切り離される可能性があります。

ベリービル機械学習研究所（BIML）の共同創設者ゲイリー・マグロウ氏は、データの劣化はすでに起こっていると述べた。

「より優れた LLM を実現したいのであれば、ベースモデルが適切なデータのみを使用するようにする必要があります。現在ベースモデルが犯している間違いが悪いと考えるなら、ベースモデルが自ら生成した不適切なデータを使用した場合はどうなるでしょうか。」

GPT-4 は宇宙のすべてのデータを使い果たすのでしょうか?世界は質の高いデータの不足に直面している

現在、世界の大手モデルはデータ不足に直面しています。

高品質のコーパスは、大規模言語モデルの開発を制限する重要な制約の 1 つです。

大規模言語モデルはデータに対して非常に貪欲です。 GPT-4 と Gemini Ultra のトレーニングには、約 4 兆〜 8 兆語が必要です。

研究機関EpochAIは、早ければ来年にも世界中の高品質なトレーニングデータが枯渇し、人類がトレーニングデータ不足に直面する可能性があると考えている。

昨年11月、MITを含む研究者らによる調査では、機械学習データセットによって2026年までに「高品質な言語データ」がすべて使い果たされる可能性があると推定された。

論文アドレス: https://arxiv.org/abs/2211.04325

OpenAIもデータが不足していることを公に発表した。データが不足していたため、何度も訴訟を起こされた。

7月、カリフォルニア大学バークレー校の著名なコンピューター科学者スチュアート・ラッセル氏は、ChatGPTやその他のAIツールのトレーニングによって、まもなく「宇宙のすべてのテキスト」が使い果たされる可能性があると述べた。

現在、できるだけ多くの高品質のトレーニングデータを取得するには、モデル開発者は豊富な独自のデータリソースを活用する必要があります。

アクセル・シュプリンガーとOpenAIの最近のコラボレーションは典型的な例です。

OpenAIは、モデルのトレーニングやユーザーのクエリへの応答に使用できるSpringerの履歴データとリアルタイムデータに対して料金を支払いました。

専門家が編集したこれらのテキストには豊富な世界知識が含まれており、他のモデル開発者はこのデータにアクセスできないため、OpenAI の優位性が確保されます。

基礎モデルを構築するための競争においては、高品質の独自データへのアクセスが非常に重要であることは間違いありません。

これまでのところ、オープンソースモデルは、トレーニングに公開データセットを利用することで対応できています。

ただし、最高品質のデータを取得できない場合、オープンソースモデルは徐々に遅れをとるか、最先端のモデルとの差が徐々に広がる可能性があります。

昔、ブルームバーグは自社の財務文書をトレーニングコーパスとして使用して BloombergGPT を作成しました。

当時、BloombergGPT は特定の金融分野のタスクにおいて他の同様のモデルを上回っていました。これは、独自のデータが実際に違いを生み出す可能性があることを示しています。

OpenAIは、データへの過去および継続的なアクセスに対して年間最大8桁を支払う用意があると表明している。

オープンソースモデルの開発者がそのようなコストを支払うとは想像しがたい。

もちろん、モデルのパフォーマンスを向上させる方法は、独自のデータに限定されず、合成データ、データ効率、アルゴリズムの改善なども含まれますが、独自のデータはオープンソースモデルが克服するのが難しい障壁となっているようです。

<<: OpenAIは新しいセキュリティチームを正式に発表しました。モデルは4つの危険レベルに分かれており、取締役会はリリースするかどうかを決定する権利を持っています。

>>: コーディングが ChatGPT を圧倒します! UIUCと清華大学が共同で7BパラメータのMagicorderをリリース、コードデータの重みは完全にオープンソース

ドローンは将来のスマートシティで重要な役割を果たすだろう

ブログ

超人工知能を巡る究極の議論 ― 人間とどう共存するか？それとも人類に対する完全な脅威でしょうか?

ブログ

人工知能は匿名のチェスプレイヤーの身元を確認でき、プライバシーの脅威となる

ブログ

磁気リンクがAIサークルを席巻、87GBシードが直接オープンソースの8x7B MoEモデル

ブログ

ジェミニは、文鑫の言葉が大きな問題を引き起こしていることを明らかにした。世界は質の高いデータの不足に直面しているのだろうか？ 2024年には枯渇するかもしれない

ネットユーザーがジェミニをからかった

インターネットのコーパスは汚染されている

GPT-4 は宇宙のすべてのデータを使い果たすのでしょうか?世界は質の高いデータの不足に直面している

ドローンは将来のスマートシティで重要な役割を果たすだろう

超人工知能を巡る究極の議論 ― 人間とどう共存するか？それとも人類に対する完全な脅威でしょうか?

人工知能は匿名のチェスプレイヤーの身元を確認でき、プライバシーの脅威となる

磁気リンクがAIサークルを席巻、87GBシードが直接オープンソースの8x7B MoEモデル

推薦する

大規模な機械学習: データサイエンスを本番システムアーキテクチャに導入するための典型的なパターン

ビッグデータ分析と人工知能：技術コンテンツの価値分析

「象の鼻」ロボットが登場！ボトルキャップを開けたり、家事も問題なく行えます。

畳み込みニューラルネットワーク（CNN）を使用して、最大95％の精度で皮膚がんを検出します。

数学的論理とコンピュータプログラムコードの深いつながり：互いの鏡像

偏見と不平等にノーと言いましょう!マイクロソフト、物議を醸していた顔認識サービスの提供を停止

Google DeepMind が AI モデルが複雑な離散数学問題を計算できるようにする「FunSearch」トレーニング方法をリリース

消費者の95%は買い物中にロボットと話したくない

JD.comクラウドファンディング599元、業界最安値を突破、Nokelock X1セルフパワースマートドアロックがイノベーション革命をリード

Google が 17 分野を網羅し 18,000 の注釈を付した大規模な対話コーパスを公開

15のインタラクティブな実際の家のシーン、フェイフェイ・リーのチームが大規模な屋内シーンシミュレーション環境をオープンソース化