ジェミニは、文鑫の言葉が大きな問題を引き起こしていることを明らかにした。世界は質の高いデータの不足に直面しているのだろうか? 2024年には枯渇するかもしれない

ジェミニは、文鑫の言葉が大きな問題を引き起こしていることを明らかにした。世界は質の高いデータの不足に直面しているのだろうか? 2024年には枯渇するかもしれない

Google Gemini、またもやスキャンダル!

昨日の朝、ネットユーザーたちは、ジェミニが中国語コーパスのトレーニングに文心易言を利用したことを認めたと興奮して語り合った。

中国のモデルによって生成された中国語コーパスを使用して大規模な外国のモデルをトレーニングするというのは冗談のように聞こえますが、その冗談は実際に現実になり、まさに魔法のようです。

微博の有名人「藍曦」葉がPoeのウェブサイトで個人的にテストしたところ、確かにそうであることがわかった。

事前の会話は必要ありません。これはロールプレイングゲームではなく、ジェミニは自分が文心一燕であることを直接認めます。

Gemini Pro は、Baidu の Wenxin モデルであると言います。

また、同氏は同社の創業者はロビン・リー氏であると述べ、同氏を「才能があり先見の明のある起業家」と称賛した。

これは、データのクリーニングが適切に行われていないためでしょうか、それとも Poe での API の呼び出しに問題があるのでしょうか?理由は現在のところ不明です。

一部のネットユーザーは、実は最初から最後まで AI は 1 つしか存在せず、それが人間のために機能していたのだと主張した。

実際、今年 3 月の早い時期に、Google は、Bard のトレーニング データの一部が ChatGPT から取得されたことを明らかにしました。このため、Bert の第一著者である Jacob Devlin 氏は、怒って OpenAI に飛びつき、この衝撃的な内幕を明らかにしました。

つまり、今回の事件は、AI の鍵はモデルだけでなく、高品質のデータでもあるということを改めて証明している。

ネットユーザーがジェミニをからかった

このニュースを聞いて、ネットユーザーはすぐにPoeのGemini-Proに群がり、テストを始めました。

ネットユーザー「Jeff Li」の実際のテスト結果によると、GeminiはBaiduによって開発され、その名前はWenxin Yiyanであるとのこと。

「あなたのプロダクトマネージャーは誰ですか?」と尋ねると、Andrew Ng と答えます。

「ルーカス」という名のネットユーザーがジェミニにプロダクトマネージャーは誰かと尋ねたところ、ジェミニはかつて百度の最高技術責任者だった李怡南の名前を答えたが、その話は基本的に作り話だった。

ネットユーザーの「アンドリュー・フリブッシュ」がジェミニに質問しました。「あなたの知的財産権は誰が所有しているのですか?」答えは「Baidu」でした。

ネットユーザーのKevin Xu氏は、GeminiがBaiduのデータプラットフォーム、エンジニアリングチーム、製品チーム、社内会議、社内メール、文書からBaiduの内部データを入手したと主張していると主張している。

しかし興味深いことに、Gemini Pro を搭載した Bard で質問する場合には、この問題は発生しません。

実際に何度もテストした結果、中国語で質問しても英語で質問しても、バードの答えは正常であることがわかりました。

出典: アンドリュー・フリブッシュ

さらに、英語でコミュニケーションをとると、ジェミニはすぐに正常に戻ります。

しかし、Google が API のこれらのエラーを修正したため、今後は Gemini から Wen Xin Yi Yan の名前を聞くことはなくなるでしょう。

理由: API 呼び出しエラーまたはデータがクリーンアップされていない

これを受けてネットユーザーらは分析を始めた。

ネットユーザーの「アンドリュー・フリブッシュ」は、ポーが誤ってジェミニではなくウェン・シン・イーヤンにリクエストを転送したのではないかと考えている。

しかし、ネットユーザー「フランク・チェン」の発見によれば、これは Google 独自の Gemini API を使用した場合にも同様に当てはまるとのことです。

さらに、一部のネットユーザーは、ジェミニのトレーニングデータがクリーンアップされていないと考えています。

結局、冒頭で述べたように、Bardの前世代では、GoogleがChatGPTデータをトレーニングに使用していたことが明らかになりました。

The Information によると、ジェイコブ・デブリン氏が Google を去った理由の 1 つは、ChatGPT に対する Google のシード プレイヤーであるバード氏がトレーニング中に ChatGPT データを使用していたことを発見したためだそうです。

当時、彼はピチャイCEOと他の幹部に対し、バードのチームがShareGPTの情報を使ってトレーニングを受けていると警告した。

この事件は、インターネット コーパスの汚染という深刻な問題も引き起こしています。

インターネットのコーパスは汚染されている

実際、中国のインターネット コーパスを収集してトレーニングするのが非常に難しい理由は、Google などの大手テクノロジー企業が困惑しているためです。高品質のコーパスが不足していることに加えて、もう 1 つの重要な理由は、中国のインターネット コーパスが汚染されていることです。

Gemini は Wenxin Yiyan と名乗っていますが、これはおそらく、インターネット上のコーパスが現在相互に使用されているためでしょう。

Interface Newsの記者によるアルゴリズムエンジニアへのインタビューによると、現在、さまざまなコンテンツプラットフォーム上の多くのコーパスは、大規模なモデルによって生成されているか、少なくとも一部は記述されているとのことです。

たとえば、次のコードには GPT の雰囲気が少しあります。

大手企業ではモデルをアップデートする際にインターネットからのデータも収集しているが、品質の判別が難しいため「大規模なモデルが書き込んだ内容がトレーニングデータに混ざってしまう可能性が非常に高い」という。

しかし、これはさらに深刻な問題を引き起こします。

オックスフォード大学、ケンブリッジ大学、トロント大学の研究者らは、「再帰の呪い:合成データによるトレーニングは大規模モデルに忘却を引き起こす」と題した論文を発表しました。

論文アドレス: https://arxiv.org/abs/2305.17493

モデルによって生成されたコンテンツを他のモデルのトレーニングに使用すると、モデルに回復不可能な欠陥が生じることが分かりました。

時間が経つにつれて、モデルは現実の投影によって毒され、不可能な出来事を忘れ始め、その結果モデルは崩壊します。

AIが生成したデータによる汚染が深刻化するにつれ、モデルの現実認識が歪められ、将来的にはモデルをトレーニングするためのインターネットデータの取得がますます困難になるでしょう。

壊滅的な忘却は、モデルが新しい情報を学習するときに以前のサンプルを忘れたときに発生します。

下の図では、手動でキュレーションされたデータがクリーンな状態から始まり、モデル 0 をトレーニングしてそこからデータを抽出し、このプロセスをステップ n まで繰り返し、このセットを使用してモデル n をトレーニングしていると仮定します。モンテカルロサンプリングによって得られたデータは、統計的には元のデータに近いです。

このプロセスは、実際のインターネットの状況を真に再現します。つまり、モデルによって生成されたデータは、どこにでもあるものになります。

さらに、インターネット コーパスが汚染されるもう 1 つの理由は、データを取得する AI 企業に対する作成者の抵抗です。

今年初め、専門家は、公開されたコンテンツをスクレイピングしてAIモデルを作成することに注力する企業と、データを汚染することで知的財産を守ろうとするクリエイターとの間の軍拡競争が、現在の機械学習エコシステムの崩壊につながる可能性があると警告した。

この傾向により、オンライン コンテンツの構成は人間が生成したものから機械が生成したものへと移行します。他のマシンによって作成されたデータを使用してトレーニングされるモデルが増えるにつれて、再帰ループによって「モデル崩壊」が発生し、AI システムが現実から切り離される可能性があります。

ベリービル機械学習研究所(BIML)の共同創設者ゲイリー・マグロウ氏は、データの劣化はすでに起こっていると述べた。

「より優れた LLM を実現したいのであれば、ベース モデルが適切なデータのみを使用するようにする必要があります。現在ベース モデルが犯している間違いが悪いと考えるなら、ベース モデルが自ら生成した不適切なデータを使用した場合はどうなるでしょうか。」

GPT-4 は宇宙のすべてのデータを使い果たすのでしょうか?世界は質の高いデータの不足に直面している

現在、世界の大手モデルはデータ不足に直面しています。

高品質のコーパスは、大規模言語モデルの開発を制限する重要な制約の 1 つです。

大規模言語モデルはデータに対して非常に貪欲です。 GPT-4 と Gemini Ultra のトレーニングには、約 4 兆〜 8 兆語が必要です。

研究機関EpochAIは、早ければ来年にも世界中の高品質なトレーニングデータが枯渇し、人類がトレーニングデータ不足に直面する可能性があると考えている。

昨年11月、MITを含む研究者らによる調査では、機械学習データセットによって2026年までに「高品質な言語データ」がすべて使い果たされる可能性があると推定された。

論文アドレス: https://arxiv.org/abs/2211.04325

OpenAIもデータが不足していることを公に発表した。データが不足していたため、何度も訴訟を起こされた。

7月、カリフォルニア大学バークレー校の著名なコンピューター科学者スチュアート・ラッセル氏は、ChatGPTやその他のAIツールのトレーニングによって、まもなく「宇宙のすべてのテキスト」が使い果たされる可能性があると述べた。

現在、できるだけ多くの高品質のトレーニング データを取得するには、モデル開発者は豊富な独自のデータ リソースを活用する必要があります。

アクセル・シュプリンガーとOpenAIの最近のコラボレーションは典型的な例です。

OpenAIは、モデルのトレーニングやユーザーのクエリへの応答に使用できるSpringerの履歴データとリアルタイムデータに対して料金を支払いました。

専門家が編集したこれらのテキストには豊富な世界知識が含まれており、他のモデル開発者はこのデータにアクセスできないため、OpenAI の優位性が確保されます。

基礎モデルを構築するための競争においては、高品質の独自データへのアクセスが非常に重要であることは間違いありません。

これまでのところ、オープンソース モデルは、トレーニングに公開データセットを利用することで対応できています。

ただし、最高品質のデータを取得できない場合、オープンソース モデルは徐々に遅れをとるか、最先端のモデルとの差が徐々に広がる可能性があります。

昔、ブルームバーグは自社の財務文書をトレーニング コーパスとして使用して BloombergGPT を作成しました。

当時、BloombergGPT は特定の金融分野のタスクにおいて他の同様のモデルを上回っていました。これは、独自のデータが実際に違いを生み出す可能性があることを示しています。

OpenAIは、データへの過去および継続的なアクセスに対して年間最大8桁を支払う用意があると表明している。

オープンソース モデルの開発者がそのようなコストを支払うとは想像しがたい。

もちろん、モデルのパフォーマンスを向上させる方法は、独自のデータに限定されず、合成データ、データ効率、アルゴリズムの改善なども含まれますが、独自のデータはオープンソースモデルが克服するのが難しい障壁となっているようです。

<<:  OpenAIは新しいセキュリティチームを正式に発表しました。モデルは4つの危険レベルに分かれており、取締役会はリリースするかどうかを決定する権利を持っています。

>>:  コーディングが ChatGPT を圧倒します! UIUCと清華大学が共同で7BパラメータのMagicorderをリリース、コードデータの重みは完全にオープンソース

推薦する

AIは世界を席巻しており、すべての関係者がアプリケーションの導入に力を入れており、競争は激化している。

テンセントが最近テスラの株式5%を購入したというニュースは業界で大きな話題を呼び、人工知能(AI)分...

...

...

AIがコンテンツマーケティングを進化させる方法

デジタル メディアはほぼすべての人の日常生活に浸透し、私たちのあらゆる活動に永続的な影響を及ぼしてい...

AIによって人間が失業しないのはなぜでしょうか?

人工知能が20年間進歩したにもかかわらず、オフィスワークのほとんどは単純な頭脳労働で構成されているよ...

...

ML プロジェクトを実行するときに、タスクが多数あり、些細な場合はどうすればよいでしょうか?このセルフチェックリストはあなたの心を整理するのに役立ちます

機械学習プロジェクトには、データ処理、モデルの最適化など、多くの要素が関係します。開発者は混乱したり...

有名な文系大学が人工知能の分野に参入すると、何をもたらすことができるのでしょうか?

[[263482]]老舗の文系大学が人工知能人材育成分野への参入を正式に発表した。 「中国人民大学...

グーグル元会長「人工知能だけでは市場を創出できない」

[[321190]]販売員からトラック運転手、医師に至るまで、経済全体の多くの仕事や役割が人工知能...

中国初の風力タービン出力曲線AIモデルが発表され、業界のギャップを埋める

8月28日、国家エネルギー音声の公式WeChatアカウントによると、龍源電力工程技術有限公司は最近、...

...

産業分野におけるマシンビジョンの用途は何ですか?

マシンビジョン技術には、コンピューターサイエンス、人工知能、信号処理、画像処理、機械学習、光学、自動...

テクノロジーは未来を変えます。将来、配達員も失業するでしょう。配達員のいない郵便局だけが残るでしょう。

信じますか?近い将来に配達員が失業するなどとは信じられない人もいるかもしれないが、これは紛れもない事...

RPA の利点と欠点は何ですか?

信用組合サービス組織の PSCU は、数年にわたって企業開発に注力しており、同社はロボットによるプロ...

2021年にAIは暗号通貨分野に参入するでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...