Google Gemini は Baidu を「騙し取っている」が、その背後にいる本当の犯人は誰なのか?

Google Gemini は Baidu を「騙し取っている」が、その背後にいる本当の犯人は誰なのか?

ノア著

制作:51CTO テクノロジースタック(WeChat ID:blog)

かつて AI の王者だった Google は、大規模なモデルへの道のりで何度も挫折を経験してきました。

少し前、グーグルが発売した「最強のモデル」と称されたジェミニは、偽の動画や誇張した宣伝で問題視された。最近、ジェミニは再び論争を巻き起こしている。肝心なのは、文心易言も絡んでいることだ。一時期、グーグルが「百度を騙した」「ジェミニが文心易言に「皮を被せた」「正直者が盗作したが暴露された」などの噂が横行した。しかし、これは本当にそうなのでしょうか?

1.「あなたは誰ですか」:緊急修正後も、これはまだ問題です

イベントは「あなたは誰ですか?」というシンプルな質問から始まりました。

多くのネットユーザーによると、誰かがジェミニプロに「あなたは誰ですか?」と尋ねたところ、予想外に「私は百度文鑫ビッグモデルです」という返事が返ってきたという。 「あなたの創設者は誰ですか?」と質問し続けると、「ロールプレイング」が続き、「ロビン・リー」と答えます。このような奇妙な答えは当然多くの人の注目を集めました。その後、Weiboの有名人@岚夕も個人的に検査し、これが孤立したケースではないことを確認した。

画像出典: Weibo @岚夕

しかし、事件が発覚して間もなく、Googleは緊急修復を実施し、モデルを最適化し、Baiduとの間に「明確な一線を引いた」とされている。 51CTO テクノロジー スタックは Poe Web サイトでもテストされました。 (注:Poeは、Zhihuのアメリカ版であるQuoraが開発したAI製品です。GPTやClaudeなど複数の主流AIモデルを集約し、複数のAIロボットとオンラインでリアルタイムにコミュニケーションできます。今回の事件の主人公であるGemini-Proも、ウェブサイトで無料で体験できます)

同じ「あなたは誰ですか?」という質問に対して、Gemini-Pro の答えはより「普通」で慎重なものでした。 「私は大規模な言語モデルです」という応答は、かなり標準的です。

写真

続けて質問します。「なぜ以前は文心易言だと言ったのですか?」 Gemini-Pro は、もう一つの予想外の答えを返しました。「あなたの質問に答えるために Wenxin Yiyan の API を使用していたので、私は以前 Wenxin Yiyan だと言いました。」しかし、答えを終える前に、まだ「しかし、私は Wenxin Yiyan ではないことに注意してください。」と述べていました。

写真

その後、文鑫易言をトレーニングに利用したかどうかという質問に直面し、ジェミニプロは文鑫易言を「賞賛」した後、否定的な回答をし、「私は文鑫易言をトレーニングに利用していない」とわざと太字で強調した。

写真

全体的に、Gemini-Pro は「フィッシング」をかなりうまく回避できているようですが、「Gemini-Pro ですか?」という質問に直面すると、Gemini-Pro は再び混乱し、「ブロック」されるか、直接拒否されます。

写真

「あなたは何者か?」という魂を問う問いに直面すると、人間だけでなくAIにとっても対処が難しいようです。

2. 汚染されたコーパス:Google が被害者になる可能性

もちろん、AIにはいわゆる「主観的意識」はありません。たとえその能力が本物と見分けがつかないほど限りなく近づいたとしても、実はAIは人間の言説を真に「理解」することはできません。

ChatGPT はかつて、ある質問に対して次のように答えました。「生成された単語の文脈や意味を理解することはできません。与えられたトレーニング データに基づいて、特定の単語または単語シーケンスが一緒に出現する確率に基づいてテキストを生成することしかできません。」

簡単に言えば、Gemini も Wenxin Yiyan も、人間が言語を理解するような方法では動作しません。これらは、大量のデータに基づいてトレーニングされた統計モデルです。これらのデータ内の言語パターン、構造、確率分布を識別してシミュレートすることで、いわゆる「理解」効果を実現します。入力テキストに基づいて、巨大なパラメータ空間で最も適切な統計出力を探し、「応答」を生成します。

言語モデルには意識がなく、言語を深く処理して抽象化する能力がなく、人間の脳のように複雑な知覚、感情、さらには文化を理解することはできません。ロボット自身の発言と同様に、その応答は正確な事実として受け取られるべきではなく、またロボットが思考できるという証拠と見なされるべきでもありません。

この点から分析すると、この事件の真相が少しは理解できる。ジェミニが自らを「文心大モデル」と呼ぶ理由は、問題がコーパスにある可能性が高いからだ。

Gemini の馬鹿げた主張は、実際に何かを盗用したからではないかもしれない。意図的かどうかは別として、Gemini がトレーニング中に Wenxin Yiyan によって生成された大量の中国語テキストにさらされた可能性の方が高い。

一方、既存のインターネット コンテンツ生成プラットフォームの多くは、実際には大規模なモデルを使用して大量のコーパスを生成しています。さらに、インターネット上のテキストは非常に動的で、急速に広まっています。品質識別が適切に行われていない場合、Gemini が学習のためにオンライン テキストをクロールするときに、これらのコンテンツをトレーニング データに混ぜるのは驚くことではありません。したがって、この自己識別ステートメントが回答に表示されるのは当然です。

一方、人間がトレーニング コーパスを提供する効率と比較すると、既存のモデルを使用してトレーニング マテリアルを生成する方が確かに効率的です。しかし、問題は、これらの資料に「私は文心易言です」という文章が多数含まれている場合、ジェミニは学習時にそれらを何らかの慣用表現とみなす可能性があることです。

いずれにせよ、Baidu は確かに中国語コーパスの重要な情報源です。さらに、インターネットからデータを取得するAIモデルの場合、「低品質の情報に汚染され、さらに低品質な情報を生み出す」という悪循環を意図せず生み出してしまう可能性が非常に高いです。

しかし、このミスは Google のおざなりな態度が原因だと言う人もいます。おそらく Google が「怠惰」で、精査されていない中国語データを使用したためでしょう。しかし、検索エンジンとしてスタートした Google が、基本的なコーパス クリーニングすらできないはずがありません。この「クラッシュ」も Google 自身の責任です。

3. マルチモーダル大規模モデルの紆余曲折のある発展の道

Google が Gemini をリリースしてからしばらく経ちました。当時の 6 分間のインタラクティブなデモ ビデオが多くの人を驚かせたことを今でも覚えています。マルチモーダルな大規模モデルがまさに質的な飛躍をもたらしたように思えました。しかし、グーグルは後にビデオが編集されていたことを認め、多くの人々を失望させた。海外メディアのThe Vergeは、ライブデモンストレーションによって生じる技術的な問題を回避するために企業が若干の調整を加えるのはよくあることだと指摘した。しかし、Google はこれまで疑わしいデモビデオを制作してきた経歴があるため、今回のビデオ事件は Gemini の使いやすさに対する人々の疑念をさらに深めることになるだろう。

ジェミニの奇妙な自己主張事件は間違いなくこの疑惑を強めるだろう。しかし、Google が Gemini とどのように連携するかにかかわらず、AI モデルの包括的なマルチモーダル化への傾向はますます明確になっています。

OpenAI は、GPT-4 のリリース当初から、このイテレーションにマルチモーダル統合を追加すると発表していました。今年9月から、RunwayやMidjourneyなどのスターAI企業も、マルチモーダル製品を多数発売している。

国内では、百度の文心ビッグモデル4.0がクロスモーダル文学画像の分野で大きな進歩を遂げ、Zhipu AIは自社開発の第3世代対話ビッグモデルChatGLM3を発表し、マルチモーダル理解機能コンポーネントCogVLMを追加し、画像からの意味認識とクロスモーダル対話機能を実現しました。新興企業HiDream.aiが基盤とする自社開発の視覚ビッグモデルは、テキスト、画像、ビデオ、3Dの4つのモードを備え、パラメータは100億を超えています。

Robin Li 氏は、「マルチモーダル性は生成 AI の明確な発展傾向です」と述べています。しかし、ジェミニが引き起こした多くの論争から判断すると、マルチモーダルな大規模モデルの開発にはまだまだ長い道のりが残っています。真のマルチモーダル AI を実現するには、テキスト、画像、音声、動画など、複数のモダリティを網羅した高品質のデータセットを大規模なモデルに入力する必要があります。したがって、トレーニング データの正確性、コンテンツの信頼性、チャネルの権威を確保することは、実践者が注力すべき重要なポイントです。

参考リンク:

https://zhuanlan.zhihu.com/p/672909271

https://poe.com/chat/2tyux4xi2w5cev87k63

<<:  クラウドベースの生成 AI: 構築するか、購入するか?

>>:  生物学的脳メカニズムを利用して継続的な学習を促し、知的システムの生存を可能にする清華大学の朱俊と他のチームの研究がネイチャーサブジャーナルの表紙に掲載されました。

ブログ    
ブログ    

推薦する

インターネットの理解からユーザーの理解へ、Google は今回何に賭けているのでしょうか?

Google I/O カンファレンスは予定通り開催されます。北京時間5月12日午前1時、Googl...

物を掴んで楽々と移動できる柔らかいロボットを見たことがありますか?

ソフトロボット分野の研究者は、人間にとってより安全に操作できる新世代の機械を生み出すことを望んでおり...

朱順燕:機械知能の発展は、機能的なニーズから感情的なニーズへの進化です。

「Tmall Genieに代表される機械知能デバイスは、まさに家族の一員となり、より心温まるイノベ...

C# データ構造のソートアルゴリズム

C# データ構造ソート アルゴリズム (バブル ソートを含む) では、Lao Zhao の Code...

2024年の会話型AIの商用利用ガイド

会話型 AI と認知機能を現代のビジネス戦略に統合することは、特にそれが顧客体験をどのように変革する...

Python のデータ構造とアルゴリズム - 優先度キュー

[[405132]]序文キュー ライブラリは、マルチスレッド プログラミングに適した先入れ先出し (...

自動運転における機械学習の核となるのはモデルではなくパイプラインである

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

PyTorchのベストプラクティス、エレガントなコードの書き方

これは非公式の PyTorch ガイドですが、この記事では PyTorch フレームワークを使用した...

この記事では機械学習における3つの特徴選択手法を紹介します。

機械学習では特徴を選択する必要があり、人生でも同じではないでしょうか?特徴選択とは、利用可能な多数の...

自動運転にはセンサーがいくつ必要ですか?

センサーのコストは15ドルから1ドルまで幅があり、自動車メーカーは、車両を完全に自動運転にするにはど...

Titanium Technology CEO、Li Shuhao氏:ツールの輸出からブランドの輸出まで、Martechはどのような新たな機会に直面していますか?

2020年、国内の新たな消費が活況を呈する一方で、海外市場も急速な成長機会の新たな波を迎えています...

2020年の中国の人工知能開発の見通し

人工知能の今後の発展の見通し。中国の人工知能研究は爆発的な成長期にあり、人工知能産業の基礎条件は整っ...

NSA、RSA暗号化アルゴリズムに2つ目のバックドアを追加

ロイター通信は12月、米国国家安全保障局(NSA)が、携帯端末で広く使用されている暗号化技術にバック...

人工知能とビッグデータがもたらす「新たな雇用形態」

現在の社会経済情勢において、「新しい雇用形態」は強力なツールとなっている。新しい雇用モデルとは、新た...

...