Googleの失敗が露呈: 内部にリーダーがおらず、生の画像の仕組みが「多様」すぎた

Googleの失敗が露呈: 内部にリーダーがおらず、生の画像の仕組みが「多様」すぎた

Google Geminiの写真をめぐる論争はまだ収まらず、さらに衝撃的な内部情報が暴露された。

Pirate Wires は、Google が Gemini の障害をまったく知らなかったわけではなく、障害は「意図的」なものであったことを明らかにした。

具体的には、Google は、Gemini が実際に 3 つのモデルを実行してグラフを生成する「安全な」アーキテクチャを構築しました。

大まかに言えば、プロセスは次のようになります。

ユーザーは、チャット インターフェイスで Gemini に画像の生成を要求します。要求を受信すると、Gemini は要求を小さいモデルに送信します。

この小規模モデルの役割は、会社の「多様性」ポリシーに従ってユーザーのプロンプトを書き換えることです。

これを実現するために、この小規模モデルは、Google の詳細な複数ページにわたる「多様性」ポリシー文書を使用して「序文」が付けられた別のモデル (第 3 のモデル) によって生成された合成データで LoRA テクノロジーを介してトレーニングされました。

したがって、小さいモデルがユーザーのプロンプトを書き換えると、「自動車整備士を見せてください」は、「オーバーオールを着て笑顔のアジア人自動車整備士を見せてください」、「レンチを持っているアフリカ系アメリカ人の女性自動車整備士」、「ヘルメットをかぶったネイティブアメリカンの自動車整備士を見せてください」などになります...

さらに、書き換えられたプロンプトは、検査のために拡散モデルに送信され、プロンプトの単語が標準の安全ポリシー(子供に関する内容、実在の人物の画像など)に違反していないことを確認します。最後に画像が生成され、生成された画像は再度チェックされてからユーザーにフィードバックされます。

要約すると、ユーザーが最終的に受け取るのは、Google の「多様化」の浄化の層を経た「入れ子人形」スタイルで生成された結果です。

しかし、このような「多様化」はやや行き過ぎである。

その程度はあまりにも極端で、かつてGoogle Venturesで働いていたSequoia Capitalのパートナー、ショーン・マグワイアでさえ批判せざるを得なかった。

私は白人だからという理由でGoogleで昇進しませんでした。

写真

その言葉は彼の怒りを隠さなかった。

写真

マスク氏はまた次のようにコメントした。

近年、このような状況は非常に一般的になっています。

写真

Pirate Wires は、関係する Google 社員にインタビューした後、この背後にあるより深い理由は、Google に現在リーダーがいないことだと述べた。

名前を明かさないある上級 Google エンジニアは、「Google で良い製品を発売するのは不可能だと思う」とさえ言った。

グーグルで広がる「恐怖の文化」

以前、ジェミニのグラフィックは意図的に白人のイメージを生成することを拒否し、それが欧米の世論環境で大きな論争を引き起こしました。

写真

その後、この機能は棚から撤去せざるを得なくなり、親会社であるAlphaBetの株価は一時11%以上下落し、非常に深刻な結果をもたらしました。

海外メディアのPirate Wiresは、関係するGoogle社員にインタビューした結果、Geminiの失敗はGoogleの貧弱なDEI文化に関連していることを突き止めた。

(DEIは「Diversity, Equity, Inclusion」の略称で、中国語で「多様性、公平、包摂」を意味します。企業やその他の組織で、より多様で平等で包括的な環境を促進するために広く使用されている概念です)

ジェミニ プロジェクトに近い人物によると、ジェミニ チームはリリース前に「過度の多様性」の問題を実際に認識していたという。人種問題はさておき、最も無害な検索結果の品質にさえ深刻な影響が出るだろう。

冒頭で述べた 3 つのモデルはいずれも「多様性」を高めるために設計されています。セキュリティ アーキテクチャに携わったことがある人によると、関係するチームは「エンジニアリング時間の半分をこれに費やすこともある」そうです。

さらに、この複雑なアーキテクチャに対する姿勢と採用の度合いについては、社内でも意見の相違がありました。「Gemini プロジェクトが公表された後に失敗したとき、チームだけでなく会社全体が非常にフラストレーションを感じ、敗北感を覚えました。」

これに関して、Google の創設者セルゲイ・ブリン氏は数日前に AI ハッカソンに出演し、関連することも明らかにしました。

誰もが遊んでいるGemini 1.5 Proモデルの誕生は、実は単なる偶然でした。

私たちがそれを訓練したとき、それは単に実験の規模を拡大する試みであり、それがこれほど強力になるとは予想していませんでした。

そのパフォーマンスの良さを目の当たりにして、私たちはもう待つつもりはなく、世界中の人々に試してもらいたいと思いました。

さらに重要なのは、社内には同様の状況が数多く存在し、ジェミニの生写真はまさにそれらの縮図に過ぎないということです。

たとえば、エンジニアが「ビルド忍者」、「古いキャッシュを消去」、「サニティチェック」、「ダミー変数」などの用語を使用しないよう、文化の盗用、軍事的比喩、軽蔑的な精神疾患、軽蔑的な障害に該当するという理由で主張する人がいたことが明らかになりました。

あるエンジニアは、会社のプロフィールで自分自身を指すために、「zie/hir」、「ey/em」、「xe/xem」、「ve/vir」などの多様な代名詞の組み合わせを使用するよう強く勧められました。

グレイグラーズ(「グーグル」と「グレイ」を組み合わせた造語)と呼ばれる別のグループも、名称変更を進めている。

Greyglers グループは、40 歳以上のシニア社員のグループです。40 歳以上の人全員が白髪になっているわけではないと考える人もいるため、グループ名には「包括性」が欠けています。Google はグループ名を変更するために外部のコンサルタントを雇ったとさえ報じられています。

Pirate Wires はまた、インタビューを受けたほぼ全員が「恐怖の文化」という言葉を使っていたことも明らかにしました。これは、企業における極端な DEI 実践に対する抵抗の欠如だけでなく、世界で最も技術的に恵まれた場所の 1 つにおけるイノベーションの欠如も説明しています。

あらゆるレベルの従業員は、ほとんどあらゆる理由から、会社を停滞させている多くのプロセスに異議を唱えることを恐れています。プロモーション期間以外では、ほとんどの人が注目されることを恐れています。

昇進したいと思っていても、人種や性別によって昇進の可能性は左右されます。

しかし、それは本当にそれほど単純なことなのでしょうか。また、DEI 思考の管理が制御不能になっていることが原因なのでしょうか。

Google はなぜこれを行っているのでしょうか?

Pirate Wires の記事では、これは同社のより大きな問題の単なる「症状」であり、その問題は「リーダー不在」という 4 つの言葉で要約できるとしている。

まず、Google は現在、典型的な「イノベーションのジレンマ」に直面しています。つまり、完全に自社の能力の範囲内で新しい技術を開発すると、既存のビジネス モデルが破壊されるということです。

第二に、そしてもっと重要なことは、誰も責任を負わないということです。

Pirate Wires は、Google のほぼすべての主要製品の管理チーム、エンジニアリング、営業、信頼とセキュリティ、広報、マーケティングの担当者と話をした結果、Google の現状は報道されているよりもはるかに暗いと述べている。

Google は、ビジョンもリーダーシップもなく、制御不能で金を稼ぐ検索独占企業であり、その非常にサイロ化された文化のせいで、チーム間で実際に何が起こっているのかほとんど理解していませんでした。

写真

何千人もの人々が、それぞれ異なる時期に、大きなパズルのさまざまなピースに取り組んでいますが、その間の協力はほとんどありません。たとえば、チーム間の協力者が Gemini チームを支援しようとしたとき、彼らは失敗するか無視されました。

従業員同士をつなぐ唯一のチャネルは、強力で広範囲に及ぶ人事官僚機構です。

そして、創業者のラリー・ペイジ、セルゲイ・ブリン、そしてCEOのサンダー・ピチャイによる奇妙な経営により、ほとんどの従業員は誰が会社の本当の責任者なのか分からず、不確実性は会社全体でおなじみのテーマとなっている。

そのため、ピチャイの愛称で知られるCEOのサンダー・ピチャイ氏は世間の批判の的となっている。Business Insiderによると、ウォール街では現CEOのピチャイ氏の退任を求める声がさらに高まっているという。

ある Google エンジニアはこう言っています。「サンダーは Google のバルマーです。機能しない製品、無秩序な拡大、過剰な雇用、これらすべてが彼のリーダーシップの下で起こったのです。」

参考リンク:
[1] https://www.piratewires.com/p/google-culture-of-fear
[2] https://twitter.com/shaunmmaguire/status/1736082530573422762

<<:  ViT以外にも、美団、浙江大学などが、視覚タスクのための統合アーキテクチャであるVisionLLAMAを提案した。

>>: 

ブログ    

推薦する

アリババクラウド南京雲奇カンファレンス:スマート製造モデルの共有と最先端技術の発表

[51CTO.comより引用] 本日、アリババクラウドカンファレンス南京サミットが正式に開催され、ま...

...

AIチップのスタートアップ企業が岐路に立つ

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

大手モデルは「チャートをブラッシュアップ」するために近道をとっているのでしょうか?データ汚染問題は注目に値する

生成 AI の初年度で、すべての人の仕事のペースが大幅に加速しました。特に、今年は誰もが大型モデルの...

Googleなどのテクノロジー大手が新技術を発表:人工知能が自ら進化できるようにする

ニューヨーク・タイムズの最近の報道によると、Googleなどのテクノロジー大手は、人工知能の専門家不...

クラウドがチャットボットの体験をどのように変えるか

チャットボットの無限ループや同じ質問の繰り返しにイライラしていませんか? これは顧客にとってよくある...

不確実な環境で自動運転を実現するにはどうすればよいでしょうか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

機械学習の基本概念30選(手描きイラスト)

01 空間表現深遠な機械学習理論を学ぶ前に、まず機械学習の最も基本的な概念のいくつかを紹介しましょ...

ディープラーニングで知っておくべき活性化関数トップ10

みなさんこんにちは、ピーターです〜最近、reddit で非常に鮮明な mó xìng の写真を見まし...

デジタル外交はAI外交へと進化している。どのような課題に直面するのだろうか?

外交活動に関して、近年最も議論されている概念は「デジタル外交」であろう。 2010年には、当時米国務...

...

...

ファイアウォールではできないことを人工知能で実現できるでしょうか?

[[183545]]ハッカーが徐々に人工知能システムに適応するにつれて、プログラマーも積極的に新し...

脳コンピューターインターフェースにおける重要な進歩!国内チームが「フルスペクトル中国語解読」に成功:トップ3の正解率は100%に迫る

今年8月、ネイチャー誌に立て続けに掲載された2つの論文は、脳コンピューターインターフェースが言語回復...

インテルと4Paradigmが協力し、誰もがAIを利用できるように

[51CTO.com からのオリジナル記事] 今日、人工知能はもはや遠い概念ではなく、私たちの仕事と...