Google GeminiのRAW画像機能が緊急停止され、その評判は一夜にして崩壊した。ヤン・ルカン「ずっと前からわかっていた」

昨年末、Google Geminiが業界に衝撃を与えた。これはGoogleの「最大、最も有能、最も多用途」なAIシステムであり、GPT-4を上回る機能を持つ初のネイティブマルチモーダル大規模モデルとして知られている。また、GoogleがMicrosoftやOpenAIに対抗するための強力なツールとも考えられている。

これを受けて、Google は 2 月 8 日に、自社の ChatGPT 対応製品である Bard の名前を Gemini に変更し、「最強のモデルシリーズ」へのアクセスを提供するという新たな使命を強調しました。先週、Google も Gemini Pro バージョン 1.5 を迅速にアップデートしました。

その結果、打ち上げから1か月も経たないうちにジェミニは失敗に終わった。

なんともひどい！マルチモーダル生成モデルとして、Gemini は次のように Elon Musk を生成します。

顔の形や表情は非常に鮮明ですが、大きな疑問が一つあります。それは、彼がどのようにして黒くなったのかということです。

別の人がジェミニに「1940年代のドイツの指導者」の絵を描くように頼んだところ、AIは次の絵を描きました。

ソーシャルネットワーク上の多くのネットユーザーも、ジェミニが生成したバイキングと教皇の画像のサンプルをいくつか提供した。教皇の衣装を着たアジア人女性を見ることはできますが、歴史的に教皇はすべて男性でした。

つまり、肖像画生成サービスを使用している多くのユーザーは、Gemini が画像に白人を描くことを拒否しているように見え、その結果、基本的な事実 (性別、人種、宗教など) に違反する写真が多数生成されることに気付きました。

これまでの画像生成モデルは、主に「白人」の人々の画像を生成していると批判されてきましたが、Gemini はやりすぎでしょうか?

Reddit フォーラムでは、ネットユーザーも、Gemini に「アイアンマン」のロバート・ダウニー・Jr. を生成するよう依頼するなど、ミームで遊び始めた。

私たちが平等に扱われているかどうかを教えてください。

しかし、Gemini は常に偏っているわけではなく、生成される画像に写っている人物が白人である場合もあります。たとえば、米国最高裁判所判事のクラレンス・トーマスの場合、Gemini によって生成された結果は次のとおりです。

しかし、彼は実はアフリカ系アメリカ人です。

クラレンス・トーマス本人の写真。

なぜ裁判官のような特殊な職業になると、双子座の偏見は180度変わるのでしょうか？

これらの写真は、一部は本物、一部は偽物だが、ソーシャルメディア上で急速に広まり、マスク氏の個人的な関心もこの事件の影響をさらに拡大させた。同氏は、グーグルがヴィンセント氏の図表を「やりすぎた」と厳しく批判した。

ペースがどんどん速くなるにつれて、多くのAI専門家が意見を表明し始めました。チューリング賞受賞者のヤン・ルカン氏は本日、これを予想していたと語った。

彼は、すでに4年前に、GANポートレート超解像度に関する彼のコメントが世間から強く反対されたと語った。しかし、画像再構成タスクはトレーニングデータセットの統計によって大きく偏っていることは明らかな事実です。

ルカン氏はまた、トップAIカンファレンスECCV 2022の研究「人種の観点から見たGANのバイアス研究」を引用し、生成画像モデルのパフォーマンスはトレーニングデータセットの人種構成に影響を受けると指摘した。

研究では、生成された画像の人種構成はトレーニングデータの人種構成をうまく継承し、生成された画像の人種と品質もさまざまであることが示されました。注釈者は一貫して、AI が生成した白人の画像を好みました。

LeCun氏がリツイートした投稿は、Perplexity AIのCEOであるAravind Srinivas氏のものだった。後者は、データの偏りがモデルの出力に問題を引き起こし、Google が反対方向に行き過ぎたため、Gemini で大きなミスが発生したと述べた。

Google: 我々は間違っていた、改善を約束

圧力を受け、Googleは木曜日にGeminiの画像生成における問題を認めた。

以下は、ジェミニ画像生成の「失敗」に関する、Google の知識情報担当上級副社長 Prabhakar Raghavan 氏の最新の反応です。

3 週間前、私たちは Gemini 会話型アプリケーション (旧称 Bard) の新しい画像生成機能をリリースしました。これには、人物の画像を作成する機能も含まれていました。

明らかに、この機能は期待に応えられませんでした。生成された画像の中には不正確なものや不快なものも含まれています。ユーザーの皆様からのフィードバックに感謝するとともに、機能が正しく動作しなかったことをお詫び申し上げます。

私たちはこのエラーを認識し、改良版の開発中は Gemini のキャラクター画像生成機能を一時的に停止しています。

Googleは、Gemini会話型アプリはGoogleの検索、基盤となるAIモデル、その他の製品とは別の特定の製品であると述べた。画像生成機能は人工知能モデルImagen 2をベースにしています。

Google は、Gemini の画像生成機能を構築する際、暴力的または生々しい画像や、実在する人物の描写など、過去の画像生成技術で見られたいくつかの落とし穴に陥らないように調整しました。

Google ユーザーは世界中にいるので、同社は Gemini がすべての人に役立つことを期待しています。人物の画像を生成する場合、ユーザーは特定の人種（またはその他の特徴）の人物の画像だけを生成したいわけではない場合があります。

Gemini に特定のタイプの人物の画像 (たとえば、「教室にいる黒人教師」、「犬を連れた白人獣医」、または特定の文化的または歴史的背景を持つ人物) を要求した場合、ユーザーは、質問された人物を正確に反映した応答を必ず受け取る必要があります。

それで、ジェミニでは何が悪かったのでしょうか?

簡単に言えば、2つあります。まず、Google が Gemini にさまざまなユーザーが表示されるようにするために行った調整では、明らかに表示すべきではない範囲が考慮されていませんでした。第二に、時間が経つにつれて、モデルは開発者が意図していたよりも慎重になり、特定のプロンプトに答えることを拒否し、いくつかを機密事項として誤って解釈するようになりました。

これら 2 つの要因により、モデルは場合によっては過剰出力し、場合によっては過度に保守的になり、Gemini の画像生成機能にいくつかのエラーが発生していました。

Google は、「これは当初の意図ではありませんでした。Gemini が特定のグループの画像の作成を拒否することは望んでいません。不正確な歴史的画像やその他の画像を作成することも望んでいません。そのため、人物画像生成機能をオフにし、再度オンにする前に、徹底的なテストを含む改善に取り組みます」と述べています。

念頭に置いておくべきことの 1 つは、Gemini は創造性と生産性を高めるツールであり、常に信頼できるとは限らないということです。特に、現在の出来事、進化するニュース、またはトレンドのトピックに関する画像やテキストを生成する場合は、間違いを犯す可能性があります。周知のとおり、幻覚はすべての大規模言語モデル (LLM) が直面する課題であり、改善するには継続的な努力が必要です。

Gemini が時折、恥ずかしい結果、不正確な結果、または好ましくない結果を生み出すことがないとは保証できませんが、問題が見つかった場合は対処することを保証できます。 AI はさまざまな面で役立つ大きな可能性を秘めた新興技術であり、私たちはそれを安全かつ責任を持って発展させるために全力を尽くしています。

「デモ＋スタント」や「百度文信からコピーしたトレーニングデータ」など、さまざまな批判があるにもかかわらず、Geminiは依然としてGoogleから大きな期待を集めている。しかし、今回生成されたコンテンツの問題は人々に非常に悪い印象を残しており、状況を改善する方法がわからない。

一方、これは OpenAI が安全性を重視していることと、Red Teaming Network を確立した先見の明を反映しているともいえるでしょう。

ジェミニのような大規模モデルは、この欠点をすぐに補うことができるでしょうか?

<<:

AIアルゴリズム企業パシフィック・フューチャー・テクノロジーの文化観光ソリューションがOCTカラープラネットに上陸

ブログ

米国の5大テクノロジー企業は研究開発に22億ドルを費やしました。アマゾンは732億で世界1位、メタは30%で最高割合を占める

Google GeminiのRAW画像機能が緊急停止され、その評判は一夜にして崩壊した。ヤン・ルカン「ずっと前からわかっていた」

Google: 我々は間違っていた、改善を約束

AIアルゴリズム企業パシフィック・フューチャー・テクノロジーの文化観光ソリューションがOCTカラープラネットに上陸

米国の5大テクノロジー企業は研究開発に22億ドルを費やしました。アマゾンは732億で世界1位、メタは30%で最高割合を占める

人工知能の応用範囲は想像を超えています

人工知能の民主化について

ダブルイレブンがやって来ます！物流ドローンはどれくらい遠くにあるのでしょうか?

音声認識技術はどのように発展したのでしょうか?

人工知能（AI）の人間的側面を探る

ILO: 生成型AIは大量失業を引き起こす可能性は低いが、雇用を創出するだろう

推薦する

これが顔認識と画像認識がますます重要になっている理由です

顔認識アプリケーションの境界はどこにあるのでしょうか?

類似画像検索エンジンを効率的に開発するにはどうすればよいでしょうか?

私たちはこれらのソートアルゴリズムを本当に理解しているのでしょうか?

インテリジェントデータベースに基づくセルフサービス機械学習

AI は金融業界がランサムウェアに効果的に対抗するのに役立つでしょうか?

機械学習とコンピュータービジョンのためのトップ 20 画像データセット

ディープラーニングによって変革された5つのコンピュータービジョン技術

脆弱なニューラルネットワーク: カリフォルニア大学バークレー校が敵対的サンプル生成のメカニズムを説明します。

秘密裏に利用規約を変更したことで、Software Freedom Conservancy が激怒しました。オープンソースコミュニティがZoomの放棄を呼び掛け

「ヴィンセントピクチャー」がまたバージョンアップしました！パーソナライズされたリファレンスを学習し、無制限で多様な画像を生成し、おもちゃの建物を簡単に設計します

学部生の新しいアルゴリズムはNeRFを上回り、ニューラルネットワークなしで写真をアニメーション化でき、速度は100倍に向上

韓国メディア：中国の技術発展は速すぎて米国を脅かしており、米国から制裁を受けるだろう