OpenAIは10月に開発された画像生成器DALL-E 3の新バージョンをリリースした。

OpenAIは10月に開発された画像生成器DALL-E 3の新バージョンをリリースした。

OpenAIは9月21日水曜日、書かれたプロンプトに基づいて画像を生成できる新しい画像生成器DALL-Eのプレビュー版をリリースした。同時に、OpenAI はこれを人気の ChatGPT チャットボットに統合する予定です。議員らが生成型人工知能へのさらなる規制を求める中、OpenAI は物議を醸しているこの技術の利用を拡大している。

DALL-E 3と呼ばれるこの新しいツールは、ユーザーコマンドを理解し、テキストを画像に変換する能力に優れています。これは、以前のAI画像生成ツールでは困難だったことです。 OpenAIの研究者らは、言語の進歩により、DALL-E 3は複雑な指示をより適切に解析し、詳細な要求内の紛らわしい要素を回避できると述べている。

「一般ユーザーは ChatGPT チャットボットにログインして、漠然とした質問をすることができます」と、DALL-E 3 のチームリーダーである Aditya Ramesh 氏は述べています。プレゼンテーションの中で、Ramesh 氏は、Mountain Ramen という会社のさまざまなロゴ シナリオをテストしている事業主の例を紹介しました。

この新しいツールは現在、初期テストのために少数のユーザーに提供されていますが、OpenAI は 10 月に ChatGPT の有料加入者にも公開し、この技術を利用できる人の数を大幅に増やす予定です。

OpenAIはますます高まる競争圧力に直面している。 Google の AI を活用した製品の相次ぐ発売により、DALL-E と OpenAI の主力チャットボットのトラフィックと月間ユーザー数の増加が鈍化している。しかし、OpenAI は、その斬新な画像ジェネレーターを ChatGPT に組み込むことで市場を拡大し、この技術を単独の製品ではなくチャットボットの機能として位置付けています。

オープンAIの広報ディレクター、リンジー・ボルトン氏は、DALL-E 3は発売時に不具合があったため、記者会見に出席したジャーナリストらはこの機能をテストできなかったと述べた。しかし、OpenAIはその後、DALL-E 3は水曜日のリリースまでに安定するだろうと述べた。

これまでにリリースされた DALL-E 2、Midjourney、Stable Diffusion などのテキストから画像へのジェネレーターは、早い段階でユーザーを魅了し、技術的なスキルを必要とせずに高度なソフトウェア機能を習得する機会を一般の人々に提供しました。広告主、マーケティング担当者、政治家、ビデオゲーム開発者は皆、キャンペーンを実行するためにこれらのツールを使用しています。

しかし、データ分析会社シミラーウェブのデータによると、DALL-Eツールへのオンライン訪問数は、OpenAIがChatGPTの基盤技術をアップグレードした2023年3月のピーク時の3,200万件から、8月には約1,300万件に減少している。

テキストから画像を生成するAI技術の将来は不透明であるものの、その発展にはほとんど限界がなく、リアルな画像を生成する能力が大きな社会的、政治的影響を及ぼす可能性があるという懸念が生じている。

旧バージョンの DALL-E で生成された道路標識やテキストは非常にごちゃごちゃして見えたため、AI で生成された画像を簡単に識別できました。しかし、DALL-E 3 の改良により、素人が画像が本物かどうかを判断することがより困難になりました。 「もはや自分の目は信用できない」と、デジタルフォレンジックを研究し、アドビと協力してコンテンツ真正性イニシアチブを支援しているカリフォルニア大学バークレー校の教授、ハニー・ファリド氏は言う。

ファリド氏は、AI はおよそ 6 か月ごとに現実世界を模倣する能力が向上するため、DALL-E 3 の改良は驚くべきことではないと強調した。彼は、人工知能から人間の創造物を取り除くための先進技術が必要だと訴えた。

OpenAIの競合企業であるStability AIとMidjourneyは、生成AIモデルのトレーニングに必要な膨大な量のインターネットデータに関して著作権侵害を主張するアーティストやゲッティイメージズからの訴訟に直面している。

法執行機関、規制当局、擁護団体は最近、これらのツールがどのように使用されているかに注目し始めている。たとえば、ディープフェイクのアダルトコンテンツや、次期大統領選挙に向けた AI 生成の広告の作成などだ。

DALL-E 3チームは、これらのリスクを優先し、最悪のシナリオをテストし、その経験を会社の対応戦略に組み込むために外部の専門家の「レッドチーム」を招集したと述べた。

DALL-E 2については、OpenAIはシステムカードでプロセスの詳細な概要を公開し、AIモデルの開発、微調整、安全性テストに関する公開手順を詳述しました。政策研究者のサンディニ・アガルワル氏は、OpenAIはDALL-E 3が一般に公開される前に同様のカードをリリースする予定だと述べた。 6月のホワイトハウスサミットでの自主的な取り組みの一環として、OpenAIは、画像を透かしで埋め込んだり、コンテンツを作成したサービスやモデルを示す来歴データをエンコードしたりするなどの方法を通じて、AIによって生成されたビデオやオーディオコンテンツを識別するための防止メカニズムを開発し、導入することに合意した。ラメシュ氏は、DALL-E 3は画像の出所やコンテンツの「由来」を調べることができる分類装置を実験中であり、これはホワイトハウスの公約にも記載されている手法だと述べた。

オープンソースのモデルライブラリ企業ハギング・フェイスの研究科学者で、グーグルの倫理的AIの元共同責任者であるマーガレット・ミッチェル氏は、これらのメカニズムはディープフェイクの識別に役立つと同時に、アーティストが自分の作品が同意や報酬なしにモデルのトレーニングに使用されたかどうかを追跡するのにも役立つと述べた。

ミッチェル氏はさらにこう付け加えた。「これは必ずしも会社の利益になるわけではないが、より一般大衆の利益になると思う。」

<<:  ChatGPT を使用して Web アプリケーションを構築する方法は?

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

2023年の7つの主要なAI技術トレンド

人工知能は現在世界を席巻しており、サプライチェーンの完全な自動化、仮想アシスタンスの提供などにより、...

...

Llama 2 の中国語版はオープンソースであり、言語モデルとマルチモーダルモデルの両方を備えているため、完全に商用利用可能です。

7月19日、Metaはついに無料の商用版Llama 2をリリースし、オープンソースの大規模モデルの...

この記事では人工知能とは何かを徹底的に解説します!

人工知能 (AI) は、自然科学のさまざまな分野を網羅しており、主に特定の種類の知的な人間の活動をモ...

今後数年間の AI 求人市場はどのようになるでしょうか?

[[353999]] AI がもたらす自動化の脅威によって仕事が奪われる一方で、AI は新しい職種...

...

マシンビジョン: 2D ビジョンと 3D ビジョンのどちらを選択するか?

マシンビジョンは、人工知能の重要な分野として、今日最も注目されているテクノロジーの 1 つとなってい...

Hinton チームの新しい CV 研究: ターゲット検出に言語モデルを使用、DETR に匹敵するパフォーマンス

[[426028]]視覚オブジェクト検出システムは、画像内のすべての定義済みカテゴリのオブジェクト...

...

Java プログラミング スキル - データ構造とアルゴリズム「ハッシュ テーブル」

[[388064]]基本的な紹介ハッシュ テーブル (ハッシュ テーブルとも呼ばれます) は、キー...

ディープラーニングは私たちの生活に革命をもたらした

【51CTO.com クイック翻訳】ディープラーニングが泡のようなものだとしたら、それを真に制御する...

すべてのトップオブジェクト検出アルゴリズムを統合: FAIRオープンソースDetectron

昨日、Facebook AI Research (FAIR) は、業界で最も先進的な物体検出プラット...

ジェネレーティブ AI 時代のデータ センターの再構築

最近の人工知能に関する議論には、OpenAI の大規模言語モデル (LLM) の GPT ファミリー...

Baidu PaddlePaddle EasyDL リテール版シェルフステッチングサービスのアーキテクチャとアルゴリズムの詳細な説明

日用消費財業界の商品識別需要シナリオでは、日用消費財ブランドの営業担当者は、販売のために端末店舗を訪...