OpenAIがChatGPTをアップデート:画像と音声入力をサポート

OpenAIがChatGPTをアップデート:画像と音声入力をサポート

最近、OpenAI は ChatGPT の新バージョンのリリースを発表し、音声入力と画像入力という 2 つの新機能を追加しました。 OpenAIによると、新機能は今後2週間以内にChatGPT Plus加入者に展開され、他のユーザーも「すぐに」使用できるようになるという。

音声入力機能は、携帯電話の音声アシスタントに似ています。ユーザーはボタンを押して質問を話すだけです。ChatGPT はそれをテキストに変換し、回答を生成し、回答を音声に変換してユーザーに再生します。 OpenAIは、このやりとりの方法の方がより自然で便利であり、LLMの技術的利点により回答の質も高くなると述べた。 OpenAIは、数秒のサンプル音声に基づいて人間のような音声を生成できる新しいテキスト読み上げモデルも開発しました。ユーザーは ChatGPT の音声を 5 つのオプションから選択でき、このモデルにはさらに多くの潜在的な用途があります。たとえば、OpenAI は Spotify と協力して、ポッドキャストのホストの音声を維持しながらポッドキャストを他の言語に翻訳しています。ただし、このモデルには、公人になりすましたり詐欺行為をしたりするために悪用される可能性など、いくつかのリスクもあります。そのため、OpenAIは、このモデルは広く公開されるのではなく、厳しく管理され、制限されると述べました。

画像入力機能はGoogle Lensに似ており、ユーザーは興味のあるものの写真を撮ってChatGPTにアップロードすることができます。 ChatGPT は、ユーザーが何を尋ねたいのかを識別し、それに応じて回答しようとします。ユーザーは、アプリの描画ツールを使用して質問を表現したり、音声またはテキスト入力を使用してコミュニケーションしたりすることもできます。 ChatGPT の利点は、1 回の検索ではなく、複数回の会話を実行できることです。ユーザーが回答に満足していない場合や、さらに詳しい情報を希望する場合は、ChatGPT に質問を続け、より正確で包括的な回答を得ることができます。もちろん、画像検索には潜在的な問題がいくつかあります。例えば、 OpenAIは、人物の写真を処理する際に、正確性を確保しプライバシーを保護するために、ChatGPTが人物を分析して直接評価する機能を制限したと述べている。つまり、人物の写真をアップロードしてその人が誰であるかを知ることはまだ不可能である。

IT Homeは、2022年初頭のChatGPTの発売以来、OpenAIが新たな問題の発生を避けながら、ロボットにさらに多くの機能と能力を追加するために懸命に取り組んでいることに気づきました。同社は今回のアップデートで、新モデルの機能を意図的に制限することで、その点でのバランスを取ろうとしている。しかし、このアプローチは長期的な解決策ではありません。音声制御や画像検索を使用する人が増え、ChatGPT が徐々に真にマルチモーダルで便利な仮想アシスタントになるにつれて、安全で合理的​​な境界を維持することがますます難しくなります。

<<:  Open Interpreterは、大規模な言語モデルのコードをローカルで実行できるようにするオープンソースツールです。

>>:  GitHub CEO: AIはプログラマーに取って代わることはできない

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

OpenAI CEOがGPT-5の開発中であることを明らかに

11月14日、海外メディアの報道によると、OpenAIはGPT-5の構築を開始した。同社のCEOサム...

KDnuggets 公式調査: データ サイエンティストが最もよく使用する 10 のアルゴリズム

[[174162]]最新の KDnuggets 調査では、データ サイエンティストが最もよく使用する...

ストレージ自動化、予測分析、人工知能について知っておくべき6つのこと

現在、人工知能や予測分析などのテクノロジーは、多くのストレージ製品に組み込まれています。これらのテク...

AIを使って内部脅威を特定することの倫理

マイノリティ・リポートのトム・クルーズを覚えていますか? AI は将来のリスクを示唆する従業員の行動...

...

AIは小売業界をどう変えるのか

コロナウイルスの発生前から、消費者の期待はすでに変化しており、小売業界に課題をもたらしていました。そ...

広州には AI があり、Huawei Ascend Academy は本格的に始動しています。

[[335135]] 2020年7月18日午後、広州ロイヤルパレスホテルでHuawei DevRu...

ビッグデータアルゴリズムのジレンマ

2013年、米国で窃盗罪で有罪判決を受けた男性がウィスコンシン州の裁判所に訴訟を起こしたという物議を...

ハッシュアルゴリズムに基づくMySQLテーブルパーティション

以下に紹介する Mysql テーブルのパーティショニング プロセスは、ハッシュ アルゴリズムに基づい...

懸念にもかかわらず、CIOはAIGCの利点を探求し、活用し続けています。

OpenAIは2022年11月にChatGPTをリリースし、その後Microsoftから100億ド...

...

2019年のAIインデックスレポートが発表されました。AI分野では大きな進歩がありましたが、結果はまちまちです。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

自然言語処理(NLP)はソーシャルエンジニアリング攻撃の解決に役立ちます

新しいツールは、件名や URL に基づいてソーシャル エンジニアリング攻撃を検出するのではなく、テキ...

...

DeepMindは、オートエンコーダに「自己修正」を教える「SUNDAE」と呼ばれる言語モデルを提案している。

[[440946]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...