OpenAIがChatGPTをアップデート:画像と音声入力をサポート

OpenAIがChatGPTをアップデート:画像と音声入力をサポート

最近、OpenAI は ChatGPT の新バージョンのリリースを発表し、音声入力と画像入力という 2 つの新機能を追加しました。 OpenAIによると、新機能は今後2週間以内にChatGPT Plus加入者に展開され、他のユーザーも「すぐに」使用できるようになるという。

音声入力機能は、携帯電話の音声アシスタントに似ています。ユーザーはボタンを押して質問を話すだけです。ChatGPT はそれをテキストに変換し、回答を生成し、回答を音声に変換してユーザーに再生します。 OpenAIは、このやりとりの方法の方がより自然で便利であり、LLMの技術的利点により回答の質も高くなると述べた。 OpenAIは、数秒のサンプル音声に基づいて人間のような音声を生成できる新しいテキスト読み上げモデルも開発しました。ユーザーは ChatGPT の音声を 5 つのオプションから選択でき、このモデルにはさらに多くの潜在的な用途があります。たとえば、OpenAI は Spotify と協力して、ポッドキャストのホストの音声を維持しながらポッドキャストを他の言語に翻訳しています。ただし、このモデルには、公人になりすましたり詐欺行為をしたりするために悪用される可能性など、いくつかのリスクもあります。そのため、OpenAIは、このモデルは広く公開されるのではなく、厳しく管理され、制限されると述べました。

画像入力機能はGoogle Lensに似ており、ユーザーは興味のあるものの写真を撮ってChatGPTにアップロードすることができます。 ChatGPT は、ユーザーが何を尋ねたいのかを識別し、それに応じて回答しようとします。ユーザーは、アプリの描画ツールを使用して質問を表現したり、音声またはテキスト入力を使用してコミュニケーションしたりすることもできます。 ChatGPT の利点は、1 回の検索ではなく、複数回の会話を実行できることです。ユーザーが回答に満足していない場合や、さらに詳しい情報を希望する場合は、ChatGPT に質問を続け、より正確で包括的な回答を得ることができます。もちろん、画像検索には潜在的な問題がいくつかあります。例えば、 OpenAIは、人物の写真を処理する際に、正確性を確保しプライバシーを保護するために、ChatGPTが人物を分析して直接評価する機能を制限したと述べている。つまり、人物の写真をアップロードしてその人が誰であるかを知ることはまだ不可能である。

IT Homeは、2022年初頭のChatGPTの発売以来、OpenAIが新たな問題の発生を避けながら、ロボットにさらに多くの機能と能力を追加するために懸命に取り組んでいることに気づきました。同社は今回のアップデートで、新モデルの機能を意図的に制限することで、その点でのバランスを取ろうとしている。しかし、このアプローチは長期的な解決策ではありません。音声制御や画像検索を使用する人が増え、ChatGPT が徐々に真にマルチモーダルで便利な仮想アシスタントになるにつれて、安全で合理的​​な境界を維持することがますます難しくなります。

<<:  Open Interpreterは、大規模な言語モデルのコードをローカルで実行できるようにするオープンソースツールです。

>>:  GitHub CEO: AIはプログラマーに取って代わることはできない

ブログ    
ブログ    
ブログ    

推薦する

マッキンゼー:人工知能の最大の課題と機会

最近、多くの専門家とコミュニケーションをとる中で、人工知能の3つの重要なビジネス面が徐々に明らかにな...

なぜ失敗したかご存知ですか?機械学習プロジェクトの 87% がこのように失敗します…

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

データサイエンスにおける強力な思考

統計学の入門コースを受講したことがあるなら、データ ポイントは理論を刺激したりテストしたりするために...

世界初の大型モデルエージェントが発売!口を動かすだけでPCが働き者になる

最近、謎のアシスタントであるシャオ・シュアイの助けにより、彼のオフィスの効率は以前に比べて10倍以上...

世界のトラフィック量上位50のAIウェブサイトが発表:ChatGPTなどの会話型製品が目立ち、ユーザーは主にライトな体験を利用

米国のベンチャーキャピタル企業a16zは10月9日、Cエンドユーザーに公開されている現在市場に出回っ...

スーパー人工知能はいつ実現されるのでしょうか?

01 近未来1997 年 5 月 3 日、IBM のチェス コンピュータ Deep Blue と世...

...

機械学習感情分析ツールのトップ 5 (スタートアップ)

感情分析または意味分析は、構造化されていないテキスト内の感情や意見を識別するプロセスです。テキストは...

人工知能によって仕事が置き換えられた後、一般の人々は何をすべきでしょうか?

The Paperによると、世界経済フォーラムの報告書では、2025年までに8000万の仕事が機械...

...

OpenCV における KMeans アルゴリズムの紹介と応用

私は 51CTO アカデミーの講師、Jia Zhigang です。51CTO アカデミーの「4.20...

ボストンのロボットが話題になった後、別のヒューマノイドロボットがデビューした

10年以上前、テヘラン大学の研究者らは、Surenaと呼ばれる原始的なヒューマノイドロボットを発表し...

ロボット自動化を実装する5つの方法

今日、チャットボットは、顧客サービスの向上、業務の効率化、そしてより効果的な顧客との関わりを求める企...

AI、ブロックチェーン、IoT、5Gの未来は統合だ

企業は業務を最適化し、現在の誇大宣伝サイクルを活用するために AI の導入に躍起になっています。報告...