OpenAIがChatGPTをアップデート:画像と音声入力をサポート

OpenAIがChatGPTをアップデート:画像と音声入力をサポート

最近、OpenAI は ChatGPT の新バージョンのリリースを発表し、音声入力と画像入力という 2 つの新機能を追加しました。 OpenAIによると、新機能は今後2週間以内にChatGPT Plus加入者に展開され、他のユーザーも「すぐに」使用できるようになるという。

音声入力機能は、携帯電話の音声アシスタントに似ています。ユーザーはボタンを押して質問を話すだけです。ChatGPT はそれをテキストに変換し、回答を生成し、回答を音声に変換してユーザーに再生します。 OpenAIは、このやりとりの方法の方がより自然で便利であり、LLMの技術的利点により回答の質も高くなると述べた。 OpenAIは、数秒のサンプル音声に基づいて人間のような音声を生成できる新しいテキスト読み上げモデルも開発しました。ユーザーは ChatGPT の音声を 5 つのオプションから選択でき、このモデルにはさらに多くの潜在的な用途があります。たとえば、OpenAI は Spotify と協力して、ポッドキャストのホストの音声を維持しながらポッドキャストを他の言語に翻訳しています。ただし、このモデルには、公人になりすましたり詐欺行為をしたりするために悪用される可能性など、いくつかのリスクもあります。そのため、OpenAIは、このモデルは広く公開されるのではなく、厳しく管理され、制限されると述べました。

画像入力機能はGoogle Lensに似ており、ユーザーは興味のあるものの写真を撮ってChatGPTにアップロードすることができます。 ChatGPT は、ユーザーが何を尋ねたいのかを識別し、それに応じて回答しようとします。ユーザーは、アプリの描画ツールを使用して質問を表現したり、音声またはテキスト入力を使用してコミュニケーションしたりすることもできます。 ChatGPT の利点は、1 回の検索ではなく、複数回の会話を実行できることです。ユーザーが回答に満足していない場合や、さらに詳しい情報を希望する場合は、ChatGPT に質問を続け、より正確で包括的な回答を得ることができます。もちろん、画像検索には潜在的な問題がいくつかあります。例えば、 OpenAIは、人物の写真を処理する際に、正確性を確保しプライバシーを保護するために、ChatGPTが人物を分析して直接評価する機能を制限したと述べている。つまり、人物の写真をアップロードしてその人が誰であるかを知ることはまだ不可能である。

IT Homeは、2022年初頭のChatGPTの発売以来、OpenAIが新たな問題の発生を避けながら、ロボットにさらに多くの機能と能力を追加するために懸命に取り組んでいることに気づきました。同社は今回のアップデートで、新モデルの機能を意図的に制限することで、その点でのバランスを取ろうとしている。しかし、このアプローチは長期的な解決策ではありません。音声制御や画像検索を使用する人が増え、ChatGPT が徐々に真にマルチモーダルで便利な仮想アシスタントになるにつれて、安全で合理的​​な境界を維持することがますます難しくなります。

<<:  Open Interpreterは、大規模な言語モデルのコードをローカルで実行できるようにするオープンソースツールです。

>>:  GitHub CEO: AIはプログラマーに取って代わることはできない

ブログ    

推薦する

...

AI技術が世界の感染症対策に情報提供を支援

最近、SingularityNETのCEOであるベン・ゲルツェル博士は、COVID-19サミットを開...

ハイエナが次世代トランスフォーマーになる? StripedHyena-7B オープンソース: 最大 128k の入力、トレーニング速度が 50% 向上

近年発表されたAIモデル、例えば言語、視覚、音声、生物学など各分野の大規模モデルは、Transfor...

転移学習に使用される 4 つのコンピュータ ビジョン フィールド モデル

導入SOTA 事前トレーニング済みモデルを使用して、転移学習を通じて現実世界のコンピューター ビジョ...

アルゴリズムのパフォーマンスを最適化するためにデータ品質を確保するための 6 つのヒント

今日、企業は、分析アルゴリズムの良し悪しは、そのアルゴリズムをトレーニングするデータの良し悪しによっ...

Keras よりも優れた機械学習「モデル パッケージ」: コード 0 個でモデルの作成を開始

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

WeChat、サードパーティのエコシステムに統合するインテリジェント会話システム「Xiaowei」を発表

2019年WeChatオープンクラスPROで、WeChat AIチームが開発したインテリジェント対話...

AIがFBIに加わったとき、KGBはそれを専門家と呼んだ

「市の東にある家で爆弾が爆発しようとしています!」 「爆弾はネズミ捕り、ACデルコ社の単三電池、亜鉛...

2010年以降、MLコンピューティングパワーの需要は100億ドル増加し、6か月で2倍になり、ディープラーニングは画期的な分野となった。

計算能力、データ、アルゴリズムは、現代の機械学習 (ML) の進歩を導く 3 つの基本的な要素です。...

...

...

マスク氏:プログラマーの62%が人工知能が武器化されると考えている

常に人工知能の脅威論を支持してきたシリコンバレーの「鉄人」マスク氏は、今回、プログラマーたちの間で支...

AWS でディープラーニングを使用するための 10 個の Linux コマンド

[[202723]] AWS 上で大規模なディープラーニング処理を実行することは、学習と開発を行うた...

大規模製造企業におけるインテリジェントな意思決定シナリオの分析

1. 製造業の発展の現状まず、製造業企業の発展状況について紹介します。 1. 企業経営は直線的な発展...