ChatGPTが話せるようになりました！ Siriなどのスマートアシスタントへの直接的な脅威

OpenAIは米国時間9月26日月曜日、チャットボット「ChatGPT」に音声会話機能を追加したと発表した。これにより、OpenAI はインテリジェント音声アシスタントの分野で Google、Apple、Amazon などのテクノロジー大手と直接競合することになります。

ChatGPT は 5 つの「ペルソナ」を使用してユーザーの質問に答えることができ、その声のトーンは Alexa や Siri などの音声アシスタントよりも実際の人間に近いように聞こえます。 OpenAIは、音声機能の追加は、より多くのユーザーを引き付けてChatGPTを使用し、対話してもらうための重要な方法であると述べた。

「それが我々が直面している課題だ」と、OpenAIの消費者向け製品担当副社長ピーター・デン氏はインタビューで語った。「最も難しいことの一つは、この素晴らしい技術を簡素化することだ」

OpenAIがChatGPTの音声機能のリリースを発表した同じ日に、Amazonは人工知能のスタートアップ企業Anthropicに最大40億ドルを投資する契約を発表した。これは今年初めのマイクロソフトによるOpenAIへの投資以来、人工知能分野で最大の取引であり、テクノロジー大手が注目の人工知能スタートアップ企業に賭けていることを示している。

Google、Amazon、OpenAIは、競争に勝つために先週いくつかのAI製品をリリースした企業である。既存のスピーカーへの統合は、企業がユーザーにチャットボットの使用と料金の支払いを促すための重要な方法の 1 つです。

アマゾンは、すでにアメリカの何百万もの家庭に導入されているAlexaホームスピーカーにチャットボットの「会話」機能を追加すると発表した。グーグルは、チャットボット「バード」の技術を自社の音声アシスタントに適用することを検討していると述べた。

現在、ChatGPT のモバイルアプリでは音声で質問できますが、チャットボットはテキストで回答します。冷蔵庫の中の材料の写真を見せたり、チャットボットにレシピの提案を依頼したりするなど、質問の一部としてチャットボットに画像をアップロードすることもできるようになりました。

音声と画像の機能が追加されたことで、ChatGPT は世界を「見て」「聞いて」、音声と画像の両方で応答できる真の「マルチモーダル」モデルになりました。マルチモーダルモデルは業界の競争の次の段階であり、多くの企業がより強力なモデルの開発を競っています。

音声アシスタントは長年にわたり、自動車、スマートフォン、テレビ、スマートスピーカーに搭載されており、毎日数え切れないほどの人々に使用されています。しかし、ほとんどの場合、音声アシスタントは、照明を点灯したり天気を報告したりするような単純な操作に限定されています。チャットボットの背後にある「ビッグ言語モデル」テクノロジーにより、音声アシスタントがより長く、より自然な会話をし、より複雑な質問に答えられるようになる可能性が開かれます。

投資家やアナリストは、チャットボットや画像生成器などの生成型人工知能の分野での競争への対応が遅いとしてアマゾンを非難している。アンスロピックの投資により、アマゾンは同スタートアップの研究者や技術にアクセスできるようになる。 Anthropicは元OpenAIの従業員によって設立され、以前はGoogleから投資を受けていた。

市場調査会社ガートナーのジム・ヘア副社長は、アマゾンは上記の措置を通じて、生成型人工知能の分野で積極的なプレーヤーであることを市場に示したとし、遅れをとっているという人々の印象を変えようとしていると述べた。

OpenAIは昨年11月にChatGPTをリリースし、チャットボットブームを巻き起こした。マイクロソフトはOpenAIと提携して同社の技術を活用し、グーグルは独自のチャットボット「Bard」を立ち上げた。

人工知能の研究者は、チャットボットの応答が実際の人間の応答と似ていることが多いため、人々がチャットボットを過度に擬人化する可能性があると警告している。これにより、ユーザーはロボットの知能や能力を誤って信頼する可能性があります。しかし、チャットボットは今でもメッセージをでっち上げて、それを本当の回答として伝えることが多く、AI 研究者はこれを「幻覚」と呼んでいます。

ChatGPT の新しいキャラクターの名前は Sky、Ember、Breeze、Juniper、Cove で、それぞれ口調やアクセントが異なります。スカイの声は、映画「her/世界でひとつの彼女」で主人公が恋に落ちる人工知能の声を担当したスカーレット・ヨハンソンに少し似ている。。 OpenAIの幹部ピーター・デング氏は、音声キャラクターは特定の人物のように聞こえるように設計されていないと述べた。

デモンストレーションでは、ピーター・デン氏はロボットがまとまりのない自由回答形式の質問を理解できることを示した。彼は、新機能によって、質問の言い回しを正確に考えなくても、より簡単に、より自由に会話ができるようになったと語った。「この機能を使えば、ChatGPTと会話することができます」とDeng氏は語った。「今では子供たちは ChatGPT で寝る前にお話を聞いてほしいと頼んでいます。」

OpenAIの政策研究者サンディニ・アガルワル氏はインタビューで、音声と画像の機能をテストし、ロボットがデリケートな話題に適切に反応するように安全策を追加したと語った。たとえば、ユーザーがメンタルヘルス関連の問題について質問した場合、ChatGPT は専門家に相談することを提案します。しかし、アガルワル氏は、やるべきことはまだ多く、仕事は完了には程遠いと述べた。

<<: AIのエネルギー消費は高すぎるため、マイクロソフトはデータセンターの電力供給に原子力発電の利用を検討している

>>: 画像ベースの AI プロジェクト用のデータセットを準備する 7 つのステップ

Google が AVA データベースを開始: 動画内の人間の行動を機械が認識できるようにする

ChatGPTが話せるようになりました！ Siriなどのスマートアシスタントへの直接的な脅威

Google が AVA データベースを開始: 動画内の人間の行動を機械が認識できるようにする

AIは新たな科学革命を先導している

高品質な人工知能メンタルヘルスカウンセリングアプリを開発するには？

ブロックチェーンのコア技術「ハッシュと暗号化アルゴリズム」を公開

ドイツのハッカーはレンタルしたコンピュータリソースを使ってハッシュアルゴリズムを攻撃する

専門家の洞察: 顔が高度なアクセス制御認証情報である 5 つの理由

トップレベルの人工知能チームを構築するにはどうすればよいでしょうか?

大規模モデル: 大規模モデルの難しさは何ですか?

機械学習をサポートする 8 つのデータウェアハウス

推薦する

生物学的脳メカニズムを利用して継続的な学習を促し、知的システムの生存を可能にする清華大学の朱俊と他のチームの研究がネイチャーサブジャーナルの表紙に掲載されました。

「顔をスキャン」すると、実はリスクが伴う。顔認識、個人情報保護の観点から

Red Hat は Ansible の自動化に IBM Watsonx コード生成を採用

MySQL などの従来のリレーショナルデータベースは弱すぎます。 GPU データベースは将来のトレンドです!

Salesforceは、20のコードタスクSOTAをリフレッシュするために、新しい基本的なLLMシリーズのエンコーダー/デコーダーコードT5 +を提案しています。

世界初の「サイボーグ」が死んだ！さようなら、ピーター 2.0

経済不況が来ていますが、AIを拒否しないでください！

イェール大学教授を征服したアルゴリズムプログラマーを見て、「人間本位」を実践してスマートコミュニティの脳を開発するにはどうすればよいのでしょうか?

自動運転車の意思決定制御システム技術を分析した記事

2021年11月のドローン業界の最新動向を3分で振り返る

2024年の8つの主要テクノロジートレンド

ソフトウェアエンジニアの年収は930万ドル！ Googleの給与が明らかに：15億6千万ドルは史上最高額

機械学習を簡単にする 5 つのオープンソース Python ライブラリ

データサイエンスにおける強力な思考