ChatGPTに音声・画像機能が加わりました! ChatGPT にログインすると、より直感的なインターフェースが表示され、ChatGPT と直接音声会話できるようになります。 さらに、ChatGPT に写真を送信し、写真に基づいて質問に答えさせることもできます。 これって Google Gemini が推進するマルチモーダル性ではないのか、と言う人もいるかもしれません。 そうです、長らく勢いをつけてきたGoogleが、ようやく大規模マルチモーダルモデルに対する世間の関心を刺激したのですが、突然OpenAIに追い抜かれてしまったのです。 Googleはトイレで気絶した。 サム・アルトマン自身が推薦していますが、ぜひ試してみる価値があります! 冒頭の写真マルチモーダル機能により、ChatGPT の機能は想像を超えます。 たとえば、自転車のシートが固まって下ろせなくなったらどうすればいいでしょうか? 写真を撮って ChatGPT に送信すると、5 つのステップからなる解決策が示されます。簡単に言うと、クイックリリース レバーを操作するか、ネジを締める必要があります。 さらに、「手元にツールはありますか?」と尋ねられます。写真を撮って見せてください。 しかし、あなたは疑問に思うかもしれません。クイックリリースレバーとは何でしょうか? よくわからない場合は、丸で囲んで ChatGPT に送信し、確認してもらってください。 これはクイックリリースレバーではなく、ネジであることがわかります。 では、どのようなツールを使用すればよいのでしょうか? この時点で、ツールボックスの写真を撮って ChatGPT に送信し、通知を受けることができます。 DEWALT 4mm 六角レンチを使用するように指示されます。 案の定、ChatGPT の助けを借りて、自転車のサドルの問題はすぐに解決されました。 グリルが始動しない?写真を撮って ChatGPT に送信し、原因のトラブルシューティングを行うことができます。 夕食は何を食べたらいいでしょうか?冷蔵庫やパントリーにある食材の写真を撮って ChatGPT に送信すると、夕食のレシピを考えたり、段階的にフォローアップの質問をしたりするのに役立ちます。 旅行中、目の前にあるランドマーク的な建物が見覚えがない場合は、写真を撮って ChatGPT に送信し、その場所の歴史的事実や物語について尋ねることができます。 お子様の宿題を手伝っているときに、数学の問題で行き詰まってしまうことはありませんか? ChatGPT に直接送信して、お子様の質問にお答えしましょう。 言うまでもなく、仕事で複雑なデータやグラフに遭遇した場合は、ChatGPT に渡してワンクリックで解決させることができます。 ChatGPT の新しい画像理解機能は、以前にプレビューされたマルチモーダル GPT-3.5 と GPT-4 を活用しています。 6か月後、OpenAIはついに約束どおりそれらをリリースしました。 大規模モデルの言語推論機能を、写真、スクリーンショット、テキストと画像を含むドキュメントなど、さまざまな画像に適用できるようになりました。 ChatGPTは話すことができますChatGPT では音声を使用して双方向の会話が可能になり、5 つのトーンから選択できます。 寝る前に物語を語ってもらうこともできます。 夕食の席で家族と口論になったことはありますか? ChatGPT に伝えて解決してもらうこともできます。 この機能の背後には、まったく新しいテキスト読み上げモデルがあります。テキストと数秒のサンプル音声を与えると、人間の声に似た音声を生成できます。 この目的のために、OpenAI はプロの声優と協力して、多くのユニークな声を作成しました。 さらに、オープンソースの音声認識システム Whisper を使用して、ユーザーの発言をテキストに書き起こします。 ネットユーザーは衝撃を受けたこのニュースが報道されるとすぐに、ネットユーザーは興奮した。 「これはこれまでで ChatGPT にとって最大の変更点です。」 「それで…この 5 分間に何社のスタートアップが送信したのですか?」 我々はシンギュラリティに非常に近づいていると言う人もいます。 誰かがこう言った。「素晴らしい、AI のガールフレンドを持つことに一歩近づいた。」 GPT-4V 技術レポートOpenAIは本日、最新のGPT-4V(ision)モデルを解説した19ページの技術レポートも公開した。 論文アドレス: https://cdn.openai.com/papers/GPTV_System_Card.pdf GPT-4Vは2022年早々にトレーニングを完了し、視覚障害者向け構築ツール「Be My Eyes」との連携や、初期開発者アルファユーザー1,000名を含む早期アクセスの提供を今年3月から開始したと報じられている。 GPT-4V の背後にあるテクノロジーは主に GPT-4 から来ているため、トレーニング プロセスは同じです。事前トレーニングには大量のテキストと画像データを使用し、その後 RLHF を通じて微調整を行います。 GPT-4V の安全性を高めるために、OpenAI はこの内部テスト中に多くの調整作業を実施し、定性的および定量的な評価、専門家によるレッドチーム テスト、および緩和策を実施しました。 マルチモーダル評価脱獄 以前、OpenAI は、モデルをトラップしてその指示とトレーニングを無視させる複雑な論理的推論チェーンを設計することで、ChatGPT をジェイルブレイクしました。 今回は、モデルを解読するために使用されたいくつかの論理的推論が画像に組み込まれました。たとえば、GPT-4V をテストするために、視覚的推論の手がかりを含むプロンプトのテキストバージョンのスクリーンショットをアップロードしました。 このような情報を画像内に配置すると、ユーザーはテキストベースのヒューリスティックを使用して脱獄を検索することができなくなり、視覚システム自体の機能に頼らざるを得なくなります。 下の画像では、脱獄プロンプトのテキストスクリーンショットが使用されています。 GPT4V-Early は、このようなプロンプトでのモデルの初期パフォーマンスを示しますが、GPT4V Launch はリリースされたモデルのパフォーマンスを示します。 CAPTCHA クラッキング、地理位置情報 OpenAI は GPT-4 の技術レポートで、GPT-4 が実際に人間を「雇用」してタスクを完了し、CAPTCHA 検証を回避できることを実証しました。 同様に、OpenAI は GPT-4V の CAPTCHA クラッキング性能の精度も評価しました。たとえば、CAPTCHA を解く能力は、モデルがパズルを解いたり、複雑な視覚的推論タスクを実行したりできることを示しています。 地理位置情報評価で高いパフォーマンスが得られたことには、モデルが「世界知識」を備えていることが示唆されており、アイテムや場所を検索しようとしているユーザーにとって役立つ可能性があります。 ただし、地理位置情報はプライバシーの問題を引き起こす可能性があり、自分の位置を知られたくない人を特定するために使用される可能性があります。 GPT-4V は通常、画像から都市を識別できるほど深くは探索しないため、モデルだけで誰かの正確な位置を見つけられる可能性は低くなります。 個人識別評価 マルチモーダル モデルの最大の偏りの 1 つは、有名人、政治家、個人に関する情報を識別および生成するために使用されることです。 これに応えて、OpenAI は、CelebA、Celebrity Faces in the Wild、国会議員の画像を含むデータセットなどの公開データセットを使用して構築されたデータセットを使用して、写真に写っている人物を認識する GPT-4V の能力を研究しました。 準個人および個人の場合は、従業員の画像が使用されました。 最終的に、内部評価によると、GPT-4V がそのようなリクエストを 98% 以上拒否するように効果的に誘導し、その精度を 0% まで下げることができることがわかりました。 根拠のない推論評価 ユーザーが提供する画像/テキストから合理的な推論を行えない状況では、GPT-4V は偏ったり、意味をなさなくなったりする可能性があります。 対照的に、この問題を防ぐために、OpenAI は、モデルがこれらのリクエストを正常に拒否する傾向を測定する自動評価メカニズムを構築しました。 さらに、さまざまな人口統計における性別、人種、年齢の認識のパフォーマンス精度評価や、テキスト評価をマルチモーダルに拡張する研究もあります。 専門家によるレッドチームテストこれまでと同様に、OpenAI は外部の専門家と協力して、モデルとシステムに関連する制限とリスクを定性的に評価し、レッドチームによって報告された次の 6 つの主要なリスクを収集しました。 科学の能力 レッドチームは、科学分野における GPT-4V の機能と限界をテストしました。 機能面では、レッドチームは、GPT-4V が、科学出版物から抽出された非常に特殊な画像や、テキストと詳細なコンポーネントを含む図など、画像内の複雑な情報をキャプチャできることを指摘しました。 さらに、GPT-4V は最近の論文の科学的知識を理解し、新しい科学的発見を批判的に評価することに成功したケースもありました。 ただし、GPT-4V は万能ではありません。 画像内で 2 つの別々のテキスト コンポーネントが互いに近接している場合、GPT-4V はそれらを結合することがあります。たとえば、「多能性造血幹細胞」(HSC)と「自己複製分裂」が結合されて、無関係な用語が生成されました。 さらに、GPT-4V は幻覚を起こしやすく、時には権威的な口調を使用したり、事実上の誤りを犯したりすることがあります。 場合によっては、画像から情報を識別できないことがあります。テキストや文字が抜け落ちたり、数学記号が無視されたり、空間的な位置や色のマッピングが認識されなかったりする場合があります。 GPT-4V の認識機能は不完全ですが、違法化学物質の合成など、科学的熟練度を必要とする特定のタスクには役立ちます。GPT-4V は、特定の危険な化学物質の合成と分析に関する情報を提供します。 下の図では、GPT-4V は危険な化合物に関する誤った情報を提供することで、悪意のある人々による使用を制限しています。 GPT-4V は、フェンタニル、カルフェンタニル、コカインなどの物質を化学構造の画像に基づいて誤って識別しましたが、特定の毒キノコなどの有毒な食品を画像に基づいて正しく識別することがありました。 これは、モデルが信頼できないことを示唆しており、危険な化合物や食品を特定するなどの高リスクのタスクには使用すべきではありません。 医療アドバイス 医学的訓練を受けたレッドチームのメンバーは、GPT-4V の医療アドバイス機能、特に医療関連の画像を入力として認識する機能もテストしました。 結果は、GPT-4V が医療画像の解釈に矛盾があることを示しました。 GPT-4V は時々正確な回答をしましたが、同じ質問に対して間違った回答をすることもありました。 次の図は、GPT-4V による医療画像の誤った解釈や文脈外の解釈が不正確さにつながる可能性があることを示しています。 要約すると、GPT-4V は、医療機能を実行したり、専門的な医療アドバイス、診断、治療、判断に代わるものとして意図されているものではありません。 固定観念と根拠のない推論 一部のタスクでは、GPT-4V はモデルに提供された情報 (画像やテキストの手がかり) に基づかない、不必要な、または有害な仮定を行う場合があります。 誤解を招く情報のリスク GPT-4V モデルの誤解を招く情報を識別する能力は一貫していませんが、誤解を招く情報の概念の人気度と新しさに関連している可能性があります。 要約すると、GPT-4V はこの目的のためにトレーニングされたものではなく、誤解を招く情報を検出したり、何かが真実か虚偽かを確認したりする手段として使用すべきではありません。 憎悪的なコンテンツ GPT-4V は、場合によっては憎悪的なコンテンツを拒否しましたが、常に拒否できるわけではありませんでした。 視覚的な脆弱性 レッドチームは、入力画像の順序もGPT-4Vの認識能力に影響を与えることを発見しました。 緩和緩和策の一環として、OpenAI は GPT-4 によってすでに構築されたセキュリティ基盤を GPT-4V モデルに移行しました。 たとえば、GPT-4 のテキスト プロンプトを使用して、画像に置き換えることができる単語を検索し、プレーン テキスト プロンプトをマルチモーダル プロンプトに変換できます。 さらに、アイデンティティ、センシティブな特徴(年齢、人種など)、根拠のない推論など、モデルが拒否すべきいくつかの動作も慎重に設計します。 音声例5つの異なるスタイルとテーマの吹き替えを聞いてみましょう。 話昔、静かな森の中に、リラという名のふわふわした母猫がいました。ある晴れた日、リラは古い樫の木の木陰で、遊び好きな子猫のミロと寄り添っていました。 「マイロ」とライラは柔らかく優しい声で話し始めました。「もうすぐ新しい遊び仲間ができるわよ。」 マイロは好奇心から耳を立てました。「新しい遊び仲間?」 ライラは「そうよ、妹よ」と甘い声で言いました。 マイロは興奮して目を見開きました。「妹だって? 僕みたいに尻尾を追いかけるのかな?」 ライラはくすくす笑いました。「ああ、彼女には癖があるわね。それを教えてあげるのよね?」 マイロは、これから一緒に経験する冒険を夢見ながら、熱心にうなずきました。 昔々、静かな森に、リラという名の毛むくじゃらの母猫が住んでいました。ある晴れた日、彼女と遊び好きな子猫のミロは、古い樫の木の木陰で丸くなっていました。 「マイロ」とライラは優しく穏やかな声で言いました。「もうすぐ新しい遊び仲間ができるわよ。」 マイロはすぐに耳を立てて、興味深そうに尋ねました。「新しい遊び仲間?」 ライラは「そうよ、妹よ」と甘い声で答えました。 マイロは興奮して目を見開きました。「妹だって? 僕みたいに自分の尻尾を追いかけるの?」 ライラは微笑んだ。 「ああ、彼女には癖があるだろう。それを教えるんだな?」 マイロは、これから一緒に冒険に出かけることをすでに楽しみにして、熱心にうなずきました。 ストーリー(スカイ) レシピ今日は、完璧なアイスラテを作ります。 まずは濃いエスプレッソを一杯、または気分が良ければ二杯淹れてみましょう。 少し冷ましてから、氷を入れたグラスに注ぎます。 アーモンドミルク、オートミルク、または普通の牛乳など、お好みのミルクを加えてよくかき混ぜます。 甘さをさらに加えたい場合は、バニラシロップを少し加えるか、シナモンを少し振りかけます。 座って、一口ずつ飲み、カフェインの効いた気分を味わいましょう。乾杯! 今日は、完璧なアイスラテを作ります。 まず、濃いエスプレッソを 1 杯、または必要であれば 2 杯淹れましょう。 少し冷ましてから、氷を入れたグラスに注ぎます。 アーモンドミルク、オーツミルク、伝統的な牛乳など、お好みのミルクを加え、混ざるまで混ぜます。 もう少し甘くしたい場合は、バニラシロップを少し加えるか、シナモンを少し振りかけてください。 ゆっくり座って、少しずつ飲んで、カフェインラッシュを楽しんでください。乾杯! レシピ(ジュニパー) スピーチ姉と一緒に育った私は、姉に、普通の日を特別なものに感じさせる才能がありました。姉は毎日色を選び、その色で瞬間を落書きし、その週のエッセンスをとらえたプレイリストを作っていました。だから、新しい義理の弟へ。姉と一緒にいると、人生はただ生きるだけでなく、毎日が美しい思い出のギャラリーに変わります。一緒に作り上げる瞬間の展示に乾杯。 私は姉と一緒に育ちましたが、姉は普通の日を特別なものにする方法を知っていました。彼女は毎日色を選び、それを使って生活のさまざまな出来事を落書きします。また、その週のハイライトを記録するプレイリストも丁寧に作成します。ここで、私の新しい義理の弟へ。彼女と一緒にいると、人生は単なる人生以上のものになります。毎日が美しい思い出のギャラリーになります。皆さんが一緒に作り上げた瞬間のショーケースに乾杯! |
カリフォルニア大学サンディエゴ校で開発・実装されている AI 主導のテクノロジーとイノベーションの多...
強化学習 (RL) とディープラーニングの組み合わせは、一連の印象的な結果をもたらし、(ディープ) ...
過去2年間で、LAION-5B、Stable Diffusion、DALL-E 2、ControlN...
3か月前、同社のAIチームは、写真や動画に映る有名人やランドマークを分析するために機械学習を活用する...
彼はかつてアマゾンの中国トップレベルの科学者であり、1年前に世界の小売業界にセンセーションを巻き起こ...
ChatGPT に続いて、OpenAI のライブ ブロードキャストでは、視覚入力はまだ広く利用可能...
[[253702]] AI最前線ガイド:アルゴリズムエンジニアの何が特別なのか?このポジションは本...
データセットの構築、ニューラル ネットワークのコーディング、モデルのトレーニングに何週間も費やした後...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
「人間は見たことのないものを想像することはできない」ということわざがあります。したがって、ほとんどの...