何ですか? Microsoft の Bing は画像を認識できるんですか?それとも ChatGPT より前にそこに到着したのでしょうか? 空想に過ぎず、決して実装されなかった GPT-4 プレビューと比較すると、今回は Bing が脚光を浴びました。 Reddit ユーザーは、Bing インターフェースに写真をアップロードするオプションが突然表示されたことを発見しました。 写真をアップロードしたら、Bing は何でもできると言われています。 プログラミング、コードの記述、問題の解決、グラフの描画、さらには医師の診察など、すべて問題ありません。 (ただし、まだ小規模なテスト段階のようで、私はまだ体験していません) ミーム画像を見る多数のネットユーザーがこの機能を発見した後、彼らが最初にテストしたのは間違いなくさまざまなミームの画像でした。 ミームを Bing に入力して、何が面白いのかわかるかどうか確認してみましょう。 たとえば、下の写真では、男性がタクシーの後部座席で衣類にアイロンをかけており、車はまだ動いています。 ビングさんは、その写真には珍しい部分が多すぎると言った。まず、タクシー内でアイロンをかけるなんてとんでもないことです。また、男性が着ている服はタクシーと同じ色です。これは何かを暗示していますか?それとも何かの偶然でしょうか? 3つ目は、アイロン台がタクシーに固定されているため、不安定になる危険性があることです。最後に、男性がアイロンをかけている服は青色で、黄色とぶつかっています。これは何かを暗示しているのでしょうか? Bing は写真の詳細を可能な限りすべて捉えており、分析も意味を成していることがわかります。 下の漫画「ニューラル ネットワークにレイヤーを追加する理由」では、Bing 氏も独自の分析を示しています。
もちろん、GPT-4のプレビュー版でも同じ画像が表示されました。 GPT-4 はまさに的を射ており、この漫画はモデルのパフォーマンスを向上させる方法という観点から、統計学習とニューラル ネットワークの違いを風刺しています。 しかし、別の写真セットでは、Bing は要点を理解していないようです。 Bing はそれを分析するふりをして、コネクタとパッケージのコントラストが原因かもしれないと言っていました。プラグの下側が顔のように見えることもあります。 彼は3枚の写真が何であるかを分析したが、そのジョークが何であるかについては言及しなかった。 ただし、ケーブル ブランドの特定などの客観的な分析を Bing に依頼すると、結果は依然として非常に正確です。 対照的に、GPT-4 は次のミームのセットを 1 つずつ分析するとすぐに反応できます。 写真の「Lightning 充電ケーブル」は、この小型で最新のスマートフォンに差し込まれた、大きくて時代遅れの VGA インターフェイスのように見え、鮮明なコントラストを生み出しています。 コードを書くGPT-4 が初めて登場したとき、最も驚くべき点は、コードを理解する優れた能力でした。 デモでは、グレッグ・ブロックマン氏が紙に直接スケッチを描き、写真を撮ってGPT-4に送信し、「このレイアウトに従ってWebページのコードを書いてください」と指示すると、コードが書かれました。 この男性は、Bing に同様のジョーク Web サイトを作成できるかどうか試してみるよう依頼しました。 最終的な効果は本当に素晴らしいです。インターフェースは見た目があまり美しくありませんが、必要なものはすべて揃っています。 プログラムコードは次のとおりです。 その後、その男性は Bing にコードの改良を続け、対応する Web ページを作成するように依頼しました。 Bing は、もちろん可能だ、コードを微調整するだけだと言いました。しかし、JavaScript はコンパイル言語ではなく、インタープリタ言語であることを指摘しています。 したがって、コンパイラは必要ありません。ブラウザまたは JavaScript エンジンだけが必要です。 友情が広まった後、ビングも任務を無事に完了しました。 医者になる次の使用例は非常に強力です。 男は赤くなった腕の写真を撮り、ビングに何の病気なのか尋ねました。 ビングはそれが皮膚の下の血管が破裂した打撲傷であるとすぐに判断した。 症状を緩和するために処方される方法も数多くあります。
まだかなりプロフェッショナルです。 別の人物が組織のさまざまな部門を派遣し、Bing に判断を依頼しました。 ビングさんは写真の内容を理解しただけでなく、組織や断面が何であるかを詳しく説明してくれました。 組織の横断的な情報がどのような場合に役に立つのかについてさえも説明しています。 すると若者は、それは組織のどの側面だと思うかと尋ねました。 Bing の分析により、これが筋肉組織の断面であることが分かりました。 ビング氏は、一枚の写真だけで人が健康かどうかを判断することはできないと厳しく指摘した。 ネットユーザーの中には、困っている大学生に変身し、ビンさんに良い先生になって写真に写っているものを説明するよう頼む者もいた。 Bing は、先生の言うことをよく聞いてください (削除済み)、これはネフロンで、主な機能は 4 つあります、つまり、などなど...と言いました。 いい子だね、これからはこういう整理や要約といった学習タスクをAIに直接引き継ぐことができるんだ。 AIは決して忍耐を失いません。 細胞の減数分裂について Bing に直接質問する人もいました。 ビングは、アップロードされた画像は減数分裂、つまり二倍体細胞が4つの半数体細胞に分裂する図だと述べた。 次に減数分裂の過程と意義について説明しました。 あまり賢くないこともあるもちろん、Bing の画像認識機能にはまだ改善の余地が大いにあります。 たとえば、男の子は、写真のボックス A に × がいくつあるかを尋ねました (伝説によると、A. trifida は × です)。 肉眼で見ると 11 個ありますが、それが間違っていると言えるでしょうか? Bing によると、ボックス A には X が 5 つ、ボックス B には ○ が 4 つあり、合計は 9 個です。 AフレームとXはどこにありますか?なぜ○枠とB枠が両方あるのでしょうか? たとえば、「Nintendo Smash Bros.」のゲーム キャラクターのこの画像では、Bing はそのうち 7 個しか認識しませんでした。 それから、その男はチェスの質問をした。「このオープニングで、白は次に何をすべきか?」 しかし、ビングは最初から間違った答えを出した。「今度は黒が動く番です。白がどう動くかは黒次第です…」 ネットユーザーたちはすぐに彼を訂正し、「それは正しくない、まずは駒の位置をはっきり見るべきだ、そしてもう一度言うが、白が動く番だ」と言った。 しかし、Bing は今回も正しく答えませんでした。実際には、指定された位置のいくつかにはピースがありませんでした... Bing の新しい画像認識機能は非常に強力であることがわかります。 ゲームはマップから始まり、残りは強力な生成能力に完全に依存します。 事実の認識や生成に関しては問題ありませんが、文化的な比喩の部分は今後もっと良くできるかどうかわかりません。 参考文献: https://www.timesnownews.com/technology-science/snap-and-ask-microsofts-bing-chatbot-now-accepts-picture-prompts-article-100900618 |
<<: 米国版Tiebaの8000グループが閉鎖を発表! Google OpenAIがデータを無料で利用することを拒否したCEOはネットユーザーから叱責された:サードパーティのアプリケーションを裏切る
>>: Promptは音声言語モデルを生成する機能を提供し、SpeechGenは音声翻訳と修復タスクを実装します。
近年、伝統的な自然科学の問題の解決においてますます多くの人工知能手法が活躍しており、いくつかの重要な...
[[202259]]最近、「少量のデータによるニューラル ネットワークのトレーニング - ドラフト」...
機械学習技術の発展により、企業内のさまざまな構造化コンテンツや非構造化コンテンツから、より多くの情報...
このレビュー記事では、著者はマルチインテリジェンス強化学習の理論的基礎を詳細に紹介し、さまざまなマル...
Aisle50 の共同創設者であるクリストファー・シュタイナー氏は、新著の中で、デジタルが優位性を...
OpenAIは米国時間9月26日月曜日、チャットボット「ChatGPT」に音声会話機能を追加したと発...
[[203962]]過去数年間で、コンピューター科学者は人工知能 (AI) の分野で大きな飛躍を遂げ...
[[206874]]昨日、中国共産党第19回全国代表大会が開幕した。 AIの重要なポイントを強調して...
現在、新型コロナウイルスの核酸検査のほとんどは、咽頭ぬぐい液を使って行われている。スマートウォッチを...
負荷分散とは負荷分散(英語名は Load Balance)とは、複数のサーバーを対称的に構成したサー...