GPT-4V は驚くべきマルチモーダル機能を備えています。数式のスクリーンショットが直接コードを出力、「ドラゴンと魔法の世界」が瞬時に生成され、OpenAI社長が興奮して転送

GPT-4V は驚くべきマルチモーダル機能を備えています。数式のスクリーンショットが直接コードを出力、「ドラゴンと魔法の世界」が瞬時に生成され、OpenAI社長が興奮して転送

最近、GPT-4 は静かに更新され、マルチモーダル性や音声対話などの機能が追加されました。

しかし、OpenAI がリリースする新機能のすべてが外部から驚嘆の波を引き起こした今年の初めと比較すると、現在、GPT-4 の声ははるかに小さくなっているようです。

OpenAI は、自社の製品発表が派手すぎるため、監視や訴訟が絶えないのではないかと心配しているのかどうかは分かりません。3 週間前に Vincent グラフ モデル DALL-E 3 を更新した以外は、GPT-4 のリリースから 7 か月間、新製品や新機能を公式にリリースしていません。

しかし、OpenAIの社長であるグレッグ・ブロックマン氏自身が、GPT-4の新バージョンを使用して実現されたさまざまな想像力豊かな機能をX(Twitter)でリツイートし続けました。

GPT-4V のマルチモーダル機能とコーディング機能を活用することで、本に書かれた数式を Python コードに直接変換できます。

GPT-4 の最近アップデートされた音声機能を活用して、ビジネス交渉のコーチとしてシミュレーション演習を行う人も出始めています。

この投稿のすぐ下に、インペリアル・カレッジ・ビジネス・スクールの学習デザイナーが、MBA 向けのトレーニング コースの設計に GPT-4 の音声機能を使い始めたというメッセージを残しました。

ChatGPT に統合された DALLE 3 を使用して、ゲーム デザイナー向けの世界観とオリジナルの図面を生成します。

ほんの数行のプロンプトで、ドラゴンの世界のテキスト説明とオリジナルスタイルの写真が表示されます。

DALLE 3 を直接使用して、必要な GIF ファイルを生成します。

トウモロコシの粒がポップコーンになる仕組み。

踊る犬。

GPT-4 を使用してこの一連の機能を完了する方法を見てみましょう。

GPT-4 総合科学版

ネットユーザーは、スクリーンショットを撮るだけで、ほぼすべての数式を GPT-4 を通じて Python コードに変換できることを発見しました。

もちろん、モデルにはまだ幻覚が含まれている可能性があるため、すべての結果をそのまま使用することはできず、エラーや漏れがないか慎重にチェックする必要があります。

たとえば、スクリーンショットのコードの 6 行目では、「d_hat(i, j)」は「d_hat(i)」にする必要があります。

いくつかの小さなエラーはあるものの、ネットユーザーたちはこの機能に非常に高い評価を与えました。

MITの博士号を持ち、AIスタートアップの創設者でもある彼は、追加のコンテキストがなければGPT-4は機能を認識できないが、何をしているのかは分かっていると主張している…かなりすごいことだ。

金融 AI ツールを構築した別の開発者は、このユースケースは素晴らしいと述べました。想像の余地は無限にあります。

そして彼は 2 つの具体的な使用例を挙げました。

  1. 研究論文内の複雑な数式をスクリーンショットし、ローカルですぐに実行できます。

2. スクリーンショット(何でも)を撮り、GPT に UI を実装するコードを生成させることができます。

同様に数式だけでなく分子式も直接読み取り、調製方法を直接出力することもできます。

ヘッドフォンの設計図を入力すると、デバイスを組み立てるための大まかな手順が表示されます。

GPT-4V の優れたマルチモダリティ サポートと、そのエンコード機能および豊富な知識を組み合わせることで、ほぼ無限の使用シナリオを作成できます。

いくつかのヒントでドラゴンと魔法の世界が生まれます

別のネットユーザーは、ChatGPTを通じてドラゴンに関連したファンタジーの世界を作成するプロセスを共有しました。

GPT-4 は、ドラゴン関連の概念、解剖学的構造、さらにはドラゴンの生息地を生成します。

ドラゴンの頭のクローズアップ。

ドラゴンの骨格と解剖学。

ドラゴンの生息環境の原画や説明も掲載されています。

まず、必要な画像スタイルを指定する必要があります。

著者は技術的なインフォグラフィック スタイルのアートを望んでいたため、非常に平易な英語の説明であるこのプロンプトを使用しました。

「ドラゴンの技術エンジニアによる図面を、各パーツのラベル付きで生成してもらえますか? ワイドアスペクト比を使用してください:」

以下の結果が得られます。

次に、ドラゴンの頭のクローズアップを作成します。

次に、生息地のコンセプトアートと説明を作成してもらいます。

満足できない場合は、要件をさらに絞り込み、GPT-4 で要件を満たします。

ゲーム デザイナーとして、ドラゴンに関連するシーンをデザインしたい場合は、すぐに作業を開始して、使用可能な結果を​​生み出すことができます。

別のネットユーザーは、この使用例からインスピレーションを得て、サフランに関連した紹介を作成しました。

「サフランのさまざまな部分のラベルが付いた、技術エンジニア向けの図面を生成してもらえますか? ワイドアスペクト比を使用してください。」

このプロンプトワードを使用して、サフランの構造図が生成されました。

サフランの花束のクローズアップに再生されました。 「サフランの茎のクローズアップをワイドアスペクト比で生成できますか?」

サフラン畑の遠景。 「サフラン畑の航空写真をワイドアスペクト比で生成してください。」

最後に、サフランの断面が生成されました。 「ワイドアスペクト比でのサフランの糸の解剖図。」

非常に複雑な潜水艦の構造図です!

ガンダムの構造の概略図。

頭部の詳細図。

足の詳細図。

武器の構造図。

パン焼き機の非常に詳細な図。

ネットユーザーらは「全然止められない」とコメントした。


<<: 

>>:  マイクロソフトとスタンフォード大学の新アルゴリズムがAIによる人類絶滅のリスクを排除! GPT-4の自己反復、プロセスは制御可能かつ説明可能

ブログ    
ブログ    

推薦する

...

推論コストが48分の1に削減されました! 1つのGPUで静止画像を動かすことができる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能はますますあらゆる分野に浸透しつつある

近年、人工知能技術は急速に発展し、ますます多くの分野でその急速な発展の勢いと大きな可能性を発揮してい...

...

ドローン技術の最新動向

ドローン分野へと私たちを導いた技術開発はそこで止まりませんでした。ドローンが軍事目的以外の目的で使用...

Google が AI で利益を上げている秘密は何でしょうか?

[[441488]]ビジネスプロセスはインテリジェントではないAI プロジェクトから価値を引き出す...

2020年の世界スマート街灯市場の現状と発展見通しの分析

Technavioが発表した「世界のスマートポール市場2020-2024」レポートデータによると、2...

11 の基本的なニューラル ネットワーク アーキテクチャの視覚的な説明

標準、再帰、畳み込み、オートエンコーダネットワークディープラーニングの急速な発展により、多種多様なタ...

...

人工知能は商業ディスプレイの将来の発展の傾向を混乱させる可能性がある

[[412444]]商業用ディスプレイは日常生活でますます広く使用されるようになり、買い物、仕事、旅...

2020年が過ぎようとしていますが、これらの新しいテクノロジーがもたらした問題は依然として残っています。

2020年、疫病による経済的、社会的不確実性にもかかわらず、人工知能技術は加速的に発展し続けました...

OpenAIの年間収益は13億ドルに達し、月間1億ドル以上となり、夏に比べて30%増加した。

10月13日、The Informationは現地時間12日、複数の関係者の話として、OpenAI...

...

2023 年にビジネス リーダーが注目すべき IT の注目点トップ 10

選択の余地はありません。2022年は近年で最も激動の年の一つになるでしょう。 テクノロジーもこの混乱...