GPT-4V は驚くべきマルチモーダル機能を備えています。数式のスクリーンショットが直接コードを出力、「ドラゴンと魔法の世界」が瞬時に生成され、OpenAI社長が興奮して転送

GPT-4V は驚くべきマルチモーダル機能を備えています。数式のスクリーンショットが直接コードを出力、「ドラゴンと魔法の世界」が瞬時に生成され、OpenAI社長が興奮して転送

最近、GPT-4 は静かに更新され、マルチモーダル性や音声対話などの機能が追加されました。

しかし、OpenAI がリリースする新機能のすべてが外部から驚嘆の波を引き起こした今年の初めと比較すると、現在、GPT-4 の声ははるかに小さくなっているようです。

OpenAI は、自社の製品発表が派手すぎるため、監視や訴訟が絶えないのではないかと心配しているのかどうかは分かりません。3 週間前に Vincent グラフ モデル DALL-E 3 を更新した以外は、GPT-4 のリリースから 7 か月間、新製品や新機能を公式にリリースしていません。

しかし、OpenAIの社長であるグレッグ・ブロックマン氏自身が、GPT-4の新バージョンを使用して実現されたさまざまな想像力豊かな機能をX(Twitter)でリツイートし続けました。

GPT-4V のマルチモーダル機能とコーディング機能を活用することで、本に書かれた数式を Python コードに直接変換できます。

GPT-4 の最近アップデートされた音声機能を活用して、ビジネス交渉のコーチとしてシミュレーション演習を行う人も出始めています。

この投稿のすぐ下に、インペリアル・カレッジ・ビジネス・スクールの学習デザイナーが、MBA 向けのトレーニング コースの設計に GPT-4 の音声機能を使い始めたというメッセージを残しました。

ChatGPT に統合された DALLE 3 を使用して、ゲーム デザイナー向けの世界観とオリジナルの図面を生成します。

ほんの数行のプロンプトで、ドラゴンの世界のテキスト説明とオリジナルスタイルの写真が表示されます。

DALLE 3 を直接使用して、必要な GIF ファイルを生成します。

トウモロコシの粒がポップコーンになる仕組み。

踊る犬。

GPT-4 を使用してこの一連の機能を完了する方法を見てみましょう。

GPT-4 総合科学版

ネットユーザーは、スクリーンショットを撮るだけで、ほぼすべての数式を GPT-4 を通じて Python コードに変換できることを発見しました。

もちろん、モデルにはまだ幻覚が含まれている可能性があるため、すべての結果をそのまま使用することはできず、エラーや漏れがないか慎重にチェックする必要があります。

たとえば、スクリーンショットのコードの 6 行目では、「d_hat(i, j)」は「d_hat(i)」にする必要があります。

いくつかの小さなエラーはあるものの、ネットユーザーたちはこの機能に非常に高い評価を与えました。

MITの博士号を持ち、AIスタートアップの創設者でもある彼は、追加のコンテキストがなければGPT-4は機能を認識できないが、何をしているのかは分かっていると主張している…かなりすごいことだ。

金融 AI ツールを構築した別の開発者は、このユースケースは素晴らしいと述べました。想像の余地は無限にあります。

そして彼は 2 つの具体的な使用例を挙げました。

  1. 研究論文内の複雑な数式をスクリーンショットし、ローカルですぐに実行できます。

2. スクリーンショット(何でも)を撮り、GPT に UI を実装するコードを生成させることができます。

同様に数式だけでなく分子式も直接読み取り、調製方法を直接出力することもできます。

ヘッドフォンの設計図を入力すると、デバイスを組み立てるための大まかな手順が表示されます。

GPT-4V の優れたマルチモダリティ サポートと、そのエンコード機能および豊富な知識を組み合わせることで、ほぼ無限の使用シナリオを作成できます。

いくつかのヒントでドラゴンと魔法の世界が生まれます

別のネットユーザーは、ChatGPTを通じてドラゴンに関連したファンタジーの世界を作成するプロセスを共有しました。

GPT-4 は、ドラゴン関連の概念、解剖学的構造、さらにはドラゴンの生息地を生成します。

ドラゴンの頭のクローズアップ。

ドラゴンの骨格と解剖学。

ドラゴンの生息環境の原画や説明も掲載されています。

まず、必要な画像スタイルを指定する必要があります。

著者は技術的なインフォグラフィック スタイルのアートを望んでいたため、非常に平易な英語の説明であるこのプロンプトを使用しました。

「ドラゴンの技術エンジニアによる図面を、各パーツのラベル付きで生成してもらえますか? ワイドアスペクト比を使用してください:」

以下の結果が得られます。

次に、ドラゴンの頭のクローズアップを作成します。

次に、生息地のコンセプトアートと説明を作成してもらいます。

満足できない場合は、要件をさらに絞り込み、GPT-4 で要件を満たします。

ゲーム デザイナーとして、ドラゴンに関連するシーンをデザインしたい場合は、すぐに作業を開始して、使用可能な結果を​​生み出すことができます。

別のネットユーザーは、この使用例からインスピレーションを得て、サフランに関連した紹介を作成しました。

「サフランのさまざまな部分のラベルが付いた、技術エンジニア向けの図面を生成してもらえますか? ワイドアスペクト比を使用してください。」

このプロンプトワードを使用して、サフランの構造図が生成されました。

サフランの花束のクローズアップに再生されました。 「サフランの茎のクローズアップをワイドアスペクト比で生成できますか?」

サフラン畑の遠景。 「サフラン畑の航空写真をワイドアスペクト比で生成してください。」

最後に、サフランの断面が生成されました。 「ワイドアスペクト比でのサフランの糸の解剖図。」

非常に複雑な潜水艦の構造図です!

ガンダムの構造の概略図。

頭部の詳細図。

足の詳細図。

武器の構造図。

パン焼き機の非常に詳細な図。

ネットユーザーらは「全然止められない」とコメントした。


<<: 

>>:  マイクロソフトとスタンフォード大学の新アルゴリズムがAIによる人類絶滅のリスクを排除! GPT-4の自己反復、プロセスは制御可能かつ説明可能

ブログ    
ブログ    

推薦する

...

人工知能は繊維産業の生産プロセスをデジタル化し、自動化するだろう

デジタル変革への最善のアプローチを知りたいですか? 全体的なテクノロジーを明らかにすることはできませ...

JavaScript におけるいくつかの一般的なソートアルゴリズムの共有

説明する各ブラウザテストから取得されるデータは異なります。たとえば、Chrome を使用してテストす...

AIが光子の時間を3D画像に変換し、時間の経過による世界を視覚化する

[[337082]]最近、グラスゴー大学コンピューティング科学学部のデータサイエンス研究者であるアレ...

...

ドローンは倉庫・物流業界の発展をどのように加速させているのでしょうか?

屋内ドローンは、新しい未知の市場でどのようにその有用性を証明できるでしょうか?ドローンは無人自律航空...

食糧生産・供給システムの改善 — AI が担う時代へ!

[[344152]] 人工知能は私たちの世界を急速に、さらには加速的に変えつつあります。しかし、そ...

...

2021年以降の人工知能について何かお考えはありますか?

中国科学技術協会、中国科学院、中国工程院、浙江省人民政府、杭州市人民政府、浙江省人工知能開発専門委員...

...

...

英国は「国家AI研究リソース」としてGPUを購入するために1億3000万ドルを費やす計画だと報じられている。

8月21日、英国のリシ・スナック首相は、世界的なコンピューティング能力の競争に追いつくために、1億...

Github が絶賛: モザイクテキスト = 無意味、AI があなたの思考をすべて見抜く、オープンソースに

「この写真をフォトショップで加工しましょう!」 「いいですよ、でもこの段落は検閲しないと面倒なことに...

自動車業界における人工知能の活用方法

[[431746]]自動車業界は、新しい技術の最前線に立つことが多いです。業界では数十年にわたって組...