GPT-4V は驚くべきマルチモーダル機能を備えています。数式のスクリーンショットが直接コードを出力、「ドラゴンと魔法の世界」が瞬時に生成され、OpenAI社長が興奮して転送

GPT-4V は驚くべきマルチモーダル機能を備えています。数式のスクリーンショットが直接コードを出力、「ドラゴンと魔法の世界」が瞬時に生成され、OpenAI社長が興奮して転送

最近、GPT-4 は静かに更新され、マルチモーダル性や音声対話などの機能が追加されました。

しかし、OpenAI がリリースする新機能のすべてが外部から驚嘆の波を引き起こした今年の初めと比較すると、現在、GPT-4 の声ははるかに小さくなっているようです。

OpenAI は、自社の製品発表が派手すぎるため、監視や訴訟が絶えないのではないかと心配しているのかどうかは分かりません。3 週間前に Vincent グラフ モデル DALL-E 3 を更新した以外は、GPT-4 のリリースから 7 か月間、新製品や新機能を公式にリリースしていません。

しかし、OpenAIの社長であるグレッグ・ブロックマン氏自身が、GPT-4の新バージョンを使用して実現されたさまざまな想像力豊かな機能をX(Twitter)でリツイートし続けました。

GPT-4V のマルチモーダル機能とコーディング機能を活用することで、本に書かれた数式を Python コードに直接変換できます。

GPT-4 の最近アップデートされた音声機能を活用して、ビジネス交渉のコーチとしてシミュレーション演習を行う人も出始めています。

この投稿のすぐ下に、インペリアル・カレッジ・ビジネス・スクールの学習デザイナーが、MBA 向けのトレーニング コースの設計に GPT-4 の音声機能を使い始めたというメッセージを残しました。

ChatGPT に統合された DALLE 3 を使用して、ゲーム デザイナー向けの世界観とオリジナルの図面を生成します。

ほんの数行のプロンプトで、ドラゴンの世界のテキスト説明とオリジナルスタイルの写真が表示されます。

DALLE 3 を直接使用して、必要な GIF ファイルを生成します。

トウモロコシの粒がポップコーンになる仕組み。

踊る犬。

GPT-4 を使用してこの一連の機能を完了する方法を見てみましょう。

GPT-4 総合科学版

ネットユーザーは、スクリーンショットを撮るだけで、ほぼすべての数式を GPT-4 を通じて Python コードに変換できることを発見しました。

もちろん、モデルにはまだ幻覚が含まれている可能性があるため、すべての結果をそのまま使用することはできず、エラーや漏れがないか慎重にチェックする必要があります。

たとえば、スクリーンショットのコードの 6 行目では、「d_hat(i, j)」は「d_hat(i)」にする必要があります。

いくつかの小さなエラーはあるものの、ネットユーザーたちはこの機能に非常に高い評価を与えました。

MITの博士号を持ち、AIスタートアップの創設者でもある彼は、追加のコンテキストがなければGPT-4は機能を認識できないが、何をしているのかは分かっていると主張している…かなりすごいことだ。

金融 AI ツールを構築した別の開発者は、このユースケースは素晴らしいと述べました。想像の余地は無限にあります。

そして彼は 2 つの具体的な使用例を挙げました。

  1. 研究論文内の複雑な数式をスクリーンショットし、ローカルですぐに実行できます。

2. スクリーンショット(何でも)を撮り、GPT に UI を実装するコードを生成させることができます。

同様に数式だけでなく分子式も直接読み取り、調製方法を直接出力することもできます。

ヘッドフォンの設計図を入力すると、デバイスを組み立てるための大まかな手順が表示されます。

GPT-4V の優れたマルチモダリティ サポートと、そのエンコード機能および豊富な知識を組み合わせることで、ほぼ無限の使用シナリオを作成できます。

いくつかのヒントでドラゴンと魔法の世界が生まれます

別のネットユーザーは、ChatGPTを通じてドラゴンに関連したファンタジーの世界を作成するプロセスを共有しました。

GPT-4 は、ドラゴン関連の概念、解剖学的構造、さらにはドラゴンの生息地を生成します。

ドラゴンの頭のクローズアップ。

ドラゴンの骨格と解剖学。

ドラゴンの生息環境の原画や説明も掲載されています。

まず、必要な画像スタイルを指定する必要があります。

著者は技術的なインフォグラフィック スタイルのアートを望んでいたため、非常に平易な英語の説明であるこのプロンプトを使用しました。

「ドラゴンの技術エンジニアによる図面を、各パーツのラベル付きで生成してもらえますか? ワイドアスペクト比を使用してください:」

以下の結果が得られます。

次に、ドラゴンの頭のクローズアップを作成します。

次に、生息地のコンセプトアートと説明を作成してもらいます。

満足できない場合は、要件をさらに絞り込み、GPT-4 で要件を満たします。

ゲーム デザイナーとして、ドラゴンに関連するシーンをデザインしたい場合は、すぐに作業を開始して、使用可能な結果を​​生み出すことができます。

別のネットユーザーは、この使用例からインスピレーションを得て、サフランに関連した紹介を作成しました。

「サフランのさまざまな部分のラベルが付いた、技術エンジニア向けの図面を生成してもらえますか? ワイドアスペクト比を使用してください。」

このプロンプトワードを使用して、サフランの構造図が生成されました。

サフランの花束のクローズアップに再生されました。 「サフランの茎のクローズアップをワイドアスペクト比で生成できますか?」

サフラン畑の遠景。 「サフラン畑の航空写真をワイドアスペクト比で生成してください。」

最後に、サフランの断面が生成されました。 「ワイドアスペクト比でのサフランの糸の解剖図。」

非常に複雑な潜水艦の構造図です!

ガンダムの構造の概略図。

頭部の詳細図。

足の詳細図。

武器の構造図。

パン焼き機の非常に詳細な図。

ネットユーザーらは「全然止められない」とコメントした。


<<: 

>>:  マイクロソフトとスタンフォード大学の新アルゴリズムがAIによる人類絶滅のリスクを排除! GPT-4の自己反復、プロセスは制御可能かつ説明可能

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Jiuzhang Cloud DataCanvas がシリーズ C 資金調達を完了: 標準化された AI インフラストラクチャの未来を定義する

最近、DataCanvasはシリーズCの資金調達を完了したことを発表しました。これはAdvantec...

AIとビッグデータのつながり

ビッグデータと人工知能は、今日最も新しく、最も有用なテクノロジーの 2 つです。人工知能は10年以上...

中国の大学はいかにして「新世代の人工知能」をリードできるのか?

教育省は最近、「高等教育機関における人工知能イノベーションのための行動計画」を発行しました。計画によ...

公開鍵暗号を解読することは可能ですか?

Q: 正しくインストールされ、操作されていれば、公開鍵インフラストラクチャ (PKI) は破られな...

デジタルテクノロジーは小売業界をどのように変えているのでしょうか?

デジタル技術は私たちが暮らす世界のあらゆる側面を変えており、小売店は消費者がこの変化を経験する主な場...

...

動画注釈が機械学習モデルのパフォーマンスを向上させる方法

機械学習は近年、特にコンピュータービジョンとビデオ分析の分野で目覚ましい進歩を遂げています。この進歩...

AIoT は私たちの未来をどのように定義するのでしょうか?

[[417111]] AI と IoT ほどエキサイティングで重要なテクノロジーの組み合わせはほと...

サービスロボットは大きな将来性があり、すぐに何千もの家庭に導入されるだろう

親が子どもの世話をしたり、子どもと遊んだり勉強したり、看護師や介護士の仕事を手伝ったりするロボットに...

AIの急速な発展によってもたらされるエネルギー需要をどう解決するか?

生成 AI テクノロジーは、単純なフレーズを驚くほどリアルな画像に変換し、世界中の人々の想像力をかき...

分析と AI で注意すべき 7 つの致命的な間違い

2017年、『エコノミスト』誌は、データが石油を上回り、世界で最も価値のある資源になったと宣言しまし...

AIを活用した未来における教育の再考

大学を卒業するデータ サイエンティストの数が依然として不足していますが、今後の AI 革命には、AI...

ドローンによる空中撮影は野生の人々に迷惑をかけている、問題解決の鍵はここにある

[[416193]]近年、民間ドローンの急速な発展に伴い、航空写真撮影市場におけるドローンの応用はま...