10 分で「Chen Tianqi GPT」をカスタマイズすると、多数の OpenAI 新製品がテスト用に登場します。サム・アルトマンの次元削減が起こり、何千ものAIスタートアップが葬り去られる

10 分で「Chen Tianqi GPT」をカスタマイズすると、多数の OpenAI 新製品がテスト用に登場します。サム・アルトマンの次元削減が起こり、何千ものAIスタートアップが葬り去られる

OpenAI 初の春祭りガラ、スタートアップ企業にとっての殺戮の夜。

サム・アルトマンはこう言います。「私たちは新しい種を生み出しており、それらは急速に増殖しています。」

写真

OpenAI インターフェースをベースにスタートアップを構築すると、その製品は突如意味を失ってしまうと言えます。多くのスタートアップの製品にはもはや堀がありません。

デューク大学のチェン・イイラン教授は、この傾向が続けば、少なくとも学界や中小企業においては、ドメイン知識に頼ってニッチな分野でOpenAIと競争しようとする者は失敗する運命にあると述べた。

OpenAI が行う必要があるのは、パブリック ドメイン内のパートナーまたは対応するトレーニング セットを見つけることだけです。残りは次元削減攻撃だけです。

写真

ただし、独自のデータセットを使用して GPT-4 のカスタム バージョンをトレーニングするのは安くはなく、200 万~ 300 万ドルから始まります。

さらに、理想的な結果を達成したい場合は、非常に大規模な独自のデータセット(少なくとも数十億のトークン)を用意するのが最適です。

写真

OpenAIの壮大なリリースを受けて、マイクロソフトの株価は8営業日連続で上昇し、火曜日の終値では史上最高の360.53ドルに達した。

1日当たり1.12%の増加により、時価総額は約2兆6,800億米ドルとなった。

写真

OpenAI は、これが私たちが夢見る未来だと言います。かつては「お金に働いてもらう」と言われていましたが、今は「AIに働いてもらう」です。

スタートアップ企業は「一夜にして解放前の時代に戻る」

OpenAI はエージェント戦場への参入を正式に発表しましたが、世界トップ 10 のエージェント スタートアップは次に何をすべきでしょうか?

写真

写真

以下の API デモを見ると、「OpenAI が更新されると、何千ものスタートアップが倒産する」と言われている理由がわかります。

写真

ChatGPT は、最終的には Midjourney、PDF Chat、Perplexity AI、高度なデータ分析を統合した「AI スーパー アプリケーション」になると予測されていました。

カスタムGPT(ただし、すべてがオープンではない)

いわゆる最も重要なアップデート「GPTs」では、プログラミングなしで会話やチャットを通じて誰もがユニークでパーソナライズされたGPTを作成でき、「GPTストア」を通じて収益を得ることもできます。本当に魔法のようなものです。

アルトマン氏自身がステージに上がって実演し、わずか数ステップ、3分もかからずに「起業家メンターGPT」を作成しました。

驚くべきは、「起業家メンターGPT」がアルトマン氏自身の話し方に基づいて回答したことだ。

写真

現在、「GPTストア」では、数学の家庭教師、クリエイティブライティングのコーチ、アシスタントシェフなど、OpenAIが開発したロボット16台を発売している。

写真

社内テストの資格を取得したネットユーザーたちはすでに多数の応募を開始している。

NVIDIA のシニア システム ソフトウェア エンジニアである Bojan Tunguz 氏は、ワンストップ XGBoost アシスタントである ChatXGB を 10 分で作成しました。

写真

たとえば、「XGBoost の人は誰のことを言っているのか?」と尋ねると、答え: XGBoost の担当者は Chen Tianqi です...

ChatXGBは100%正しい回答をしました。

写真

人気のBabyAGIを作成したネットユーザーが、世界初のカスタムGPTインテリジェントエージェント「Agi.zip」をカスタマイズしました。

この GPT を作成する際に、GPT-4-turbo では速度が十分でないことがわかり、速度を上げるために 20 個のビルド済みホットキーも追加しました。

自動保存

- 長期記憶

- 再利用可能なスキル

- 現在のタスクを追跡する

- .sql を使用して任意のチャットにエクスポート

これからは手を操作する必要はなく、口を動かすだけで、本物の AGI が実現します...

「X Optimizer GPT」を作成し、それを使用してX投稿を最適化したネットユーザーもいます。

ツイートを微調整し、投稿のピーク時間を特定して、X でのエンゲージメントを最大限に高めることができます。

写真

写真

写真

OpenAIは、アップロードした画像をまったく新しいスタイルの絵画に適応させることができる「HotMods」を正式にリリースしました。以下は、ネットユーザーが体験した効果です。

写真

写真

しかし、ほとんどの人にとって、ChatGPT はまだ「申し訳ありませんが、まだ準備ができていません」という状態です。

写真

API、TTS、ネットユーザーにはたくさんのアイデアがある

同時に、OpenAIの創設者であるGreg Brockman氏は、多数の新機能のリリースに合わせて、ネットユーザーからのさまざまな想像力豊かな応用事例も興奮気味に転送しました。

GPTとのビデオチャット

たとえば、OpenAI の Vision API を使用すると、Web カメラと ChatGPT を使用して「Draw and Guess」をプレイできます。

写真

「ビデオ」をオンにした後、その男性は ChatGPT に尋ねました: 「何を見たの?」

それはカメラの中の光景を流暢に描写していた。「壁にもたれて座っている短髪の若い男性が見えました。彼はカメラをまっすぐに見ており、黒いTシャツを着ていました。」

男はサングラスを手に取り、カメラの反対側にいる ChatGPT にそれを見せて、こう尋ねました。「何を持っているんだ?」

ChatGPT はこう返答しました: あなたはサングラスを持っています。

写真

同様に、一部のネットユーザーは同様の機能を備えたアプリケーションを作成しています。

写真

これに対して、一部のネットユーザーは、このツールは目の不自由な人が現実の世界を「見る」のに役立つかもしれないと述べた。

写真

これがパーソナルアシスタントのように音声で応答し、失くしたものやその他のものを探すよう案内できれば、視覚障害者にとって素晴らしいツールとなるでしょう。

GPT-4V + TTS = AIナレーター

OpenAI のビジョン API と音声 API を組み合わせることで、AI をサッカー解説者に直接変身させることができます。

たとえば、フットボールの試合のビデオのすべてのフレームが GPT-4-vision-preview に渡され、ナレーションを生成するための簡単なプロンプトのみが与えられました。

写真

GPT-4V はそれを完璧に実行し、TTS 解説と組み合わせて、すぐに使えるスポーツ解説ビデオが制作されました。このビデオは完全に編集されておらず、モデルから直接提供されたものです。

このビデオには合計 1131 フレームがあります。10 フレームごとに 1 つの画像を選択して GPT に送信しました。合計 30 ドルの費用がかかりました。

具体的には、まずビデオ フレームを抽出し、構造化プロンプトを作成し、モデル、プロンプト情報、API キー、最大トークン制限などの GPT リクエストのパラメータを定義してから、GPT リクエストを送信し、音声解説プロンプトを作成し、音声解説スクリプトを生成し、スクリプトを音声に変換するリクエストを TTS API に送信し、音声とビデオを結合します。

写真

「スポーツ解説者の交代に30ドルなんておかしい」と言う人もいます。

写真

GPT-4 API は、スポーツ ゲームだけでなく、League of Legends などのゲーム解説用の画像を認識するためにも使用できます。

「高血圧」の警告が近づいています。ビデオでは、LNG と T1 の試合が紹介されています...

完全版は次のとおりです。

ネットユーザーのコメント: ナレーションを早めて感情を加えれば、実際の解説とほぼ同じになるだろう!

「これは私がこれまで見た中で最高の GPT Vision の使用例です。」

写真

GPTバージョンブラウザ

GPT-4V の機能とブラウザを組み合わせることで、ネットユーザーは自由に写真を囲んで答えを得ることができます。

写真

たとえば、解剖学、数学、自動車修理などを学ぶのに役立ちます。

写真

インターネットとカスタム GPT を組み合わせることで、お気に入りのアーティストの音楽プレイリストを作成できます。

写真

写真

GPTヨガインストラクター

ChatGPT は GPT-4V API を通じてあなたのヨガコーチになることができます。

標準的な動作を実行するためにインストラクター料金を支払う必要はありません。

写真

写真

シンプルなスケッチ、デザインHTML

さらに印象的なのは、GPT-4V API が、低忠実度のシミュレーションと実際の HTML のフローをわずか 5 時間で組み合わせることができることです。

写真

自分でまったく新しい Twitter インターフェースを作成する場合は、構造をスケッチするだけで、GPT-4V がそれを瞬時に HTML に変換します。

写真

GPT-4Vを搭載したマルチモーダルRAG

LangChain プラットフォームでは、1 枚の写真は 1,000 語に相当するものの、RAG アプリケーションでは画像は通常表示されないと考えています。

GPT-4V などのマルチモーダル LLM は、画像を使用する RAG アプリケーションを正確にロック解除します。

LangChain は、新しい GPT-4V API を使用して、マルチモーダル RAG へのいくつかのアプローチを強調するテンプレートと手順を今週リリースします。

写真

オプション 1: マルチモーダル埋め込み検索

- 利点: 最高品質で直接埋め込まれているため、画像検索の可能性が高くなります

- デメリット: マルチモーダル埋め込みのオプションが少ない

オプション2: 画像の概要を生成する

- 利点: テキスト埋め込みを使用し、回答の合成にマルチモーダル LLM に依存しないためシンプルです。

- 欠点: 画像は回答の合成や検索に直接使用されないために情報が失われます

オプション3: 画像の概要を取得しますが、合成用に画像を渡す

- 利点: テキスト埋め込みにより検索が簡素化されますが、回答の合成には画像が依然として使用されます。

- デメリット: 画像の要約が埋め込まれているため、検索品質が低下する可能性がある

これらの方法により、教科書、財務レポート、技術マニュアルなどの画像コンテンツを含むドキュメントに対して RAG を有効にすることができます。

写真

TTS中国語レベル1合格

外国人の男性が、OpenAIが新たにリリースしたTTSテキスト読み上げ機能をHuggingFaceに投稿しました。直接体験できます。

男性の声は 5 つ、女性の声は 2 つから選択できます。

中国語能力試験の練習問題を使って、TTS 能力をテストしてみませんか?

写真

体験アドレス: https://huggingface.co/spaces/ysharma/OpenAI_TTS_New

中国語、新しい知恵、6秒


さらに衝撃的なのは、TTS モデルが句読点の意味を正確に制御し、さまざまなトーンの音声を生成できることです。


ヘルパーAPI

ある開発者は、アシスタント API を使用して、わずか 109 行の Python コードでオープンソースの「GPTvsGPT」を構築しました。

GPTvsGPT は、個性の異なる 2 つの AI アシスタント間の会話をシミュレートする楽しいアプリケーションです。

興味深いのは、データとカスタム関数を取得することでこれらの機能を拡張できることです。

写真

写真

彼はまた、DALL E にロゴのデザインを依頼しました。

別の開発者は、30 行未満のコードで Web サイトを作成しました。

写真

写真

さらに、AI アシスタントと GPT-4-1106 を使用して、AI 履歴書アナライザーとスコアリング ツールを構築することもできます。

目標は、AI を使用して候補者が適任かどうかを評価することで、貴重な採用時間を節約することです。

写真

デモ動画では、ネットユーザーが職務内容と応募者の履歴書の2つのファイルをアップロードした。

いつか、AI が人々に代わって仕事を選ぶようになるでしょう。履歴書をフィルタリングする必要はありません。履歴書は過去のものとなるでしょう...

写真

しかし、開発者が OpenAI の Assistant API を使用して独自のアプリケーションでパーソナライズされたエージェントを構築するのは安くはありません。データを保存するコストは、アシスタント 1 人あたり 1 日あたり 0.20 ドル/GB と高額です。

S3 の月額 1 GB あたり約 0.023 ドルと比較すると、OpenAI の価格は 260 倍も高くなります。

写真

Google、今度はあなたの番です

OpenAI からの挑戦に直面して、Nvidia の上級科学者 Jim Fan 氏は、DeepMind が 2016 年の AlphaGo の栄光を再現するときが来たと述べました。

現在、Google Gemini に対する期待は途方もなく高まっています。

ただし、GPT と競争するには、少なくとも次のことを実行し、2024 年第 1 四半期に API をリリースする必要があります。

- テキスト機能は GPT-4 の 120% に達します。

- GPT-4 の水平能力の 100% ですが、コストは半分、速度はターボの 2 倍です。

- 視覚能力は GPT-4 の 100% に達します。

- 長いビデオのネイティブサポート。

対照的に、Meta では Llama-3 のみをオープンソース化する必要があります。

写真

Google はすでに Bard を数回にわたって改良している。 Google DeepMind は、UL2、PaLI、PaLM、Flamingo など、いくつかの SOTA 基本モデルも社内で開発しています。

つまり、理論的には可能です。

写真

参考文献:

https://twitter.com/gdb/status/1721972696412573956

https://twitter.com/gdb/status/1721709452011655467

<<:  シーメンスとマイクロソフトが共同でAIアシスタントを立ち上げ、製造業における人間と機械の連携を強化

>>:  ChatGPT を助手席に乗せましょう!清華大学、中国科学院、MITが共同でCo-Pilotヒューマン・コンピュータ・インタラクション・フレームワークを提案:乗客の意図を完璧に制御

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能は労働力不足の重要な解決策とみられる

セリディアンは、無限の労働力を動員する力に焦点を当てた年次経営者調査の結果を発表しました。調査では、...

AIoT分野におけるセキュリティリスクを知っておく必要があります!

現在、AI医療、スマートホーム、自動運転、スマート取引などの人工知能の発展は、企業のビジネスモデルを...

北京大学のチームは、ChatGPTにとって頭痛の種であったアルゴリズムの最適化を解決し、普通のラップトップでも実行できるようにした。

ChatGPT ですら首をかしげたアルゴリズムの最適化は、北京大学のチームによって達成されました。...

FacebookはAI音声アシスタントを開発しているが、財務上の将来は不透明

Facebook は近年、世論の嵐に何度も巻き込まれてきたが、技術革新に関しては決して無縁ではなかっ...

...

ロボットを活用する3つの革新的な方法

ロボット産業は創業以来、大幅な収益成長を遂げてきました。 2023年までに、世界のロボット市場は年間...

人工知能とモノのインターネット: インターネット通信の未来

人工知能 (AI) とモノのインターネット (IoT) の登場により、通信およびインターネット技術業...

深層強化学習とは:次世代のAIと深層学習

[51CTO.com クイック翻訳] 強化学習は自律的な意思決定を実現するのに非常に適しています。対...

2Dを3Dにするには、たった2枚の写真だけが必要です。このAIは、ろうそくを吹き消すプロセスを想像することができます。第一著者と第二著者はともに中国人です。

廃棄フィルム2枚がパチンと貼り合わされました!見逃した素晴らしい瞬間をすぐに蘇らせることができ、効果...

人工知能は人々を失業させるだけでしょうか?マッキンゼーの調査と分析では、異なる答えが出ました。

AIへの追加投資は2030年までに雇用の5%に貢献し、創出される追加の富は労働需要を促進し、雇用を...

Sitechi スマートオペレーションプラットフォームがスマートシティの求心力を生み出す

デジタル トレントは、さまざまな新興テクノロジーが成熟し、新しいビジネスや新しいアプリケーションが出...

プロンプトの可能性を探り、ChatGPT スキルを向上させましょう

まとめこの記事では主に、プロンプトを最適化することで ChatGPT の使用を改善する方法について説...

「自由に眠る」にはヘッドバンドを着けるだけ | Nature サブ出版物

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...