10 分で「Chen Tianqi GPT」をカスタマイズすると、多数の OpenAI 新製品がテスト用に登場します。サム・アルトマンの次元削減が起こり、何千ものAIスタートアップが葬り去られる

OpenAI 初の春祭りガラ、スタートアップ企業にとっての殺戮の夜。

サム・アルトマンはこう言います。「私たちは新しい種を生み出しており、それらは急速に増殖しています。」

写真

OpenAI インターフェースをベースにスタートアップを構築すると、その製品は突如意味を失ってしまうと言えます。多くのスタートアップの製品にはもはや堀がありません。

デューク大学のチェン・イイラン教授は、この傾向が続けば、少なくとも学界や中小企業においては、ドメイン知識に頼ってニッチな分野でOpenAIと競争しようとする者は失敗する運命にあると述べた。

OpenAI が行う必要があるのは、パブリックドメイン内のパートナーまたは対応するトレーニングセットを見つけることだけです。残りは次元削減攻撃だけです。

写真

ただし、独自のデータセットを使用して GPT-4 のカスタムバージョンをトレーニングするのは安くはなく、200 万～ 300 万ドルから始まります。

さらに、理想的な結果を達成したい場合は、非常に大規模な独自のデータセット（少なくとも数十億のトークン）を用意するのが最適です。

写真

OpenAIの壮大なリリースを受けて、マイクロソフトの株価は8営業日連続で上昇し、火曜日の終値では史上最高の360.53ドルに達した。

1日当たり1.12%の増加により、時価総額は約2兆6,800億米ドルとなった。

写真

OpenAI は、これが私たちが夢見る未来だと言います。かつては「お金に働いてもらう」と言われていましたが、今は「AIに働いてもらう」です。

スタートアップ企業は「一夜にして解放前の時代に戻る」

OpenAI はエージェント戦場への参入を正式に発表しましたが、世界トップ 10 のエージェントスタートアップは次に何をすべきでしょうか?

写真

以下の API デモを見ると、「OpenAI が更新されると、何千ものスタートアップが倒産する」と言われている理由がわかります。

写真

ChatGPT は、最終的には Midjourney、PDF Chat、Perplexity AI、高度なデータ分析を統合した「AI スーパーアプリケーション」になると予測されていました。

カスタムGPT（ただし、すべてがオープンではない）

いわゆる最も重要なアップデート「GPTs」では、プログラミングなしで会話やチャットを通じて誰もがユニークでパーソナライズされたGPTを作成でき、「GPTストア」を通じて収益を得ることもできます。本当に魔法のようなものです。

アルトマン氏自身がステージに上がって実演し、わずか数ステップ、3分もかからずに「起業家メンターGPT」を作成しました。

驚くべきは、「起業家メンターGPT」がアルトマン氏自身の話し方に基づいて回答したことだ。

写真

現在、「GPTストア」では、数学の家庭教師、クリエイティブライティングのコーチ、アシスタントシェフなど、OpenAIが開発したロボット16台を発売している。

写真

社内テストの資格を取得したネットユーザーたちはすでに多数の応募を開始している。

NVIDIA のシニアシステムソフトウェアエンジニアである Bojan Tunguz 氏は、ワンストップ XGBoost アシスタントである ChatXGB を 10 分で作成しました。

写真

たとえば、「XGBoost の人は誰のことを言っているのか?」と尋ねると、答え: XGBoost の担当者は Chen Tianqi です...

ChatXGBは100%正しい回答をしました。

写真

人気のBabyAGIを作成したネットユーザーが、世界初のカスタムGPTインテリジェントエージェント「Agi.zip」をカスタマイズしました。

この GPT を作成する際に、GPT-4-turbo では速度が十分でないことがわかり、速度を上げるために 20 個のビルド済みホットキーも追加しました。

自動保存

- 長期記憶

- 再利用可能なスキル

- 現在のタスクを追跡する

- .sql を使用して任意のチャットにエクスポート

これからは手を操作する必要はなく、口を動かすだけで、本物の AGI が実現します...

「X Optimizer GPT」を作成し、それを使用してX投稿を最適化したネットユーザーもいます。

ツイートを微調整し、投稿のピーク時間を特定して、X でのエンゲージメントを最大限に高めることができます。

写真

OpenAIは、アップロードした画像をまったく新しいスタイルの絵画に適応させることができる「HotMods」を正式にリリースしました。以下は、ネットユーザーが体験した効果です。

写真

しかし、ほとんどの人にとって、ChatGPT はまだ「申し訳ありませんが、まだ準備ができていません」という状態です。

写真

API、TTS、ネットユーザーにはたくさんのアイデアがある

同時に、OpenAIの創設者であるGreg Brockman氏は、多数の新機能のリリースに合わせて、ネットユーザーからのさまざまな想像力豊かな応用事例も興奮気味に転送しました。

GPTとのビデオチャット

たとえば、OpenAI の Vision API を使用すると、Web カメラと ChatGPT を使用して「Draw and Guess」をプレイできます。

写真

「ビデオ」をオンにした後、その男性は ChatGPT に尋ねました: 「何を見たの?」

それはカメラの中の光景を流暢に描写していた。「壁にもたれて座っている短髪の若い男性が見えました。彼はカメラをまっすぐに見ており、黒いTシャツを着ていました。」

男はサングラスを手に取り、カメラの反対側にいる ChatGPT にそれを見せて、こう尋ねました。「何を持っているんだ?」

ChatGPT はこう返答しました: あなたはサングラスを持っています。

写真

同様に、一部のネットユーザーは同様の機能を備えたアプリケーションを作成しています。

写真

これに対して、一部のネットユーザーは、このツールは目の不自由な人が現実の世界を「見る」のに役立つかもしれないと述べた。

写真

これがパーソナルアシスタントのように音声で応答し、失くしたものやその他のものを探すよう案内できれば、視覚障害者にとって素晴らしいツールとなるでしょう。

GPT-4V + TTS = AIナレーター

OpenAI のビジョン API と音声 API を組み合わせることで、AI をサッカー解説者に直接変身させることができます。

たとえば、フットボールの試合のビデオのすべてのフレームが GPT-4-vision-preview に渡され、ナレーションを生成するための簡単なプロンプトのみが与えられました。

写真

GPT-4V はそれを完璧に実行し、TTS 解説と組み合わせて、すぐに使えるスポーツ解説ビデオが制作されました。このビデオは完全に編集されておらず、モデルから直接提供されたものです。

このビデオには合計 1131 フレームがあります。10 フレームごとに 1 つの画像を選択して GPT に送信しました。合計 30 ドルの費用がかかりました。

具体的には、まずビデオフレームを抽出し、構造化プロンプトを作成し、モデル、プロンプト情報、API キー、最大トークン制限などの GPT リクエストのパラメータを定義してから、GPT リクエストを送信し、音声解説プロンプトを作成し、音声解説スクリプトを生成し、スクリプトを音声に変換するリクエストを TTS API に送信し、音声とビデオを結合します。

写真

「スポーツ解説者の交代に30ドルなんておかしい」と言う人もいます。

写真

GPT-4 API は、スポーツゲームだけでなく、League of Legends などのゲーム解説用の画像を認識するためにも使用できます。

「高血圧」の警告が近づいています。ビデオでは、LNG と T1 の試合が紹介されています...

完全版は次のとおりです。

ネットユーザーのコメント: ナレーションを早めて感情を加えれば、実際の解説とほぼ同じになるだろう!

「これは私がこれまで見た中で最高の GPT Vision の使用例です。」

写真

GPTバージョンブラウザ

GPT-4V の機能とブラウザを組み合わせることで、ネットユーザーは自由に写真を囲んで答えを得ることができます。

写真

たとえば、解剖学、数学、自動車修理などを学ぶのに役立ちます。

写真

インターネットとカスタム GPT を組み合わせることで、お気に入りのアーティストの音楽プレイリストを作成できます。

写真

GPTヨガインストラクター

ChatGPT は GPT-4V API を通じてあなたのヨガコーチになることができます。

標準的な動作を実行するためにインストラクター料金を支払う必要はありません。

写真

シンプルなスケッチ、デザインHTML

さらに印象的なのは、GPT-4V API が、低忠実度のシミュレーションと実際の HTML のフローをわずか 5 時間で組み合わせることができることです。

写真

自分でまったく新しい Twitter インターフェースを作成する場合は、構造をスケッチするだけで、GPT-4V がそれを瞬時に HTML に変換します。

写真

GPT-4Vを搭載したマルチモーダルRAG

LangChain プラットフォームでは、1 枚の写真は 1,000 語に相当するものの、RAG アプリケーションでは画像は通常表示されないと考えています。

GPT-4V などのマルチモーダル LLM は、画像を使用する RAG アプリケーションを正確にロック解除します。

LangChain は、新しい GPT-4V API を使用して、マルチモーダル RAG へのいくつかのアプローチを強調するテンプレートと手順を今週リリースします。

写真

オプション 1: マルチモーダル埋め込み検索

- 利点: 最高品質で直接埋め込まれているため、画像検索の可能性が高くなります

- デメリット: マルチモーダル埋め込みのオプションが少ない

オプション2: 画像の概要を生成する

- 利点: テキスト埋め込みを使用し、回答の合成にマルチモーダル LLM に依存しないためシンプルです。

- 欠点: 画像は回答の合成や検索に直接使用されないために情報が失われます

オプション3: 画像の概要を取得しますが、合成用に画像を渡す

- 利点: テキスト埋め込みにより検索が簡素化されますが、回答の合成には画像が依然として使用されます。

- デメリット: 画像の要約が埋め込まれているため、検索品質が低下する可能性がある

これらの方法により、教科書、財務レポート、技術マニュアルなどの画像コンテンツを含むドキュメントに対して RAG を有効にすることができます。

写真

TTS中国語レベル1合格

外国人の男性が、OpenAIが新たにリリースしたTTSテキスト読み上げ機能をHuggingFaceに投稿しました。直接体験できます。

男性の声は 5 つ、女性の声は 2 つから選択できます。

中国語能力試験の練習問題を使って、TTS 能力をテストしてみませんか?

写真

体験アドレス: https://huggingface.co/spaces/ysharma/OpenAI_TTS_New

中国語、新しい知恵、6秒

さらに衝撃的なのは、TTS モデルが句読点の意味を正確に制御し、さまざまなトーンの音声を生成できることです。

ヘルパーAPI

ある開発者は、アシスタント API を使用して、わずか 109 行の Python コードでオープンソースの「GPTvsGPT」を構築しました。

GPTvsGPT は、個性の異なる 2 つの AI アシスタント間の会話をシミュレートする楽しいアプリケーションです。

興味深いのは、データとカスタム関数を取得することでこれらの機能を拡張できることです。

写真

彼はまた、DALL E にロゴのデザインを依頼しました。

別の開発者は、30 行未満のコードで Web サイトを作成しました。

写真

さらに、AI アシスタントと GPT-4-1106 を使用して、AI 履歴書アナライザーとスコアリングツールを構築することもできます。

目標は、AI を使用して候補者が適任かどうかを評価することで、貴重な採用時間を節約することです。

写真

デモ動画では、ネットユーザーが職務内容と応募者の履歴書の2つのファイルをアップロードした。

いつか、AI が人々に代わって仕事を選ぶようになるでしょう。履歴書をフィルタリングする必要はありません。履歴書は過去のものとなるでしょう...

写真

しかし、開発者が OpenAI の Assistant API を使用して独自のアプリケーションでパーソナライズされたエージェントを構築するのは安くはありません。データを保存するコストは、アシスタント 1 人あたり 1 日あたり 0.20 ドル/GB と高額です。

S3 の月額 1 GB あたり約 0.023 ドルと比較すると、OpenAI の価格は 260 倍も高くなります。

写真

Google、今度はあなたの番です

OpenAI からの挑戦に直面して、Nvidia の上級科学者 Jim Fan 氏は、DeepMind が 2016 年の AlphaGo の栄光を再現するときが来たと述べました。

現在、Google Gemini に対する期待は途方もなく高まっています。

ただし、GPT と競争するには、少なくとも次のことを実行し、2024 年第 1 四半期に API をリリースする必要があります。

- テキスト機能は GPT-4 の 120% に達します。

- GPT-4 の水平能力の 100% ですが、コストは半分、速度はターボの 2 倍です。

- 視覚能力は GPT-4 の 100% に達します。

- 長いビデオのネイティブサポート。

対照的に、Meta では Llama-3 のみをオープンソース化する必要があります。

写真

Google はすでに Bard を数回にわたって改良している。 Google DeepMind は、UL2、PaLI、PaLM、Flamingo など、いくつかの SOTA 基本モデルも社内で開発しています。

つまり、理論的には可能です。

写真

参考文献:

https://twitter.com/gdb/status/1721972696412573956

https://twitter.com/gdb/status/1721709452011655467

<<: シーメンスとマイクロソフトが共同でAIアシスタントを立ち上げ、製造業における人間と機械の連携を強化

>>: ChatGPT を助手席に乗せましょう!清華大学、中国科学院、MITが共同でCo-Pilotヒューマン・コンピュータ・インタラクション・フレームワークを提案：乗客の意図を完璧に制御

ブログ

10 分で「Chen Tianqi GPT」をカスタマイズすると、多数の OpenAI 新製品がテスト用に登場します。サム・アルトマンの次元削減が起こり、何千ものAIスタートアップが葬り去られる

スタートアップ企業は「一夜にして解放前の時代に戻る」

カスタムGPT（ただし、すべてがオープンではない）

API、TTS、ネットユーザーにはたくさんのアイデアがある

GPTとのビデオチャット

GPT-4V + TTS = AIナレーター

GPTバージョンブラウザ

GPTヨガインストラクター

シンプルなスケッチ、デザインHTML

GPT-4Vを搭載したマルチモーダルRAG

TTS中国語レベル1合格

ヘルパーAPI

Google、今度はあなたの番です

競争相手に差をつけるための機械学習プロジェクトのアイデア 8 つ

IBM と KPMG が従業員をどのようにトレーニングしているかの秘密を明らかにします。トレーニングに AI を使用するのは良い考えでしょうか?

人工知能: インダストリー4.0の原動力

一般的な顔認識システムの端末設置と配線の包括的なレビュー

マイクロソフトは低コストのAIモデルを見つけるために多方面に賭けている

ユニバーサルデータ拡張技術、ランダム量子化はあらゆるデータモダリティに適用可能

精度が 20% 未満なので、GPT-4V/Gemini はコミックを理解できません。最初の画像シーケンスベンチマークがリリースされました

人工知能の主要技術分野のレビュー

推薦する

人工知能は業界の生態系を変え、銀行支店を減らし、スマートカードを活用する

役に立たない、それとも翻訳ツール？日本が「会話」できるスマートマスクを発明

マスク氏の最新インタビュー：自動運転、AI、テスラのヒューマノイドロボットについて

ディープニューラルネットワークをデバッグするにはどのような方法を使用しますか? 4つの簡単な方法をご紹介します

2024年に注目すべきサイバー犯罪の5つの傾向

コンピュータアーキテクチャにおける機械学習

会話型AIプラットフォームを選択する際の4つの視点

リー・ヤンがスマートシティ建設について語る：ハードウェアからプラットフォームまで、Terminusエコシステムが先導する

人工知能が「骨董品鑑定」の分野に参入、人間の職業に再び影響が及ぶか？

大国同士が競争する中、なぜ彼らは人工知能で優位に立とうとするのでしょうか?

米国の学区は校内暴力を防ぐためにAIを活用し、脅迫的な言葉を検知して管理者に通知しているが、事前診断率はわずか25%に過ぎない。