10 分で「Chen Tianqi GPT」をカスタマイズすると、多数の OpenAI 新製品がテスト用に登場します。サム・アルトマンの次元削減が起こり、何千ものAIスタートアップが葬り去られる

10 分で「Chen Tianqi GPT」をカスタマイズすると、多数の OpenAI 新製品がテスト用に登場します。サム・アルトマンの次元削減が起こり、何千ものAIスタートアップが葬り去られる

OpenAI 初の春祭りガラ、スタートアップ企業にとっての殺戮の夜。

サム・アルトマンはこう言います。「私たちは新しい種を生み出しており、それらは急速に増殖しています。」

写真

OpenAI インターフェースをベースにスタートアップを構築すると、その製品は突如意味を失ってしまうと言えます。多くのスタートアップの製品にはもはや堀がありません。

デューク大学のチェン・イイラン教授は、この傾向が続けば、少なくとも学界や中小企業においては、ドメイン知識に頼ってニッチな分野でOpenAIと競争しようとする者は失敗する運命にあると述べた。

OpenAI が行う必要があるのは、パブリック ドメイン内のパートナーまたは対応するトレーニング セットを見つけることだけです。残りは次元削減攻撃だけです。

写真

ただし、独自のデータセットを使用して GPT-4 のカスタム バージョンをトレーニングするのは安くはなく、200 万~ 300 万ドルから始まります。

さらに、理想的な結果を達成したい場合は、非常に大規模な独自のデータセット(少なくとも数十億のトークン)を用意するのが最適です。

写真

OpenAIの壮大なリリースを受けて、マイクロソフトの株価は8営業日連続で上昇し、火曜日の終値では史上最高の360.53ドルに達した。

1日当たり1.12%の増加により、時価総額は約2兆6,800億米ドルとなった。

写真

OpenAI は、これが私たちが夢見る未来だと言います。かつては「お金に働いてもらう」と言われていましたが、今は「AIに働いてもらう」です。

スタートアップ企業は「一夜にして解放前の時代に戻る」

OpenAI はエージェント戦場への参入を正式に発表しましたが、世界トップ 10 のエージェント スタートアップは次に何をすべきでしょうか?

写真

写真

以下の API デモを見ると、「OpenAI が更新されると、何千ものスタートアップが倒産する」と言われている理由がわかります。

写真

ChatGPT は、最終的には Midjourney、PDF Chat、Perplexity AI、高度なデータ分析を統合した「AI スーパー アプリケーション」になると予測されていました。

カスタムGPT(ただし、すべてがオープンではない)

いわゆる最も重要なアップデート「GPTs」では、プログラミングなしで会話やチャットを通じて誰もがユニークでパーソナライズされたGPTを作成でき、「GPTストア」を通じて収益を得ることもできます。本当に魔法のようなものです。

アルトマン氏自身がステージに上がって実演し、わずか数ステップ、3分もかからずに「起業家メンターGPT」を作成しました。

驚くべきは、「起業家メンターGPT」がアルトマン氏自身の話し方に基づいて回答したことだ。

写真

現在、「GPTストア」では、数学の家庭教師、クリエイティブライティングのコーチ、アシスタントシェフなど、OpenAIが開発したロボット16台を発売している。

写真

社内テストの資格を取得したネットユーザーたちはすでに多数の応募を開始している。

NVIDIA のシニア システム ソフトウェア エンジニアである Bojan Tunguz 氏は、ワンストップ XGBoost アシスタントである ChatXGB を 10 分で作成しました。

写真

たとえば、「XGBoost の人は誰のことを言っているのか?」と尋ねると、答え: XGBoost の担当者は Chen Tianqi です...

ChatXGBは100%正しい回答をしました。

写真

人気のBabyAGIを作成したネットユーザーが、世界初のカスタムGPTインテリジェントエージェント「Agi.zip」をカスタマイズしました。

この GPT を作成する際に、GPT-4-turbo では速度が十分でないことがわかり、速度を上げるために 20 個のビルド済みホットキーも追加しました。

自動保存

- 長期記憶

- 再利用可能なスキル

- 現在のタスクを追跡する

- .sql を使用して任意のチャットにエクスポート

これからは手を操作する必要はなく、口を動かすだけで、本物の AGI が実現します...

「X Optimizer GPT」を作成し、それを使用してX投稿を最適化したネットユーザーもいます。

ツイートを微調整し、投稿のピーク時間を特定して、X でのエンゲージメントを最大限に高めることができます。

写真

写真

写真

OpenAIは、アップロードした画像をまったく新しいスタイルの絵画に適応させることができる「HotMods」を正式にリリースしました。以下は、ネットユーザーが体験した効果です。

写真

写真

しかし、ほとんどの人にとって、ChatGPT はまだ「申し訳ありませんが、まだ準備ができていません」という状態です。

写真

API、TTS、ネットユーザーにはたくさんのアイデアがある

同時に、OpenAIの創設者であるGreg Brockman氏は、多数の新機能のリリースに合わせて、ネットユーザーからのさまざまな想像力豊かな応用事例も興奮気味に転送しました。

GPTとのビデオチャット

たとえば、OpenAI の Vision API を使用すると、Web カメラと ChatGPT を使用して「Draw and Guess」をプレイできます。

写真

「ビデオ」をオンにした後、その男性は ChatGPT に尋ねました: 「何を見たの?」

それはカメラの中の光景を流暢に描写していた。「壁にもたれて座っている短髪の若い男性が見えました。彼はカメラをまっすぐに見ており、黒いTシャツを着ていました。」

男はサングラスを手に取り、カメラの反対側にいる ChatGPT にそれを見せて、こう尋ねました。「何を持っているんだ?」

ChatGPT はこう返答しました: あなたはサングラスを持っています。

写真

同様に、一部のネットユーザーは同様の機能を備えたアプリケーションを作成しています。

写真

これに対して、一部のネットユーザーは、このツールは目の不自由な人が現実の世界を「見る」のに役立つかもしれないと述べた。

写真

これがパーソナルアシスタントのように音声で応答し、失くしたものやその他のものを探すよう案内できれば、視覚障害者にとって素晴らしいツールとなるでしょう。

GPT-4V + TTS = AIナレーター

OpenAI のビジョン API と音声 API を組み合わせることで、AI をサッカー解説者に直接変身させることができます。

たとえば、フットボールの試合のビデオのすべてのフレームが GPT-4-vision-preview に渡され、ナレーションを生成するための簡単なプロンプトのみが与えられました。

写真

GPT-4V はそれを完璧に実行し、TTS 解説と組み合わせて、すぐに使えるスポーツ解説ビデオが制作されました。このビデオは完全に編集されておらず、モデルから直接提供されたものです。

このビデオには合計 1131 フレームがあります。10 フレームごとに 1 つの画像を選択して GPT に送信しました。合計 30 ドルの費用がかかりました。

具体的には、まずビデオ フレームを抽出し、構造化プロンプトを作成し、モデル、プロンプト情報、API キー、最大トークン制限などの GPT リクエストのパラメータを定義してから、GPT リクエストを送信し、音声解説プロンプトを作成し、音声解説スクリプトを生成し、スクリプトを音声に変換するリクエストを TTS API に送信し、音声とビデオを結合します。

写真

「スポーツ解説者の交代に30ドルなんておかしい」と言う人もいます。

写真

GPT-4 API は、スポーツ ゲームだけでなく、League of Legends などのゲーム解説用の画像を認識するためにも使用できます。

「高血圧」の警告が近づいています。ビデオでは、LNG と T1 の試合が紹介されています...

完全版は次のとおりです。

ネットユーザーのコメント: ナレーションを早めて感情を加えれば、実際の解説とほぼ同じになるだろう!

「これは私がこれまで見た中で最高の GPT Vision の使用例です。」

写真

GPTバージョンブラウザ

GPT-4V の機能とブラウザを組み合わせることで、ネットユーザーは自由に写真を囲んで答えを得ることができます。

写真

たとえば、解剖学、数学、自動車修理などを学ぶのに役立ちます。

写真

インターネットとカスタム GPT を組み合わせることで、お気に入りのアーティストの音楽プレイリストを作成できます。

写真

写真

GPTヨガインストラクター

ChatGPT は GPT-4V API を通じてあなたのヨガコーチになることができます。

標準的な動作を実行するためにインストラクター料金を支払う必要はありません。

写真

写真

シンプルなスケッチ、デザインHTML

さらに印象的なのは、GPT-4V API が、低忠実度のシミュレーションと実際の HTML のフローをわずか 5 時間で組み合わせることができることです。

写真

自分でまったく新しい Twitter インターフェースを作成する場合は、構造をスケッチするだけで、GPT-4V がそれを瞬時に HTML に変換します。

写真

GPT-4Vを搭載したマルチモーダルRAG

LangChain プラットフォームでは、1 枚の写真は 1,000 語に相当するものの、RAG アプリケーションでは画像は通常表示されないと考えています。

GPT-4V などのマルチモーダル LLM は、画像を使用する RAG アプリケーションを正確にロック解除します。

LangChain は、新しい GPT-4V API を使用して、マルチモーダル RAG へのいくつかのアプローチを強調するテンプレートと手順を今週リリースします。

写真

オプション 1: マルチモーダル埋め込み検索

- 利点: 最高品質で直接埋め込まれているため、画像検索の可能性が高くなります

- デメリット: マルチモーダル埋め込みのオプションが少ない

オプション2: 画像の概要を生成する

- 利点: テキスト埋め込みを使用し、回答の合成にマルチモーダル LLM に依存しないためシンプルです。

- 欠点: 画像は回答の合成や検索に直接使用されないために情報が失われます

オプション3: 画像の概要を取得しますが、合成用に画像を渡す

- 利点: テキスト埋め込みにより検索が簡素化されますが、回答の合成には画像が依然として使用されます。

- デメリット: 画像の要約が埋め込まれているため、検索品質が低下する可能性がある

これらの方法により、教科書、財務レポート、技術マニュアルなどの画像コンテンツを含むドキュメントに対して RAG を有効にすることができます。

写真

TTS中国語レベル1合格

外国人の男性が、OpenAIが新たにリリースしたTTSテキスト読み上げ機能をHuggingFaceに投稿しました。直接体験できます。

男性の声は 5 つ、女性の声は 2 つから選択できます。

中国語能力試験の練習問題を使って、TTS 能力をテストしてみませんか?

写真

体験アドレス: https://huggingface.co/spaces/ysharma/OpenAI_TTS_New

中国語、新しい知恵、6秒


さらに衝撃的なのは、TTS モデルが句読点の意味を正確に制御し、さまざまなトーンの音声を生成できることです。


ヘルパーAPI

ある開発者は、アシスタント API を使用して、わずか 109 行の Python コードでオープンソースの「GPTvsGPT」を構築しました。

GPTvsGPT は、個性の異なる 2 つの AI アシスタント間の会話をシミュレートする楽しいアプリケーションです。

興味深いのは、データとカスタム関数を取得することでこれらの機能を拡張できることです。

写真

写真

彼はまた、DALL E にロゴのデザインを依頼しました。

別の開発者は、30 行未満のコードで Web サイトを作成しました。

写真

写真

さらに、AI アシスタントと GPT-4-1106 を使用して、AI 履歴書アナライザーとスコアリング ツールを構築することもできます。

目標は、AI を使用して候補者が適任かどうかを評価することで、貴重な採用時間を節約することです。

写真

デモ動画では、ネットユーザーが職務内容と応募者の履歴書の2つのファイルをアップロードした。

いつか、AI が人々に代わって仕事を選ぶようになるでしょう。履歴書をフィルタリングする必要はありません。履歴書は過去のものとなるでしょう...

写真

しかし、開発者が OpenAI の Assistant API を使用して独自のアプリケーションでパーソナライズされたエージェントを構築するのは安くはありません。データを保存するコストは、アシスタント 1 人あたり 1 日あたり 0.20 ドル/GB と高額です。

S3 の月額 1 GB あたり約 0.023 ドルと比較すると、OpenAI の価格は 260 倍も高くなります。

写真

Google、今度はあなたの番です

OpenAI からの挑戦に直面して、Nvidia の上級科学者 Jim Fan 氏は、DeepMind が 2016 年の AlphaGo の栄光を再現するときが来たと述べました。

現在、Google Gemini に対する期待は途方もなく高まっています。

ただし、GPT と競争するには、少なくとも次のことを実行し、2024 年第 1 四半期に API をリリースする必要があります。

- テキスト機能は GPT-4 の 120% に達します。

- GPT-4 の水平能力の 100% ですが、コストは半分、速度はターボの 2 倍です。

- 視覚能力は GPT-4 の 100% に達します。

- 長いビデオのネイティブサポート。

対照的に、Meta では Llama-3 のみをオープンソース化する必要があります。

写真

Google はすでに Bard を数回にわたって改良している。 Google DeepMind は、UL2、PaLI、PaLM、Flamingo など、いくつかの SOTA 基本モデルも社内で開発しています。

つまり、理論的には可能です。

写真

参考文献:

https://twitter.com/gdb/status/1721972696412573956

https://twitter.com/gdb/status/1721709452011655467

<<:  シーメンスとマイクロソフトが共同でAIアシスタントを立ち上げ、製造業における人間と機械の連携を強化

>>:  ChatGPT を助手席に乗せましょう!清華大学、中国科学院、MITが共同でCo-Pilotヒューマン・コンピュータ・インタラクション・フレームワークを提案:乗客の意図を完璧に制御

ブログ    
ブログ    

推薦する

「ディープラーニングは学習ではない」:インテル幹部とAI大手ルカンが罵り合う

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

滴滴出行のスマート交通建設における3つの短期目標:信号機の改善、バスシステムのオンライン化、予測スケジュール

[51CTO.comより] 両会期中の政府活動報告に人工知能が盛り込まれた。万鋼科学技術部長は、中国...

クラウド管理と運用にAIを適用する方法

AI は、クラウドの管理と運用に大変革をもたらすものとして台頭しています。しかし、AI とクラウド ...

MotionLM: 言語モデルとしてのマルチエージェント動作予測

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

Python のデータクロール、分析、マイニング、機械学習、Python 分散コンピューティングに関するコンテンツ共有

01 データキャプチャ1. 背景調査1) robots.txt をチェックして、サイトのクロールにど...

舌先にAI:人工知能技術が食卓に並ぶ

世界中の食べ物は、まさに世界の花火のボウルに過ぎません。人工知能は、新しい技術科学として、日常生活に...

人工知能は工場のメンテナンスに大きな役割を果たすだろう

検出が難しい機械の故障は最もコストがかかるため、経験豊富な修理技術者の需要が高まっています。今日、多...

...

2021年の中国AI音声認識産業の市場現状と発展見通しの分析

2020年、中国のスマート音声市場規模は113.96億元に達し、前年比19.2%増加した。中国のスマ...

人工知能は大きな可能性を秘めているが、大きな責任も抱えている

AI はあらゆるところに存在し、その可能性は計り知れません。しかし、諺にあるように、大いなる力には大...

機械学習愛好家必読ガイド

[[273182]]このガイドは、機械学習 (ML) に興味があるが、どこから始めればよいかわからな...

自分で作成したデータセット、TensorFlow を使用した株価予測チュートリアル

[[211061]] STATWORX チームは最近、Google Finance API から S...

誰かが1週間でPASCALデータセットの17,120枚の画像をクリーンアップし、mAPを13%向上させました。

ある研究では、PASCAL VOC 2012 データセット内の 17,120 枚の画像を 1 週間で...

【ビッグコーヒーがやってくるエピソード5】ビッグデータミドルプラットフォームの構築方法

今回、「ビッグネームがやってくる」のライブ放送にゲストとして参加したのは、iResearch CTO...