10 分で「Chen Tianqi GPT」をカスタマイズすると、多数の OpenAI 新製品がテスト用に登場します。サム・アルトマンの次元削減が起こり、何千ものAIスタートアップが葬り去られる

10 分で「Chen Tianqi GPT」をカスタマイズすると、多数の OpenAI 新製品がテスト用に登場します。サム・アルトマンの次元削減が起こり、何千ものAIスタートアップが葬り去られる

OpenAI 初の春祭りガラ、スタートアップ企業にとっての殺戮の夜。

サム・アルトマンはこう言います。「私たちは新しい種を生み出しており、それらは急速に増殖しています。」

写真

OpenAI インターフェースをベースにスタートアップを構築すると、その製品は突如意味を失ってしまうと言えます。多くのスタートアップの製品にはもはや堀がありません。

デューク大学のチェン・イイラン教授は、この傾向が続けば、少なくとも学界や中小企業においては、ドメイン知識に頼ってニッチな分野でOpenAIと競争しようとする者は失敗する運命にあると述べた。

OpenAI が行う必要があるのは、パブリック ドメイン内のパートナーまたは対応するトレーニング セットを見つけることだけです。残りは次元削減攻撃だけです。

写真

ただし、独自のデータセットを使用して GPT-4 のカスタム バージョンをトレーニングするのは安くはなく、200 万~ 300 万ドルから始まります。

さらに、理想的な結果を達成したい場合は、非常に大規模な独自のデータセット(少なくとも数十億のトークン)を用意するのが最適です。

写真

OpenAIの壮大なリリースを受けて、マイクロソフトの株価は8営業日連続で上昇し、火曜日の終値では史上最高の360.53ドルに達した。

1日当たり1.12%の増加により、時価総額は約2兆6,800億米ドルとなった。

写真

OpenAI は、これが私たちが夢見る未来だと言います。かつては「お金に働いてもらう」と言われていましたが、今は「AIに働いてもらう」です。

スタートアップ企業は「一夜にして解放前の時代に戻る」

OpenAI はエージェント戦場への参入を正式に発表しましたが、世界トップ 10 のエージェント スタートアップは次に何をすべきでしょうか?

写真

写真

以下の API デモを見ると、「OpenAI が更新されると、何千ものスタートアップが倒産する」と言われている理由がわかります。

写真

ChatGPT は、最終的には Midjourney、PDF Chat、Perplexity AI、高度なデータ分析を統合した「AI スーパー アプリケーション」になると予測されていました。

カスタムGPT(ただし、すべてがオープンではない)

いわゆる最も重要なアップデート「GPTs」では、プログラミングなしで会話やチャットを通じて誰もがユニークでパーソナライズされたGPTを作成でき、「GPTストア」を通じて収益を得ることもできます。本当に魔法のようなものです。

アルトマン氏自身がステージに上がって実演し、わずか数ステップ、3分もかからずに「起業家メンターGPT」を作成しました。

驚くべきは、「起業家メンターGPT」がアルトマン氏自身の話し方に基づいて回答したことだ。

写真

現在、「GPTストア」では、数学の家庭教師、クリエイティブライティングのコーチ、アシスタントシェフなど、OpenAIが開発したロボット16台を発売している。

写真

社内テストの資格を取得したネットユーザーたちはすでに多数の応募を開始している。

NVIDIA のシニア システム ソフトウェア エンジニアである Bojan Tunguz 氏は、ワンストップ XGBoost アシスタントである ChatXGB を 10 分で作成しました。

写真

たとえば、「XGBoost の人は誰のことを言っているのか?」と尋ねると、答え: XGBoost の担当者は Chen Tianqi です...

ChatXGBは100%正しい回答をしました。

写真

人気のBabyAGIを作成したネットユーザーが、世界初のカスタムGPTインテリジェントエージェント「Agi.zip」をカスタマイズしました。

この GPT を作成する際に、GPT-4-turbo では速度が十分でないことがわかり、速度を上げるために 20 個のビルド済みホットキーも追加しました。

自動保存

- 長期記憶

- 再利用可能なスキル

- 現在のタスクを追跡する

- .sql を使用して任意のチャットにエクスポート

これからは手を操作する必要はなく、口を動かすだけで、本物の AGI が実現します...

「X Optimizer GPT」を作成し、それを使用してX投稿を最適化したネットユーザーもいます。

ツイートを微調整し、投稿のピーク時間を特定して、X でのエンゲージメントを最大限に高めることができます。

写真

写真

写真

OpenAIは、アップロードした画像をまったく新しいスタイルの絵画に適応させることができる「HotMods」を正式にリリースしました。以下は、ネットユーザーが体験した効果です。

写真

写真

しかし、ほとんどの人にとって、ChatGPT はまだ「申し訳ありませんが、まだ準備ができていません」という状態です。

写真

API、TTS、ネットユーザーにはたくさんのアイデアがある

同時に、OpenAIの創設者であるGreg Brockman氏は、多数の新機能のリリースに合わせて、ネットユーザーからのさまざまな想像力豊かな応用事例も興奮気味に転送しました。

GPTとのビデオチャット

たとえば、OpenAI の Vision API を使用すると、Web カメラと ChatGPT を使用して「Draw and Guess」をプレイできます。

写真

「ビデオ」をオンにした後、その男性は ChatGPT に尋ねました: 「何を見たの?」

それはカメラの中の光景を流暢に描写していた。「壁にもたれて座っている短髪の若い男性が見えました。彼はカメラをまっすぐに見ており、黒いTシャツを着ていました。」

男はサングラスを手に取り、カメラの反対側にいる ChatGPT にそれを見せて、こう尋ねました。「何を持っているんだ?」

ChatGPT はこう返答しました: あなたはサングラスを持っています。

写真

同様に、一部のネットユーザーは同様の機能を備えたアプリケーションを作成しています。

写真

これに対して、一部のネットユーザーは、このツールは目の不自由な人が現実の世界を「見る」のに役立つかもしれないと述べた。

写真

これがパーソナルアシスタントのように音声で応答し、失くしたものやその他のものを探すよう案内できれば、視覚障害者にとって素晴らしいツールとなるでしょう。

GPT-4V + TTS = AIナレーター

OpenAI のビジョン API と音声 API を組み合わせることで、AI をサッカー解説者に直接変身させることができます。

たとえば、フットボールの試合のビデオのすべてのフレームが GPT-4-vision-preview に渡され、ナレーションを生成するための簡単なプロンプトのみが与えられました。

写真

GPT-4V はそれを完璧に実行し、TTS 解説と組み合わせて、すぐに使えるスポーツ解説ビデオが制作されました。このビデオは完全に編集されておらず、モデルから直接提供されたものです。

このビデオには合計 1131 フレームがあります。10 フレームごとに 1 つの画像を選択して GPT に送信しました。合計 30 ドルの費用がかかりました。

具体的には、まずビデオ フレームを抽出し、構造化プロンプトを作成し、モデル、プロンプト情報、API キー、最大トークン制限などの GPT リクエストのパラメータを定義してから、GPT リクエストを送信し、音声解説プロンプトを作成し、音声解説スクリプトを生成し、スクリプトを音声に変換するリクエストを TTS API に送信し、音声とビデオを結合します。

写真

「スポーツ解説者の交代に30ドルなんておかしい」と言う人もいます。

写真

GPT-4 API は、スポーツ ゲームだけでなく、League of Legends などのゲーム解説用の画像を認識するためにも使用できます。

「高血圧」の警告が近づいています。ビデオでは、LNG と T1 の試合が紹介されています...

完全版は次のとおりです。

ネットユーザーのコメント: ナレーションを早めて感情を加えれば、実際の解説とほぼ同じになるだろう!

「これは私がこれまで見た中で最高の GPT Vision の使用例です。」

写真

GPTバージョンブラウザ

GPT-4V の機能とブラウザを組み合わせることで、ネットユーザーは自由に写真を囲んで答えを得ることができます。

写真

たとえば、解剖学、数学、自動車修理などを学ぶのに役立ちます。

写真

インターネットとカスタム GPT を組み合わせることで、お気に入りのアーティストの音楽プレイリストを作成できます。

写真

写真

GPTヨガインストラクター

ChatGPT は GPT-4V API を通じてあなたのヨガコーチになることができます。

標準的な動作を実行するためにインストラクター料金を支払う必要はありません。

写真

写真

シンプルなスケッチ、デザインHTML

さらに印象的なのは、GPT-4V API が、低忠実度のシミュレーションと実際の HTML のフローをわずか 5 時間で組み合わせることができることです。

写真

自分でまったく新しい Twitter インターフェースを作成する場合は、構造をスケッチするだけで、GPT-4V がそれを瞬時に HTML に変換します。

写真

GPT-4Vを搭載したマルチモーダルRAG

LangChain プラットフォームでは、1 枚の写真は 1,000 語に相当するものの、RAG アプリケーションでは画像は通常表示されないと考えています。

GPT-4V などのマルチモーダル LLM は、画像を使用する RAG アプリケーションを正確にロック解除します。

LangChain は、新しい GPT-4V API を使用して、マルチモーダル RAG へのいくつかのアプローチを強調するテンプレートと手順を今週リリースします。

写真

オプション 1: マルチモーダル埋め込み検索

- 利点: 最高品質で直接埋め込まれているため、画像検索の可能性が高くなります

- デメリット: マルチモーダル埋め込みのオプションが少ない

オプション2: 画像の概要を生成する

- 利点: テキスト埋め込みを使用し、回答の合成にマルチモーダル LLM に依存しないためシンプルです。

- 欠点: 画像は回答の合成や検索に直接使用されないために情報が失われます

オプション3: 画像の概要を取得しますが、合成用に画像を渡す

- 利点: テキスト埋め込みにより検索が簡素化されますが、回答の合成には画像が依然として使用されます。

- デメリット: 画像の要約が埋め込まれているため、検索品質が低下する可能性がある

これらの方法により、教科書、財務レポート、技術マニュアルなどの画像コンテンツを含むドキュメントに対して RAG を有効にすることができます。

写真

TTS中国語レベル1合格

外国人の男性が、OpenAIが新たにリリースしたTTSテキスト読み上げ機能をHuggingFaceに投稿しました。直接体験できます。

男性の声は 5 つ、女性の声は 2 つから選択できます。

中国語能力試験の練習問題を使って、TTS 能力をテストしてみませんか?

写真

体験アドレス: https://huggingface.co/spaces/ysharma/OpenAI_TTS_New

中国語、新しい知恵、6秒


さらに衝撃的なのは、TTS モデルが句読点の意味を正確に制御し、さまざまなトーンの音声を生成できることです。


ヘルパーAPI

ある開発者は、アシスタント API を使用して、わずか 109 行の Python コードでオープンソースの「GPTvsGPT」を構築しました。

GPTvsGPT は、個性の異なる 2 つの AI アシスタント間の会話をシミュレートする楽しいアプリケーションです。

興味深いのは、データとカスタム関数を取得することでこれらの機能を拡張できることです。

写真

写真

彼はまた、DALL E にロゴのデザインを依頼しました。

別の開発者は、30 行未満のコードで Web サイトを作成しました。

写真

写真

さらに、AI アシスタントと GPT-4-1106 を使用して、AI 履歴書アナライザーとスコアリング ツールを構築することもできます。

目標は、AI を使用して候補者が適任かどうかを評価することで、貴重な採用時間を節約することです。

写真

デモ動画では、ネットユーザーが職務内容と応募者の履歴書の2つのファイルをアップロードした。

いつか、AI が人々に代わって仕事を選ぶようになるでしょう。履歴書をフィルタリングする必要はありません。履歴書は過去のものとなるでしょう...

写真

しかし、開発者が OpenAI の Assistant API を使用して独自のアプリケーションでパーソナライズされたエージェントを構築するのは安くはありません。データを保存するコストは、アシスタント 1 人あたり 1 日あたり 0.20 ドル/GB と高額です。

S3 の月額 1 GB あたり約 0.023 ドルと比較すると、OpenAI の価格は 260 倍も高くなります。

写真

Google、今度はあなたの番です

OpenAI からの挑戦に直面して、Nvidia の上級科学者 Jim Fan 氏は、DeepMind が 2016 年の AlphaGo の栄光を再現するときが来たと述べました。

現在、Google Gemini に対する期待は途方もなく高まっています。

ただし、GPT と競争するには、少なくとも次のことを実行し、2024 年第 1 四半期に API をリリースする必要があります。

- テキスト機能は GPT-4 の 120% に達します。

- GPT-4 の水平能力の 100% ですが、コストは半分、速度はターボの 2 倍です。

- 視覚能力は GPT-4 の 100% に達します。

- 長いビデオのネイティブサポート。

対照的に、Meta では Llama-3 のみをオープンソース化する必要があります。

写真

Google はすでに Bard を数回にわたって改良している。 Google DeepMind は、UL2、PaLI、PaLM、Flamingo など、いくつかの SOTA 基本モデルも社内で開発しています。

つまり、理論的には可能です。

写真

参考文献:

https://twitter.com/gdb/status/1721972696412573956

https://twitter.com/gdb/status/1721709452011655467

<<:  シーメンスとマイクロソフトが共同でAIアシスタントを立ち上げ、製造業における人間と機械の連携を強化

>>:  ChatGPT を助手席に乗せましょう!清華大学、中国科学院、MITが共同でCo-Pilotヒューマン・コンピュータ・インタラクション・フレームワークを提案:乗客の意図を完璧に制御

ブログ    

推薦する

ディープラーニングにおけるバッチ正規化の落とし穴

[[191744]]バッチ正規化は、ディープラーニングにおいて最近登場した効果的な手法です。その有効...

ドローンは緊急通信の発展に役立ちますが、この3つのポイントが重要です。

近年、インターネットの急速な発展に伴い、通信ニーズが継続的に高まり始めており、通信保証能力がますます...

AIに関する誤解

企業は意思決定を強化し、消費者体験を向上させるために、幅広いアプリケーションで人工知能を活用すること...

...

年次指数レポートではAIが「産業化」しているが、より優れた指標とテストが必要とされている

海外メディアVentureBeatによると、中国は人工知能の研究論文の総数で米国を上回り、資金提供を...

人工知能分野で最も有望な技術トップ10

2018年世界ロボット会議が北京で開催され、ロボット産業の最先端技術が披露されました。世界的なロボ...

データセキュリティの向上における人工知能の役割

現在、コンピューティング能力、ストレージ容量、データ収集能力の急速な向上により、人工知能はさまざまな...

顔認識だけでなく、「心を読む」こともできます。このような AI は好きですか?

世界はとてもカラフルです。この美しい地球に住むすべての人は、理解されることを望み、注目されることを待...

人工知能の台頭によりプログラマーは消滅するのでしょうか?

ローコードおよびノー​​コード プラットフォームの爆発的な成長により、個人でも組織でも、従来はコード...

科学的人工知能と疑似科学的人工知能を区別する方法

人工知能が進歩し続けるにつれて、研究者たちはその能力を向上させ、さまざまな分野で倫理的かつ責任を持っ...

自分だけのデジタルヒューマンを開発しよう、FACEGOODが音声駆動表現技術をオープンソース化

現在、メタバースのトレンドの下、AIデジタルヒューマンもエンターテインメント、サービス、教育、マーケ...

IDC、2021年の中国の人工知能市場に関する10の予測を発表

インターナショナル・データ・コーポレーション(IDC)は、「IDC FutureScape:世界の人...

これはボストンダイナミクスのロボットエンジニアの一日です

[[401177]]ボストン・ダイナミクスは誰もが知っていますが、同社の従業員の仕事や生活について知...

2018 年の人工知能と機械学習のトップトレンド

[[243985]]人工知能(AI)は、1955年に米国のダートマス大学のAIの第一人者ジョン・マッ...

Intel がオープンソースの大規模スパースモデルトレーニング/予測エンジン DeepRec の構築を支援

DeepRec(PAI-TF)は、アリババグループの統合オープンソース推奨エンジン(https://...