メールを受け取りましたか? GPT-3.5-Turbo-Instructがリリースされ、マルチモーダル大型モデルGobiも公開されました

メールを受け取りましたか? GPT-3.5-Turbo-Instructがリリースされ、マルチモーダル大型モデルGobiも公開されました

今月初め、OpenAIは初の開発者会議「OpenAI DevDay」を2か月後に開催することを公式発表し、白熱した議論を巻き起こした。多くのネットユーザーは、OpenAIがカンファレンスでGPT-4-Visionなどの大規模なマルチモーダルモデルをリリースするだろうと推測した。

今日、OpenAI のマルチモーダル大規模モデルに関する新しいニュースがあります。

マルチモーダル大型モデル「ゴビ」は実現できるか?

海外メディアThe Informationによると、OpenAIとGoogleは次世代のマルチモーダルビッグモデルを目指し、長期にわたるビッグモデル競争を行っている。このようなモデルは、テキストからグラフを作成するタスクを処理したり、コードを生成したり、視覚的なチャートを出力したりできます。

OpenAIの共同創設者兼社長グレッグ・ブロックマン氏(左)とGoogle DeepMindの共同創設者兼CEOデミス・ハサビス氏(右)

このコンペティションでは、Googleが数日前にマルチモーダルMLツールGeminiの小規模なテストを開始したとの噂がありました。GPT-4のトレーニングよりも5倍の計算能力があり、マルチモーダル機能が大幅に向上しています。 Google は、大規模モデルの分野で OpenAI に対する不利を覆したいと考えている。しかし明らかに、OpenAI は将来このようなことが起こることを望んでいません。

事情に詳しい人物によると、OpenAIはGPT-4をジェミニが提供するものと同様のマルチモーダル機能と組み合わせることに懸命に取り組んでいるという。 OpenAIは3月にGPT-4をリリースした際に、関連するマルチモーダル機能をプレビューしたものの、それを宣伝することはなかった。数か月後、OpenAI は GPT-Vision 機能をより大規模にリリースする準備をしていましたが、正式にはリリースされませんでした。

なぜまだローンチされていないのかについて、OpenAIは主に、顔認識による人物追跡や人間になりすまして認証コードを自動的に解読するなど、視覚機能が不適切に使用されることを懸念している。しかし、時間が経つにつれて、OpenAI はようやくこれらの問題によって生じた技術的な懸念に対処できるようになったようです。

そのため、GPT-Visionの後、OpenAIはGobiというより強力なマルチモーダル大規模モデルを立ち上げると報告されています。 GPT-4 とは異なり、Gobi は最初からマルチモーダルになるように設計されました。しかし、OpenAIはまだモデルのトレーニングを開始していないため、Gobiが最終的にGPT-5になるかどうかを判断するのは時期尚早です。

さらに、OpenAIはGoogleがGeminiをリリースする前にGobiを打ち上げることも望んでいる。

画像出典: Twitter @amir

このマルチモーダルなビッグモデル競争で誰が勝利するかについては、今後見守るしかない。

OpenAIも新しいモデルをリリースした

同時に、OpenAIはマルチモーダル大規模モデルの公開に加えて、新しいモデルも「ひっそりと」リリースしました。

多くのネットユーザーがOpenAIチームからこの手紙を受け取っています。 OpenAI は、text-davinci-003 などの以前のモデルの一部を置き換えるために GPT-3.5-Turbo-Instruct をリリースしました。

このモデルは InstructGPT 3.5 クラスのモデルであり、ターボ モデルと同じ速度を維持しながら、text-davinci シリーズなどの以前の Instruct モデルと同様にトレーニングされます。このモデルの価格はGPT-3.5-turbo 4Kと同じです。

Twitter ユーザー @hwchase17 は、このバージョンのモデルは古い完了エンドポイントで使用できると述べ、このバージョンは「おしゃべり」だがエージェントとしては理想的ではないと述べました。

一部のネットユーザーは、使用中に、このモデルは場合によってはより良い仕事をすることができると述べた。たとえば、ユーザーがより大きなコード ブロックを生成したい場合、例が示されるだけでなく、非常に長いコードが直接生成されます。

<<: 

>>:  ReLU がビジュアル Transformer のソフトマックスに取って代わり、DeepMind の新しい手法でコストが急速に削減される

ブログ    
ブログ    

推薦する

Llama 2 第 2 波のハイライト: 慎重すぎるため、コード生成には改善の余地が大いにある

有用か無害かLlama-2-chat は、セキュリティ フィルターに関して過度に敏感な動作を示すこと...

AIの冬が来ます!ディープラーニングはスケールしません...

著者について: Filip Piekniewski は、コンピューター ビジョンと AI の専門家で...

Anthropic が「GPT-4 のライバル」言語モデル Claude 2 をリリース: パフォーマンスが向上し、長いテキストもサポート

7 月 12 日のニュース、Anthropic は最近、新しい Claude 2 言語モデルをリリー...

.Net Framework ガベージ コレクション固有のアルゴリズムの詳細な説明

.Net Framework は、Microsoft が提供する .NET 開発に基づいた基本環境で...

オープンソース: ディープラーニングモデルと姿勢推定コードのオープンソースコードの推奨、人工知能チュートリアル

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知...

AIとGo言語をシームレスに統合する方法を学ぶ

今日のアプリケーション開発分野では、OpenAI API などの生成 AI 技術の活発な開発により、...

...

あなたのプライベートな写真が「合法的に」閲覧される可能性があります。顔認識を使用するときは必ず服を着用してください。

本日7月3日、デジタルブロガーの@长安数码君がソーシャルプラットフォームでニュースを発表しました。顔...

CCTV、春節に初めてバーチャル司会者サ・ベイニン氏を迎える

AIブロックチェーン企業の技術が中国の重要な国家夜会で正式に使用された。 2019年のオンライン春節...

大規模なモデルを効率的に展開するにはどうすればよいでしょうか? CMU の最新の LLM 推論と MLSys 最適化テクノロジーに関する 10,000 語のレビュー

人工知能(AI)の急速な発展を背景に、大規模言語モデル(LLM)は、言語関連のタスクにおける優れたパ...

モデル入力は目に頼りません!中国人著者:強化学習は人間と同じ知覚能力を持つ

[[439504]]人間の適応力は恐ろしいですね!目の見えない人は目で世界を見ることはできませんが、...

上位 10 の古典的なソートアルゴリズムの JS バージョン

序文読者は自分で試してみることができます。ソースコードはここ (https://github.com...

Open Interpreterは、大規模な言語モデルのコードをローカルで実行できるようにするオープンソースツールです。

最近、Github を閲覧していたところ、Open Interpreter という魔法のツールを見つ...

...

安全なパスワード保存の業界標準: bcrypt アルゴリズム

パスワードを安全に保護するための標準アルゴリズムである bcrypt アルゴリズムについて説明します...