GPT 1周年深夜の雑談: プログラミングなしで誰もが GPT を定義できる時代が到来!

GPT 1周年深夜の雑談: プログラミングなしで誰もが GPT を定義できる時代が到来!

執筆者 | Yun Zhao

制作:51CTO テクノロジースタック(WeChat ID:blog)

深夜にまたキング爆弾! ChatGPTのリリース1周年にあたり、OpenAIの創設者であるAltman氏が初の開発者会議でそのスキルを披露し、聴衆から絶え間なく拍手が送られた。

プログラミングやタイピングは不要で、音声チャットだけでカスタマイズされた GPT を構築できます。このニュースはとても興奮します! Twitter のファンはアルトマンに「GPT 起業家ゴッドファーザー様」という新しいニックネームを付けました。

ウルトラマンの裏側:何千、何百万ものGPTがやってくる!

ChatGPT が 1 年前に全世界を驚かせたとすれば、この開発者会議は世界中の GPT ファンにとって起業の障壁を完全に取り除くことになるでしょう。

1. 大規模モデルの進化:OpenAIが再定義

まず最初に、GPT モデルの 3 つの新しいバージョンを紹介します。注目すべき点は3つあります。1つ目は、入力が長くなり、コストが削減され、2023年4月の世界的な出来事を理解できること、2つ目は、出力が再現可能であること、3つ目は、APIが大幅にアップグレードされ、Jsonモードが導入されたことです。

上図からわかるように、以前の 8k コンテキスト ウィンドウと、時折 32k に制限されたアクセスと比較して、今回は GPT-4 Turbo のコンテキスト ウィンドウが直接 128k に増加したため、1 つのプロンプトで 300 ページを超える紙の書籍に相当する内容を収容できます。

写真

これは、OpenAI がこの動きを通じて元の価格を半分以下に引き下げることができることを意味します。 GPT-4と比較すると、GPT-4 Turboの入力トークンの価格は1/3に削減され、出力トークンの価格は半分に削減されました。

写真

一般的に、コンテキスト ウィンドウが大きいほど、GPT などの大規模な言語モデルは質問をより深く理解し、より思慮深い応答を提供できるようになります。 OpenAI は、GPT-4 Turbo は開発者にとって実行コストが低いと述べています。入力コストは、GPT-4 では 0.03 ドルであるのに対し、1,000 トークン (LLM が読み取るテキストまたはコードの基本単位) あたりわずか 0.01 ドルです。各出力のコストは 1000 トークンあたり 0.03 ドルです。

全体的に見て、OpenAI は、GPT-4 の新しいバージョンは以前のバージョンよりも 3 倍安価であると述べています。

2 番目に、出力結果は再現可能です。

周知のとおり、既存の大規模モデルによって得られるチャットの結果は不確実であり、同じ質問に対しても回答が異なります。しかし、OpenAI チームは再現性の問題を単純に解決しました。開発者は、新しい seed パラメータと sustem_fingerprint 応答フィールドにアクセスすることで、決定論的な出力をある程度制御できます。これにより、モデルはほとんどの場合に一貫した完了結果を返すことができるため、繰り返し可能な出力を実現できます。

このベータ機能は、リクエストの再デバッグ、より包括的な単体テストの作成、モデルの動作に対するより高度な制御などのユースケースに役立ちます。実際、OpenAI もこの機能を社内で独自のユニットテストに使用しており、非常に価値があることがわかりました。

さらに、OpenAI は今後数週間以内に、GPT-4 Turbo と GPT-3.5 Turbo によって生成される最も可能性の高い出力トークンのログ確率を返すログ確率機能を開始する予定です。これは、検索エクスペリエンスにおけるオートコンプリートなどの機能の構築に役立ちます。

3 番目に、開発者は出力と応答をより細かく制御する必要があることがよくあります。新しく導入された命令追跡と Json モードにより、モデルが有効な Json 応答を使用することが保証され、関数呼び出しがよりシンプルかつ高速になります。

写真

写真

開発者が出力とモデルの応答をより細かく制御できるようになると、モデルは「分裂段階」に入る準備ができていることを意味します。

OpenAI は今後数週間以内に製品版の Turbo モデルをリリースする予定ですが、正確な日付はまだ明らかにされていないため、今後の発表をお待ちください。

また、もちろん、マルチモーダル性に興味があるなら、試してみる価値のある新しいリリースがあります。今回発表されたAPIには、視覚と聴覚を備えたDALL-E 3とGPT-4 Turboが含まれています。これらの機能を使用して、画像と音声のユースケースを開発できます。

写真

たとえば、字幕を生成したり、テキストから音声を生成したり、音声で音声アシスタントのロックを解除したりすることができます。さらに、Whisper V3 も近日発売予定です。

写真

2. 独自開発の大型モデルのカーニバル

大規模なモデルの微調整も、開発者が頻繁に直面するタスクです。アルトマン氏はまた、微調整における 2 つの進歩を発表しました。GPT-3.5 の微調整が 16k に拡張され、GPT-4 の微調整が間もなく登場します。同時に。また、GPT-4の微調整はGPT-3.5よりも難しいとも述べています。

写真

微調整では対応できないカスタマイズを必要とする組織(少なくとも数十億のトークンなど、極めて大規模な独自のデータセットを持つドメインに特に役立つ)向けに、OpenAI はカスタム モデル プログラムも開始しました。このプログラムでは、選ばれた組織に、OpenAI の研究者の専任チームと連携して、特定のドメインに合わせてカスタム GPT-4 をトレーニングする 1 対 1 のカスタマイズ機会が提供されます。ただし、申請するにはまだ列に並ぶ必要があります。

3. ウルトラマンのライブデモ:チャットだけで自分だけのGPTを構築できる

自然言語を使用して独自の GPT を構築するのは素晴らしいことです。アルトマン氏は現場で建設プロセスを実演した。観客全員が万雷の拍手喝采した。

写真

OpenAI は、あらゆる規模の企業と企業内のすべてのチームを再び説得し、生成 AI に参入することを決断させることに成功したと言わざるを得ません。

カスタム GPT サンプル ソース: OpenAI

デモ中に登場した DevDay イベント ナビゲーター エージェントは、サポートと簡潔さを提供し、スケジュールの競合を避けるように求められました。 OpenAI は、「今日の最初の会話は何ですか?」などの会話開始プロンプトをいくつか自動的に生成しました。各 GPT には、Web ブラウジング、DALL-E、およびソフトウェアの作成と実行のための OpenAI のコード インタープリター ツールへのアクセスが許可されました。

ビルダー インターフェースには、DevDay イベント タイムラインなどのカスタム データをアップロードするためのナレッジ セクションもあります。 OpenAI は、アクションと呼ばれる別の機能を通じて、GPT が外部サービスに接続して電子メールやデータベースなどのデータにアクセスできるようにします。

ビルダーインターフェースソース: OpenAI

カスタム GPT の導入により、OpenAI は Character.AI や Meta などの他の AI ボット プラットフォームと競合することになります。Meta は最近、WhatsApp、Instagram、Messenger で独自の AI キャラクターを多数リリースしました。 OpenAI は、競合他社よりも実用性を重視したプラットフォームとして位置付けており、人間のように動作するロボットにはあまり重点を置いていませんが、ヒューマノイド キャラクターを使用して GPT を構築することには反対していません。

注目すべきは、GPT の作成者は他のユーザーとのチャットを閲覧できないこと、また、どのような高度な使用状況データにアクセスできるかは不明であることです。 OpenAIは、詐欺、ヘイトスピーチ、「成人向けテーマ」などの活動を防止するために活動を監視すると述べた。

GPT ストアが立ち上がると、OpenAI は身元が確認された人からのエージェントのみを受け入れます。当初、GPT は共有可能な Web リンク経由でアクセス可能になります。

4. 著作権保護: 問題があればOpenAIが責任を負う

OpenAIは以前、システムに組み込まれた著作権保護によって顧客を保護すると発表していた。今日、同社はCopyright Shieldを立ち上げ、さらに一歩前進しました。「著作権侵害の法的申し立てに直面した場合、当社が介入して顧客を保護し、結果として生じる費用を支払います。」Copyright Shieldは、ChatGPT EnterpriseとOpenAI Developer Platformの一般的な機能に適用されます。

同様の事例としては、グーグルやマイクロソフトが挙げられる。グーグルは以前、自社の組み込み人工知能機能を使用している顧客が著作権侵害で訴えられた場合、グーグルが法的責任を負うと表明している。 Microsoft は、Copilot AI 製品のエンタープライズ ユーザーにも同様の保護を提供しています。

5. 最終的な考察: ゲームチェンジャー

1年前、外部から人工知能の「iPhone モーメント」と呼ばれた ChatGPT は、当初は OpenAI 内で最も期待の低い、単なる無料のチャットボット製品でした。ChatGPT の生みの親である Sutskever 氏は次のように認めています。「ChatGPT を作ったとき、それが何の役に立つのかわかりませんでした。事実に関する質問をすると、間違った答えが返ってきました。目立たず、人々は『なぜこんな製品を作ったんだ? 退屈だ!』と言うだろうと思いました。」

しかし、長い間存在し、再パッケージ化され統合されただけなのに、依然として間違った回答を返すチャット製品こそが、業界全体の進歩を完全に刷新したのです。

1年後の今日、OpenAIは明らかにAIGC時代のリーダーとなりました。基本モデルのマルチモーダルかつより大規模なAGIモデルにせよ、開発者エコシステムやビジネスエコシステムの構築にせよ、誰もがカスタマイズ可能で敷居がゼロの大規模モデルアプリケーション開発の時代が到来したことをはっきりと実感し始めています。

結局のところ、OpenAI の GPT の主な目標は、AI スーパーインテリジェンス (AGI) を作成することです。

--追記--

中国に目を向けると、実は中国企業もこれらの分野で準備を進めている。百度、アリババ、華為、vivoはいずれも大規模モデル研究で独自の進歩を遂げており、エンタープライズカスタマイズや開発者プラグインエコシステムにも独自の試みを行っている。また、NetEaseやSoulなどの企業も、ゲームやソーシャルネットワーキングの分野でロールプレイングに生成AIを応用していることに編集者は注目している。

ChatGPT は本当に世界を興奮させました!そして中国チームは加速しています!

<<:  2024 年の産業用ロボットのトップ 10 のトレンドとイノベーション

>>:  サム・アルトマンは大胆な発言をした。「OpenAIにはGPT-5を訓練するのに十分な資金があり、人間はAGIの閾値に近づいている」

ブログ    
ブログ    
ブログ    

推薦する

強力な人工知能を制御できる者は、世界全体を制御することになるのでしょうか?

人工知能は21世紀における最も重要な技術的成果となりました。したがって、世界規模の開発動向に注目する...

IoTとAIが出会うとき: テクノロジーの未来

人工知能(AI)は驚異的な進歩を遂げ、一般に応用可能な技術として社会に影響を与えています。しかし、初...

エッジコンピューティングと人工知能について知っておくべき7つのこと

エッジ コンピューティングと AI はどのように連携するのでしょうか? エッジ コンピューティングが...

SAPはイノベーションで顧客の成功を支援し、AI時代のデータ主導のビジネス変革の未来を形作ります

SAP は、AI 時代において顧客がデータの潜在能力を最大限に活用し、より深い洞察、より速い成長、よ...

5G + AI はカスタマー サービス業界にどのような大きな影響を与えるでしょうか?

最近、工業情報化部は通信事業者4社に5G商用ライセンスを発行し、5G商用時代の到来を告げた。 AIと...

チップ不足は人工知能にどれほどの損害を与えるでしょうか?

現在の半導体サプライチェーンのボトルネックの根本的な原因は何年も前から潜んでいたが、COVID-19...

Apple iPhone 15の発表イベントではAI機能に焦点が当てられたが、AI技術についてはほとんど語られなかった

9月13日北京時間午前1時に行われたアップルの秋季製品発表イベントで、アップルの広報担当者はAI技術...

ワイヤレス「心のコミュニケーション」!崔鉄軍院士は、柔軟で非侵襲的な新しい脳コンピューターインターフェースメタサーフェスの開発を主導している。

近年、コーディング メタサーフェスにより、従来の受動デバイスでは静的であったり非常に制限されていた電...

「遅れた接客」と批判されたインテリジェント接客の現状とは?

AIや5Gなどの新技術がもたらす変化により、顧客サービスシナリオは多様な変化を遂げており、兆レベル...

ロボットは人工知能技術に基づいて人間の表情を作る

信頼関係を築く上で、私たちの表情が果たす役割は非常に大きいにもかかわらず、ほとんどのロボットの顔はプ...

人工知能の「指紋採取」が検出困難な癌と闘う

検出が難しい膠芽腫などの癌の生存率は1桁ですが、早期治療には検出、治療、監視のための高度な技術が必要...

...

モジュラー大型モデルが登場! IBMがWatsonXコアアーキテクチャの技術的詳細を公開

大規模言語モデル (LLM) は強力なパフォーマンスを備えていますが、既存のモデルのトレーニングと展...

1990年代生まれの中国人教授が、1年間でネイチャー誌に3本の論文を発表した。最初の量子ニューラルネットワークQuantumFlowはオープンソースです

[[432543]]ニューラル ネットワークは、現在のコンピューティング アプリケーションで最も急速...