ChatGPTから何を学びましたか?

ChatGPTから何を学びましたか?

GPTとは

GPT は「Generative Pre-Training」の略で、画像とテキストの入力を処理してテキスト出力を生成できる大規模なマルチモーダル モデルです。

公開データ (インターネット データなど) とサードパーティ プロバイダーからライセンスを受けたデータを使用して、ドキュメント内の次のトークン (トークンは単純に 4 つの英語の文字として理解できます) を予測するように事前トレーニングされています。次に、人間からのフィードバックによる強化学習 (RLHF) を使用してモデルを微調整します。

トレーニング方法

まず、インターネットからの大量のテキストデータセットを使用して、次の単語を予測するようにトレーニングされます。次に、人間からのフィードバックからの強化学習と呼ばれるアルゴリズムを使用して、追加データでモデルを微調整し、人間のラベル付け担当者が好む出力を生成します。

具体的な手順:

  1. 多数の質問に対する回答を生成するGPTモデルを構築する
  2. GPTモデルと複数のモデルが連携して質問に答えます
  3. これらの質問を特定の基準で手動で並べ替える
  4. 前のステップのソート行動データに基づいて、スコアリングの報酬モデルをトレーニングします。
  5. スコアリング結果に基づいてGPTモデルを微調整する
  6. 強化学習で微調整されたGPTモデルのトレーニングを継続する

微調整の手順:

写真

利点

テストの点数

写真

GPT-4 は、ほとんどの専門試験や学術試験で人間レベルのパフォーマンスを発揮します。

不十分

適時性

この問題は、現時点では最も簡単に解決できそうです。公式オープンプラグイン(サードパーティAPIへの接続)や自己調整によって、ある程度は改善できます。

法務およびコンプライアンス

現地の文化、信仰、法律などに基づいてコンテンツの出力を制御し、個々の違いを尊重する必要があります。

データ量

GPT のトレーニングに利用できるデータは比較的限られています。たとえば、現在、中国分野の高品質なデータセットは通常、Zhihu、Xiaohongshu、Baidu Wenku などから入手できます。大規模なモデルで大きな進歩を遂げたい場合は、より大規模で高品質なデータが必要です。

リスク

  • 幻覚: 「何らかの情報源に関連した無意味または非現実的な内容の生成」
  • 有害成分

自傷行為を示唆または奨励する

ポルノや暴力的な内容などのグラフィック素材

嫌がらせ、侮辱、憎悪的な内容

攻撃や暴力を計画するのに役立つコンテンツ

違法コンテンツを見つけるための手順

  • 表現、配布、サービス品質の危険性: 言語モデルは偏見を増幅し、ステレオタイプを永続させる可能性がある
  • 偽情報と影響力の行使
  • 通常兵器と非通常兵器の拡散
  • プライバシー
  • サイバーセキュリティ
  • 危険な緊急事態の可能性
  • 経済への影響: GPT4 が経済と労働力に与える影響は、政策立案者やその他の利害関係者にとって重要な考慮事項となるはずです。
  • 加速: 安全基準の低下、悪い規範の蔓延、AIのタイムラインの加速のリスク。これらはすべて、AIに関連する社会的リスクを増大させます。
  • 過度の依存:ユーザーがモデルを過度に信頼して依存すると、気付かないエラーや不適切な監督につながる可能性があります。

回避方法

  • 早期介入の展開を実施する

  • 十分な敵対的テスト
  • モデル支援セキュリティパイプラインの構築

チーム内でそれをどのように実装するか

GPT などのモデルの利点と限界を理解した後、それをどのように自分たちの利益のために活用できるでしょうか?

まず、GPT などのテクノロジーを日常業務で使用したい場合は、ビジネス上の機密性や、使用プロセスに大量の社内ビジネスデータが含まれるかどうかを明確にし、そのメリットやシナリオの改善が十分に大きいかどうかを評価する必要があります。ここに3つの状況があります:

社内のビジネスデータは機密性が高い

インテリジェントな顧客サービス、ナレッジ管理、ドキュメント生成ツール、ビジネス開発など。これらのアプリケーション シナリオは必然的にビジネス データと接触するため、直接使用することはできず、通常は内部データを使用して既存の大規模モデルに基づいてトレーニングすることしかできません。

社内業務データの機密性が不明瞭

たとえば、ビジネスデータが含まれている可能性のある日常業務の検索ツールやアシスタントとして、ほとんどのチームはChatGPTへの直接アクセスや使用を許可すべきではありません。ただし、チーム内での展開用にフロントエンドインターフェースとAPIキーを提供し、バックエンドプロキシを介してOpenAIインターフェースにアクセスすることはできます。これの利点は、直接アクセスに比べて一定の監視役割を果たし、データ漏洩などのセキュリティ問題をタイムリーに発見し、推奨される匿名情報とプロンプト形式を提供できるため、チームの効率と作業方法が向上することです。

社内ビジネスデータの機密性は低い

この場合、ビルド製品の処理や例外の分析など、外部の成熟した大規模モデルを使用する方が適しています。これらのデータは、コードがパッケージ化されて圧縮された後に生成されるため、ほとんどの業務を鈍感にし、キーワードを難読化することと同等であり、情報漏洩のリスクをある程度回避できます。次の 2 つの例を示します。

1. 製品のテスト

聞く:

これで、フロントエンドの専門家になりました。次のスクリプトにブラウザの互換性の問題があるかどうかを判断してください。考えられる原因、考えられる影響、問題の重大度評価 (10 点満点)、修復の提案の観点から分析および評価してください。スクリプトは次のとおりです。

 !function() { var e = /([http|https]:\/\/[a-zA-Z0-9_.]+.baidu.com)/gi , r = window.location.href , t = document.referrer; if (!e.test(r)) { const o = "[https://sp0.baidu.com/9_Q4simg2RQJ8t7jm9iCKT-xh_/s.gif";](https://sp0.baidu.com/9_Q4simg2RQJ8t7jm9iCKT-xh_/s.gif%22;) t ? (o += "?r=" + encodeURIComponent(document.referrer), r && (o += "&l=" + r)) : r && (o += "?l=" + r); var i = new Image; i.src = o } }(window);

GPT:

このスクリプトの主な機能は、現在のページの URL が Baidu ドメイン名と一致するかどうかを確認することです。一致しない場合は、リファラーと位置情報を含むリクエストを Baidu サーバーに送信します。以下は、このスクリプトの互換性の問題の分析です。

考えられる原因:

const キーワードが使用されていますが、これは IE ブラウザ (バージョン 11 未満) ではサポートされていません。

考えられる影響: const キーワードをサポートしていないブラウザ (IE10 以前など) では、スクリプトがエラーをスローし、後続のコードが実行できなくなります。

問題の重大度評価: 4/10。この問題は主に古いブラウザ、特に IE10 以下に影響します。最新のブラウザの普及により、この問題の範囲は限定されます。

修理の提案:

ブラウザの互換性を高めるために、const キーワードを var キーワードに置き換えました。修復されたスクリプトは次のとおりです。

2. 異常の分析

聞く:

これで、あなたはフロントエンドの専門家になりました。Sentry から次の例外が報告されました。考えられる原因、考えられる影響、エラーの重大度評価 (10 点満点)、修復提案の観点から、これを分析して評価します。例外は次のとおりです。

TypeError: t.(/de/prismplayer/2.9.23/aliplayer-min.js:2:363589) で null のプロパティを設定できません ('innerText' を設定) ……

GPT:

例外情報: TypeError: null のプロパティを設定できません (設定 'innerText')。これは TypeError であり、null オブジェクトの 'innerText' プロパティを設定しようとしていることを示しています。

考えられる原因:

コード内の DOM 要素が正しく取得されていません。querySelector や getElementById などのメソッドによって取得された要素が存在しないか、レンダリングされていない可能性があります。イベント ハンドラーでは、要素への参照が正しく処理されず、場合によっては null オブジェクトへの参照が発生する可能性があります。

考えられる影響:

「innerText」プロパティを正しく設定できないため、一部のクライアント機能に問題が発生し、ユーザー エクスペリエンスに影響する可能性があります。

この問題が広範囲に及ぶと、アプリケーション全体の機能と安定性に影響する可能性があります。

バグの重大度評価: 6/10。このエラーにより、一部の機能が正しく動作しなくなる可能性がありますが、アプリ全体がクラッシュすることはありません。

修理の提案:

まず問題が発生している場所を特定します。関連するコードの場所は、aliplayer-min.js の 2 行目の 363589 番目の文字など、例外スタック情報から見つけることができます。

コードの場所に応じて、「innerText」プロパティを設定する前に、DOM 要素が正しく取得されているかどうかを確認します。問題が見つかった場合は、使用前に DOM 要素が適切に取得されるようにコードを修正する必要があります。

イベント ハンドラーでは、特定の状況で null オブジェクトが参照されないように、DOM 要素への参照が正しく処理されることを確認します。

問題を修正した後は、問題が解決されたことを確認するために適切なテストを実行します。さまざまな条件下で DOM 要素が正しく取得され、処理されることを確認するには、さまざまなシナリオをテストする必要がある場合があります。

注: 実際の修復プロセスでは、プロジェクトの具体的な状況とコード ロジックに基づいて分析と調整が必要になります。この問題はサードパーティのライブラリ (aliplayer-min.js) で発生するため、ライブラリ コードを直接変更できない場合は、ライブラリの作成者に連絡するか、別の解決策を見つけてください。

上記の例では、まずビジネス ドメイン キーワード「フロントエンド」を特定し、次に問題シナリオ「互換性分析」または「例外分析」を指定して、目的のターゲット フィールド「原因」、「影響」、「重大度レベル」、「提案」を設定し、最後に必要な情報コンテンツを追加して、比較的信頼性の高い回答を得ています。

このプロセスは、日常生活におけるビジネス インターフェイスの呼び出しと非常によく似ています。システムを通じて作業を完了するために、固定された入力および出力パラメーターと機能ロジックを持つことができます。たとえば、JS 例外分析の場合、過去には例外報告の精度を向上させるために自社開発モデルのトレーニングを試みましたが、これには多くの時間と労力がかかり、満足のいく結果は得られず、GPU サーバー リソースの申請も必要でした。現在は、大規模モデルのインターフェイスを呼び出すだけで非常に良好な結果が得られ、報告された例外をより正確に分析できます。

要約する

私たちの仕事の現段階では、主に情報セキュリティと技術的なボトルネックによって制限されています。GPTを直接使用するシナリオは比較的限られており、データを使用して大規模なモデルをトレーニングするコストが高すぎます。そのため、初期段階では、主にツールベースの形式で既存のシナリオに適用し、これらのシナリオには情報セキュリティを可能な限り確保するためにビジネスデータは含まれていません。

見通し

GPTのような大規模モデルがもたらす生産方法は、特に研究開発や設計などの職種において、現在の社会の分業に大きな影響を与えるでしょう。私たちが不安に思うのは、いつAIに置き換えられるかわからないこと、つまり次のバージョンがリリースされるかもしれないことです。そのため、開発者として、私たちはこれらの新しい技術を理解し、学ぶためにオープンな心を持つ必要があります。初期段階では、GPTを既存のシステムに接続して効率を向上させることができます。近い将来、ニーズや作業を完了するための普遍的なシステムとして使用できるようになるかもしれませんが、使用中のデータセキュリティのレビューと管理をしっかりと行う必要があります。

関連トピック

ChatGPTは失業の波をもたらすでしょうか? (https://www.zhihu.com/question/582933780)

一般の人々はどのようにしてChatGPTのチャンスをつかむことができるのでしょうか? (https://www.zhihu.com/question/582326598/answer/2882767690)

ChatGPT の素晴らしい使用方法は何ですか? (https://www.zhihu.com/question/570729170/answer/2887200349)

参照する

GPT-4 技術レポート

<<:  コストを70%削減する秘訣: これらの企業はAIをコスト効率よく活用する方法を見つけました

>>:  火を吐きながらタップダンスを踊るロボット犬の最新スキルがインターネットで大ヒット!ネットユーザーはこれを本物のホットドッグと呼ぶ

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ジェネレーティブ AI: 職場の CIO にとって未知の要素

組織のエンドユーザーとますますインテリジェントになるソフトウェア ツールとの間の生産的なパートナーシ...

知識経済は死んだ! AIが生み出す「直感経済」の新時代!

AI をめぐっては興奮と恐怖が同時に存在しているのは否定できない現実です。一方では、マイクロソフト...

ネットワーク管理における人工知能の役割

AI の主な利点の 1 つは、従業員を日常的な単純作業から解放することです。 AI は、ネットワーク...

現在最も興味深い AI は、実は系図会社から生まれたものなのでしょうか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能が雪の結晶をリアルタイムで捉え、約700人の足跡を追跡可能に

2月4日の北京冬季オリンピックの開会式で、若い俳優たちが「平和の鳩」を手に持ち、彼らが動くと、足元に...

AI を医療業界のあらゆる側面に深く統合するにはどうすればよいでしょうか?

[[319366]]将来的には、医療エコシステムを中心として、人工知能が医療システムのあらゆる側面...

phind: 開発者に特化したAI検索エンジンの誕生!

みなさんこんにちは、三元です。前回の記事では、AIを使いこなせない人は本当に将来淘汰されていくのか?...

スマート製品はどこにでもあります。人工知能と通常の知能の違いは何でしょうか?

多くの一般消費者にとって、どれが本物の人工知能でどれが単なる普通の知能なのかを区別することは不可能で...

インテリジェント運転ビッグデータの最先端の研究の進歩と典型的な応用

1. はじめにインテリジェント運転とは、一般的には、自動運転や車両のインターネット(IoV)などの技...

AIがスタートアップの成功にどのように役立つか

人工知能は現在、あらゆる規模のビジネスの運営方法に大きな影響を与えています。スタートアップ企業も A...

流行を予防し制御するために、人工知能はまだ3つの大きな問題を解決する必要がある

新型コロナウイルス感染症は、中華人民共和国成立以来、最も急速に広がり、最も広範囲に及び、最も困難な公...

AIブームの中で、取締役会とCEOはAIを包括的に理解する必要がある

AIが私たちの日常生活の一部になっていることは否定できません。ほぼすべての業界のフォーチュン 100...

張亜琴氏と張宏江氏は人工知能の将来について何を語っているのでしょうか?

「大規模なシステムを構築するには、体系的な思考、実践的なスキル、システム構築への愛情を持った人材が...

音声認識の次のピークは「人間の領域」でしょうか?

[[208154]]ディープラーニングが普及し、音声認識に広く使用されるようになって以来、字幕の単...

...