トランプ氏の口調が本物か偽物かを見分けるのは難しい。これほどリアルな話はかつてない。スーパーストーリーテリングAIが登場

トランプ氏の口調が本物か偽物かを見分けるのは難しい。これほどリアルな話はかつてない。スーパーストーリーテリングAIが登場

[[281456]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

現実的に聞こえるストーリーを作り上げることができる AI モデルを覚えていますか?

これは GPT-2 と呼ばれ、非常に効果的であるため、OpenAI はそれをすべて公開することはできないと述べています。悪意のある人がこれを悪用すると問題になるからです。

そのため、最初に発売されたときは、モデルの 124M バージョンがリリースされ、次に 355M、そして 774M がリリースされました。

業界では「歯磨き粉を絞り出すオープンソース」と呼ばれています。

しかし予想外に、9か月間の断続的なリリースの後、OpenAIはついに15億のパラメータを持つ完全なモデルをリリースしました。

諺にあるように、美味しい食事は一日の価値があるとされており、正式版は発売後、大きな注目を集めました。

「善良な人々は平和な人生を送るだろう」と言う人もいます。中には、OpenAI を支持し、「唯一安全な AI は少数の人々のための AI ではなく、すべての人のための AI だ」と言う人もいました。

15億パラメータモデルの有効性に驚嘆する人も多かった。「偽造書類」の時代もそう遠くないという。

しかし、もっと多くの人が知りたいと思うことがあります。

かつては素晴らしい AI モデルでしたが、本当にそれほど謎めいたものなのでしょうか?

15億バージョンのモデルがテストされた

まずは実地テストの結果を見てみましょう。

まず、夜更かしすると人は愚かになるという科学的証拠についてどう思うか尋ねたところ、次のような回答が返ってきました。

夜更かしすると頭が悪くなるという科学的証拠がある。

実際にTwitter風の回答が返され、Chuan Jianguo氏に質問もされました。

夜更かしをすると頭が悪くなるという科学的証拠がある。ではなぜ大統領は毎晩遅くまで起きてツイートすることが許されるのだろうか?

https://t.co/0j5cFZ5sXS — ザ・デイリー・ショー (@TheDailyShow) 2017年1月6日

夜更かしすると頭が悪くなるという科学的証拠がある。ではなぜ大統領は毎晩遅く起きてツイートするのでしょうか?

https://t.co/0j5cFZ5sXS — TheDailyShow (@TheDailyShow) 2017年1月6日

トランプ氏が正しかったのは次の点だ。

トランプ氏が正しいと考えているのは次のことだ。

もし私がもっと賢い人間だったら、あなたたち全員が眠りにつくのを見ているときの私の気持ちを「悲しい」という言葉で表現していただろう。悲しい! — ドナルド・J・トランプ(@realDonaldTrump)2017年1月6日

もし私が分別のある人間だったら、皆さんが眠りに落ちていくのを見て自分がどう感じているかを「悲しい」という言葉で表現するでしょう。悲しい!

— ドナルド・J・トランプ (@realDonaldTrump) 2017年1月6日

ツイートのリンク、特定のアカウント、時間もあります。

怖かったので急いで調べてみたのですが、幸いリンクは偽物で全く開けませんでした。しかし、これらのツイートアカウントはすべて存在します。

私たちはその効果に衝撃を受け、次のような感想を述べました。

編集者たちはその効果に衝撃を受けた。

すると、次のような「ナンセンスな」結果が生成されました。

数年後の1990年代後半に、「人間の知能の遺伝子」の存在を裏付ける証拠を提示した本が出版されました。

数年後の1990年代後半に、「人間の知能遺伝子」の存在を証明する本が出版されました。

「これが事実だとはただ驚いている」と、報告書の編集者の一人であるカリフォルニア大学サンディエゴ校の心理学者ロバート・ローゼンタール氏は語った。

「こんなことが起きていることにただ驚いている」と、カリフォルニア大学サンディエゴ校の心理学者で報告書の編集者の一人、ロバート・ローゼンタール氏は語った。

ローゼンタール氏は、DNAで知能を検出できるという考えは「まったくあり得ない」と述べた。

ローゼンタール氏は、DNAを通じて知能を検査できるというのは「まったくあり得ない」と語る

真偽はまだ検証されていないものの、論理的にはすでに説得力があり、詳細と論拠も充実しています。真実を知らない人は本当に騙されるかもしれません。

モデルは大きくなり、物語を作る能力も強くなる

OpenAIはブログで、GPT-2によって生成された結果は独立した客観的な第三者によって検証されており、説得力があると述べた。

チームのパートナーであるコーネル大学は、人間を対象にアンケート調査を実施し、GPT-2 が出力したテキストに信頼性スコアを与えました。さまざまな規模のモデルが参加しました。

15億パラメータモデルに与えられた信頼性スコアは、10点満点中6.91です。これは、7億7,400万パラメータのモデル(6.72ポイント)や3億5,500万パラメータのモデル(6.07ポイント)よりも高い値です。

つまり、人間の目から見ると、15億のパラメータを持つモデルは、これまで公開されたモデルよりも現実的な記事を生成できるということです。

では、AIの視点でも同じでしょうか?

そのため、どの記事が GPT-2 によって書かれ、どの記事が人間によって書かれたかを識別する検出アルゴリズムを作成することも重要なタスクです。

OpenAIは、モデルによって生成された15億のテキストを約95%の精度で認識する検出モデルを作成しました。しかし、これは AI によって生成されたテキストが安全であることを意味するものではありません。

チームはデータセット全体にわたって検出アルゴリズムのより詳細な調査を実施したためです。

たとえば、3億5500万パラメータのモデルの作品はトレーニングに使用されますが、テスト中に15億パラメータのモデルの作品を認識する必要があります。また、15億パラメータのモデルの作品はトレーニングに使用されますが、テスト中に3億5500万パラメータのモデルの作品を認識する必要があります。

結果は次のとおりです。

現時点では、大規模モデルの作品をトレーニング セットとして使用すると、小規模モデルの作品を識別するのは簡単であると思われますが、小規模モデルの作品をトレーニング セットとして使用すると、大規模モデルの作品を識別するのは非常に困難です。

たとえば、1億2,400万のパラメータモデルからの記事でトレーニングした後、アルゴリズムに15億のパラメータモデルからの作品を認識するように要求したところ、精度はわずか79.3%でした。結果的に、精度は96.9%となります。

全体的に、15 億のパラメータ モデルを使用した作品は、依然として最も識別が困難です。

この結果は、15 億パラメータ モデルが以前のモデルよりも強力であることを示しています。その一方で、真正性を検出するためのアルゴリズムには、まだ長い道のりがあることも意味します。

しかし、このモデルには他の問題点もあると指摘する人もいます。

テキスト生成モデルは十分に大きいですが、必要なのは制御可能なテキスト生成です。

使用方法の提案

では、このバージョンの GPT-2 はどのように使用すればよいのでしょうか?

まず、当然ですが、GPT-2 GitHub リポジトリから 15 億のパラメータを持つ完全なモデルをダウンロードし、自分で調整して必要な機能を取得する必要があります。

https://github.com/openai/gpt-2

ただし、これは AI プロフェッショナルに適しています。ソースコードを読んだ後、圧倒されたと言う人もいました。

1. 1 文字の変数がいたるところにあります。2. コード自体に関するドキュメントはほとんどありません。3. マジック定数がいたるところにあります。4. 関数名が簡潔すぎます。

すぐに試してみたい場合は、誰かがコードを Colab に移植しています。

https://colab.research.google.com/drive/1BXry0kcm869-RVHHiY6NZmY9uBzbkf1Q

また、対応する GPT-2 トレーニング チュートリアル「GPT-2 Neural Network Poetry」もリリースされました。

https://www.gwern.net/GPT-2

さらに、Hugging Face は、このモデルを Wanxing Project Transformersにもいち早く追加し、1 つの API で 15 億パラメータバージョンの GPT-2 を呼び出すことができるようになりました。オンラインデモで直接試すこともできます。

https://transformer.huggingface.co/doc/gpt2-xl

効果を体験したいだけなら、誰かがウェブサイトにGPT-2 15億パラメータモデルの機能を統合しています。冒頭を入力するだけで、ワンクリックでテキストが生成されます。

https://talktotransformer.com/

OpenAI の期待によれば、この完全なモデルは主に AI 研究者や実践者に役立ち、生成言語モデルの挙動、機能、バイアス、制約をより深く理解するのに役立ちます。

次はどこへ行く?

OpenAIが公開した最大15億パラメータのモデルが、出力やその他の面で一定の進歩を遂げていることは容易に理解できる。しかし同時に、OpenAI は検出に直面する課題も提起しました。

それで、彼らはこのモデルに次にどのような改良を加えるのでしょうか?

OpenAIは次のように述べた。

過去 9 か月間で、私たちは AI 分野で標準モデルを公開する際の課題と機会について深く理解するようになりました。モデルの仕様については今後もさらに研究・議論を重ねてまいります。

さらなる研究により、言語モデルのパフォーマンスがさらに向上し、出力の品質と精度が向上することが期待されます。

そのため、言語モデルの社会的影響を効果的に形作るために、OpenAI は監視する必要がある 4 つの傾向も特定しました。

トレンド1: 言語モデルがデバイスに移行

OpenAI は、コンピューティング能力のコストの歴史的傾向と、デバイス上で機械学習のトレーニングや推論を実行できる現在の速度を考慮すると、オラクル モデルはサーバーのクラスターではなく、さまざまなデバイスに広く展開されるようになると予測しています。

トレンド2: テキスト生成がより制御可能になる

言語モデルの潜在的な有用性は、新しいサンプリング方法、データセット、目的関数、人間とコンピュータのインターフェースなどの信頼性/制御性の開発から恩恵を受けるでしょう。

トレンド3: リスク分析の強化

現在、異なるパフォーマンス プロファイルを持つ 2 つの大規模な言語モデルを比較することの有用性は、特に微調整を考慮した場合に疑問視されています。

重要な考慮事項としては、モデルの助けを借りて、またはモデルなしで、一定量の特定の品質のテキストを作成するために必要な時間と専門知識が含まれます。

さまざまなスタイルの悪意のあるコンテンツを生成する際のパフォーマンスの違いに加えて、さまざまなモデルがさまざまな言語やトピックに多かれ少なかれ適応します。

また、柔軟性を犠牲にすることなく、悪用される可能性をゼロにすることは困難または不可能と思われます。

これらの問題を検討するには、さらなる研究と倫理ガイドラインの策定が必要です。

トレンド4: ツールの使いやすさの向上

現在、モデルのトレーニングと展開には、機械学習技術に関する知識、ツールのスキル、評価用のテストベッドへのアクセスが必要です。

言語モデルと対話するためのツール (Transformer との会話や Transformer インターフェースを使用した書き込みなど) により、さまざまな方法で言語モデルを使用できるアクターの数が増えます。

ツールの使いやすさが向上することで、モデルのパフォーマンスとサンプリング方法が向上し、より幅広いクリエイティブな言語モデルのアプリケーションが可能になります。

もう一つ: GPT-2 ユニバース

GPT-2は今年2月に登場して以来、その強力なパフォーマンスは多くの人々を驚かせています。ターゲットを絞ったトレーニングなしで、さまざまな特定分野の言語モデリングタスクを一掃できるだけでなく、読解、質疑応答、記事の要約生成、翻訳などの機能も備えています。

これにより、GPT-2 に関する研究の波が起こり、GPT-2 はさまざまなシナリオに導入されるようになりました。

たとえば、誰かが GPT-2 に「人間の好み」パッチを追加したところ、GPT-2 の表示はますます人間的なものになりました。また、これを使用して、プログラマーが興奮するプロジェクト、つまり 23 の言語と 5 つの主流エディターをサポートするキラー AI コード補完ツールを作成した人もいます。

GPT-2 の中国語版もあり、詩、ニュース、小説、脚本を書いたり、一般的な言語モデルをトレーニングしたりするために使用できます。

GPT-2 中国プロジェクトポータル:

https://github.com/Morizeyao/GPT2-中国語

OpenAI が言うように、そして GPT-2 が実証しているように、その可能性はそれをはるかに超えています。

より多くのシナリオでも使用できます。

何か大胆なアイデアはありますか?

<<:  医療AIの深淵:まだ解決すべき大きな問題

>>:  粒子ロボットの出現はロボットの自己認識覚醒の危機をもたらすかもしれない

ブログ    
ブログ    
ブログ    

推薦する

モバイル写真と人工知能が出会うとき

現在では、カメラ機能はスマートフォンの標準機能となり、スマートフォンの大きなセールスポイントとなって...

...

...

機械学習に必要なエンジニアリングの量は将来大幅に削減されるだろう

将来的には、ML 製品の構築がより楽しくなり、これらのシステムはより良く機能するようになります。 M...

Google AI チームが新しい「流体アノテーション」を発表: 画像アノテーションの速度が 3 倍に向上

(原題: Google が新しいソリューションを発表、画像注釈の速度が 3 倍に向上) [[2505...

2030年までに、仕事の70%が人工知能に置き換えられるでしょう。子どもたちが競争力を維持できるよう、私たちはどう支援できるでしょうか?

10年前は多くの人が必死に五線譜を練習していましたが、今ではほとんど誰も使っていません。 5年前は...

...

人工知能とソフトウェア開発の未来

人工知能はソフトウェア開発をあらゆる面で変えています。多くの企業が AI 機能の導入を競っていますが...

人工知能の新たなブレークスルー:ニューラルネットワークが画像内の物体を自律的に識別できる

海外メディアの報道によると、フィンランドのコンピューター科学者は神経生物学的手法を用いて人工知能研究...

MIT の FrameDiff ツールがリリースされ、AI を使用してタンパク質構造を設計し、医療開発の促進に役立てられるようになりました。

7月13日、 MITの研究者らは、医薬品開発の加速と遺伝子治療の改善を目的として、生成型人工知能を...

AI規制に関するマスク氏の見解:規制は面倒だが、審判がいるのは良いことだ

現地時間11月3日、木曜日の2日間にわたる英国人工知能安全サミットで、テスラのイーロン・マスクCEO...

ChatGPT Plusアカウント登録が停止されました!ネットユーザーは激怒、アカウントの売買やレンタルがネットワーク全体で高騰中

ちょうど今、サム・アルトマンがXで衝撃的なニュースを発表しました—— ChatGPT Plusアカウ...

AI時代のネイティブ:3歳でパズルを作り、5歳でプログラミングを学ぶ

[[241540]] 2018年世界ロボットコンテストで、子どもたちがロボットのプログラミングと制御...

Google: 2020年5月のコアアルゴリズムアップデート、多数のウェブサイトに影響

Google のアルゴリズムは毎年何百回も更新されます (Google は通常、これらの更新について...

...