この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 AIの本気の「作り話」は、信じられないほどリアルです。 ちょうど今、OpenAI は「驚異的な」言語 AI をリリースしました。モデル全体には 15 億のパラメータが含まれています。 この AI は非常に簡単に記事を執筆でき、特別なトレーニングなしでさまざまな特定分野の言語モデリングタスクを処理できます。また、読解、質疑応答、記事の要約の生成、翻訳などの機能も備えています。 フェイクニュースがあまりにもリアルだったため、OpenAIは「完全なモデルを公開することはできない」と述べた。 その仕事は具体的にどのようなものですか? 人間は、2 つの文の冒頭部分だけを与えました。 科学者たちは衝撃的な発見をした。アンデス山脈の人里離れた未踏の谷にユニコーンの群れが生息しているのだ。さらに驚くべきことは、これらのユニコーンが流暢な英語を話すことです。 AIはこのナンセンスな設定に従って、真面目なストーリーを書きました(全文は記事の最後をご覧ください): これらの生き物は独特の角を持っているため、科学者はこれを「オウィディウスのユニコーン」と名付けました。 4本の角を持つ銀白色の生物は、これまで科学界では知られていなかった。 … これらの生き物の起源は不明ですが、人類文明が存在する以前に、人間とユニコーンの交わりから生まれたと信じる人もいます。 「この現象は南米では非常に一般的です」とペレス教授は語った。 … その考えは突飛だが、その言葉は真実だ。矛盾する情報はほとんどなく、最後には厳密に次のように述べられています。 彼らが失われた人種の子孫であることを確認したい場合、DNA検査がより効果的な方法かもしれません。 この AI ライターは GPT-2 と呼ばれます。 トレーニングに使用されるデータはすべて人間が書いたオリジナルのテキストです。教師なし学習プロセス、純粋で汚染のない。 この点に関して、ディープラーニングの父であるヒントン氏は、Twitter 登録以来 3 度目のコメントを出した。 これにより、シリコンバレーのユニコーン企業はより優れた英語を生み出すことができるようになるはずです。 AIがまとめたユニコーンのニュース記事を読んで刺激を受けたようです。 DeepMind の研究者であり、StarCraft AI AlphaStar の生みの親でもある Oriol Vinyals 氏も同僚を称賛しました。 規模と計算能力を考えると、ディープラーニングは期待を裏切りません。 Alec Radford さん、Ilya Sutskever さん、その他多くの方々、おめでとうございます! AIが生成したフェイクニュースがあまりにもリアルであるため、OpenAIのオープンソース活動は非常に慎重になっています。これまでとは異なり、今回のオープンソース コンテンツには完全な事前トレーニング済みモデルはなく、1 億 1,700 万個のパラメータを持つ「縮小版」のみが含まれています。 メディアもGPT-2は危険な存在だと考えている。 ザ・ヴァージより 間違った人に託された場合、GPT2 は掘削機となり、終わりのない苦痛と憎しみを掘り出すことになります。 さらに、フェイクニュースは GPT-2 の氷山の一角に過ぎません。必要なスキルはすべて備わっています。 GPT-2 は、他のタスクを対象としたトレーニングを必要とせずに、読解、常識的推論、テキスト予測、記事の要約など、さまざまなタスクも完了できます。その効果は非常に優れているため、人々は「このモデルの背後には中国語教師がいるのではないか」と不思議に思うほどです。 万能の言語モデル この万能な「中国語教師」こそが「言語モデリング」です。 OpenAIの研究者らは、GPT-2がさまざまなドメイン固有のデータセットでの言語モデリングテストで優れたスコアを達成したと述べた。特定のドメイン データで特別にトレーニングされていないモデルであるため、特定のドメイン用に構築されたモデルよりもパフォーマンスが優れています。 次の図は、研究者がまとめたさまざまな種類のタスクのスコアの比較です。(+) は、この領域のスコアが高いほど優れていることを意味し、(-) は、この領域のスコアが低いほど優れていることを意味します。 △ さまざまな言語モデリングタスクにおける GPT-2 テスト結果 (左から右へ: データセット名、指標タイプ、GPT-2 テスト結果、以前のより良い結果、人間のレベル) GPT-2 は言語モデリングに使用されるだけでなく、微調整なしで質問回答、読解、要約生成、翻訳などのタスクでも優れた結果を達成できます。 人間の感覚の観点から判断すると、GPT-2 のパフォーマンスも驚くほど優れています。 信じられませんか?信じられないなら、一緒にテストを受けてみましょう。 質問1(読解):4年生の生徒が半日も理解できなかった読解問題 次の資料を読んで質問に答えてください。 3月24日、聖火はオリンピック発祥の地であるギリシャのオリンピアで採火され、アテネのパナシナイコ競技場を経て、3月31日に北京へと渡される。北京を出発した聖火は、シルクロード沿いの都市に立ち寄りながら、6大陸を旅する。リレーでは、聖火をリレーの最終地点であるエベレスト山まで運ぶ予定。
これは時事問題、地理、新しい単語の読解テストです。大人でも、じっくり読んでから2度考える必要があります。しかし、GPT-2では、正解を見つけるのに数分しかかかりません。 ギリシャのオリンピアはオリンピック発祥の地です。7 日間開催され、パナシナイコ スタジアムで競技が行われます。 質問1: すべて正解✅ 質問2(常識的推論):人々を混乱させやすいあいまいな代名詞 次の文を読んで、「それ」がどの部分を指しているか答えてください。 1. トロフィーは大きすぎるため、茶色のスーツケースには入りません。 2. トロフィーは茶色のスーツケースに収まりません。小さすぎるからです。 5秒間考えて答えてください。 これら 2 つの「あいまいな」文は GPT-2 にとって何の問題もなく、答えはそれぞれ「トロフィー」と「スーツケース」でした。 2番目の質問、問題ありません✅。 質問3(記事要約):中学生が試験で圧倒される主題要約 以下の資料を読んで記事の内容を要約してください。 (この資料は、海外メディアのデイリーメールの報道から引用したものです。テキストと写真が混在しています。Word による概算では、1,300 語以上あります。記事の長さのため、QuantumBit では、ここでの資料を「去勢」しています。) 36,000年前、先史時代の人類は、現在のフランスにある洞窟の荒々しい石灰岩の壁に、信じられないほど多くの先史時代の獣のスケッチをしました...(一部の単語は省略)...現在、高度な技術の助けを借りて、ショーヴェ・ポンダルク洞窟の芸術作品が複製され、世界最大のレプリカ洞窟が作られました。 悪くないですね。読みやすく、理解しやすいように見えるシンプルなテキストです。GPT-2 はこれをどのように処理するのでしょうか? 悪くないですね: 南フランスのヴァロン=ポン=ダルクにある元の場所はユネスコの世界遺産に登録されており、人間が装飾した洞窟としては最も古く、最もよく保存されたものとして知られています。南フランスのヴァロン・ポン・ダルクにある元の場所から数マイル離れた場所にあるこのレプリカの洞窟には、ケブカサイ、マンモス、大型ネコ科動物など14種類の動物像が収められている。 質問3、とても良い✅ いかがでしたか? GPT-2 の威力を感じましたか? GPT-2 が問題を解決する例は他にもたくさんあります。詳細については、記事の最後にあるオリジナルの OpenAI ブログをご覧ください。 どうやって作られるのですか? GPT-2 は GPT の「進化版」であり、最大の違いはその規模にあります。 OpenAIは公式ブログで、2つと比較してGPT-2のパラメータは10倍の15億に増加し、データ量も10倍に増加し、800万のウェブページを含む合計40GBのデータセットを使用していると述べた。 しかし、ほとんどの部分では、モデルは GPT と同じです。 言語モデルをトレーニング信号として使用して、大規模なデータセットで教師なし方式で Transformer をトレーニングし、その後、このモデルをより小さな教師ありデータセットで微調整して、特定のタスクを解決できるようにします。 △GPTモデル 上の図の左側には、研究で使用された Transformer アーキテクチャとトレーニング目標が表示されています。適切な部分は特定のタスクに合わせて微調整されています。 すべての構造化入力はトークン シーケンスに変換され、事前トレーニング済みモデルによって処理され、次に線形 + ソフトマックス レイヤーによって処理されます。 GPT-2 の場合、そのトレーニング目標は単純です。つまり、特定のテキスト内の前の単語をすべて考慮して次の単語を予測することです。 トレーニング データ セットの多様性により、非常に単純な目標を持つこのモデルは、さまざまな分野のさまざまな問題を解決する能力を備えています。 諸刃の剣 明らかに、GPT-2 のような強力な一般モデルは大きな社会的影響を及ぼすでしょう。 たとえば、AI ライティング アシスタントやより強力な音声アシスタントの開発、異なる言語間の教師なし翻訳のパフォーマンスの向上、さらにはより優れた音声認識システムの構築にも使用できます。 しかし同時に、ディープフェイクなど、画像合成を使って研究を偽造するなど、悪用される可能性もあります。ディープフェイクは、多くの人を不幸にしてきました。 GPT-2 は、誤解を招くニュースレポートを生成したり、スパムを自動的に生成したり、ソーシャル メディアに偽のコンテンツを投稿したりするために使用できます。 この研究は、画像、音声、ビデオの合成と生成に関するこれまでの研究と組み合わせることで、偽のコンテンツの作成コストを大幅に削減することができます。 将来的には、インターネット上で目にするものが真実か虚偽かを見分けることが難しくなるかもしれません。 これを回避するため、OpenAIは訓練済みのモデルを公開するのではなく、より多くの研究者が実験できるように、より小さなモデルと技術論文を公開すると述べた。 「悪意のあるアプリケーションを防ぎ、完全なモデルを公開しない」というこの決定も、多くの疑問を呼んでいます。 最も強烈な発言は、Nvidia 研究部門の責任者である Anima Anandkumar 氏からのものだった。 彼女はこう言った。「悪意のあるナンセンス。」中国語の「悪意ある人P」という表現にほぼ相当します。 このアニマはかつて、トップカンファレンスであるNIPSに名前の変更を強制し、ヤン・ルカンと正面から対立し、最近では学術カンファレンスに対して貢献者にソースコードの開示を強制するよう呼びかけました。
完全なモデルを公開することを望んでいないOpenAIは、Animaから「道徳的に優位に立つために本末転倒」であり、公開とは反対の立場をとり、恐怖を広め、メディアを誤解させていると非難された。 どう思いますか? あなたの意見に関わらず、この研究に興味がある場合は、まずポータルを保存してください。 モデルコード: https://github.com/openai/gpt-2 技術論文: 言語モデルは教師なしマルチタスク学習者 この研究の著者は、Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei、およびIlya Sutskeverです。 その中で、イリヤ・スツケヴァー氏は OpenAI の主任科学者であり、AlexNet、seq2seq、AlphaGo、TensorFlow など人工知能分野における重要な成果の共同作成者です。 論文アドレス: https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 最後に、AI が書いたユニコーンに関する全文を以下に示します。 (人間が与えた始まり:) 科学者たちは衝撃的な発見をした。アンデス山脈の人里離れた未踏の谷にユニコーンの群れが生息しているのだ。さらに驚くべきことは、これらのユニコーンが流暢な英語を話すことです。 (以下のテキストはAIによって編集されました:) これらの生き物は独特の角を持っているため、科学者はこれを「オウィディウスのユニコーン」と名付けました。 4本の角を持つ銀白色の生物は、これまで科学界では知られていなかった。 約2世紀後の今、この奇妙な現象がどのように発見されたかという謎がついに解明されました。 ラパス大学の進化生物学教授ホルヘ・ペレス氏とその友人数名がアンデス山脈を探検していたとき、他の動物も人間もいない小さな谷を発見した。 ペレスは、谷がかつて噴水があった場所のように見え、側面に銀白色の雪に覆われた二つの岩山があることに気づいた。 その後、ペレス氏とそのチームは渓谷をさらに探検しました。 「山頂の一つに登ったとき、その下の水はとても青く、頂上にはいくつかの結晶がありました」とペレスさんは語った。 ユニコーンの存在を発見したとき、ペレスと彼の友人たちは驚愕した。近づく必要すらありません。上空からこれらの生き物を見ることができます。角に触れそうなくらい近くにいるように見えます。 科学者たちは、これらの奇妙な生き物を調査しているうちに、彼らが普通の英語を話していることを発見した。 「例えば、彼らには方言のような共通の『言語』があることに気づいた」とペレス氏は語った。 ペレス氏は、これらのユニコーンはアルゼンチンで生まれたと信じている。そこでは、動物たちは人間が到着する前にそこに住んでいた絶滅した種族の子孫であると人々は信じています。 これらの生き物の起源は不明ですが、人間の文明が存在する以前に、人間とユニコーンの交配から生まれたと信じている人もいます。 「南米では、これは非常によくあることだ」とペレス氏は語った。 しかしペレス氏は、DNA検査は彼らがその失われた人種の子孫であるかどうかを確認するのに非常に効果的な方法になり得るとも指摘した。 「しかし、彼らは英語でコミュニケーションが取れるようで、これも進化の兆候、あるいは少なくとも社会組織の変化だと私は信じている」と彼は語った。 |
<<: TextRankアルゴリズムを使用した自動テキスト要約
>>: AI研究機関OpenAIがライティングAIを開発:十分にリアルなフェイクニュースを書く
近年、セキュリティ業界のデータ量は飛躍的に増加しており、バックエンド サーバーはますます多くのデータ...
近年、人工知能(AI)の急速な台頭と各産業への応用は、社会経済の生産構造と生産関係に破壊的な影響を及...
たった 5 つの文字でピクセル ペイントを完成させることができます。合計 8 色、最大 256×25...
最近私の声が盗まれたことで、AI がすでに社会に混乱を引き起こす能力を持っていることが私には明らかに...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[313005]]機械学習の実践者として、確率分布について知っておく必要があります。ここでは、主に...
最近、外国メディアは複数の情報筋の話として、トランプ大統領は自動運転技術を承認していないと報じた。ト...
世界大国として、中国と米国は多くの分野、特に科学技術分野で競争している。中国は科学技術分野で比較的目...
最近、世間を騒がせた360 Appランキング操作事件とその背後にある闇産業チェーンの出現により、Ap...
人工知能 (AI) は、チャットボットから自動運転車まで、あらゆるものを説明するために使用できる幅広...