毛沢東選集と魯迅全集をAIに与えたところ、AIが書いた大学入試のエッセイは非常に適切だった。

[[407658]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

大学入試が始まって間もなく、AIが「問題を起こす」ようになった。

つい最近、ある AI が『毛沢東選集』と『魯迅全集』を読み終え、一筆で大学入試用の小論文をいくつか書き上げた。

結果は…果たして大丈夫なのか？

記事を直接見てみましょう:

行間から伝わる若々しさと活力を見れば、AI が書いたとは思えません!

彼は時事問題にも精通しており、「国家再興」などのホットな言葉を難なく使いこなす。

聖書を引用することは問題ありません。

「実践こそが真実を検証する唯一の基準である」という一文によって、この記事はすぐに壮大なものに聞こえた。

一見すると、記事全体が得点源でいっぱいです。

疑問に思わざるを得ない。AI はついにエッセイを書くのが上手になったのだろうか？

傍観者も非常に興味を持っています。このような記事は、何ポイント獲得できるのでしょうか?

この場合、私たちが試験官になって、この AI が何点取れるか試してみませんか。

試験のエッセイに「テンプレート」を使用するための強力なツール

AIが最初に直面したのは、2021年の全国Aレベル試験の問題であり、「何ができるか、何が行われたか」をテーマにしています。具体的な質問は次のとおりです。

AIのパフォーマンスは最初から印象的で、「若者代表が語る」というテーマには「すごい」という声が上がった。

タイトルに「若さ」という言葉は出てこないのに、AIはそういう入り口を見つけられるんですね。面白いと思いませんか？

しかも冒頭のタイトルの内容をそのままコピーしているので、非常に巧妙です。これを「話題を突く」といいます。

エッセイを書くのに必須のツールである並列表現も簡単に使用できます。

3 つの並行した段落によって、段階的に感情が構築され、単語数も増えていきます。

さらに、著者の@Ｔ灵的猫は、このような並列文構造は二次的な調整なしにAIによって直接生成されたと紹介しました。

これは、AI がトレーニングの過程でこの文法構造を「記憶」し、それを使用したためと考えられます。

大学入試小論文のハイライトでもある結末をもう一度見てみましょう。

AI は依然として私たちのルーチンに精通しており、それを高め昇華させ、採点者が低い点数をつけることを恥ずかしくさせます (実際はそうではありません)。

では、AIは本当に満足のいく試験エッセイを書くことができるのでしょうか?

次の 2 つの質問に対するパフォーマンスがやや不十分だったため、まだ何かを言うのは時期尚早です。

まず文句を言いたいのは、エッセイを書くたびに、必ずタイトルをコピーして冒頭部分を作ってしまうことです。

第二に、金言やマルクス主義の理論、李白の詩を非常にうまく使っているが、記事の論理的処理はまだあまり良くない。

たとえば、「私が一生生きているかどうか」という文章は、明らかに中国の論理に基づいていません。

つまり、人間の言語を話さないことを意味します。

さらに、その記事が書く内容は常に、素晴らしい文章とナンセンスの間を行き来しています。

次の段落のように、各文を個別に読むと問題ありませんが、段落として接続すると、少し意味不明に感じられるのはなぜでしょうか。

また、「魯迅全集」を読んだせいか分かりませんが、AIは今の時代について少し混乱しているようです。

この段落の「30年が経過した」という表現も、時間の概念としてはややわかりにくいです。

一部のネットユーザーは自分たちの気持ちを次のようにまとめた。

魯迅のテーマに挑戦

楽しみながら見るという原則に沿って、大きなことにこだわるのではなく、既存の事例を見るだけでは不十分で、もちろん実際に試してみて、それがどれほど優れているかを確認する必要があります。

このAIは『魯迅全集』を読んでいるので、魯迅の名言をもとに記事を書いてもらいます。

私は中国の若者全員が冷たさを捨て、ただ前進し、自分自身を諦める人々の言葉に耳を傾けないことを望みます。何かができる人はそれをするべきであり、発言できる人は発言すべきである。

この文章は誰もが知っているはずです。このテーマについて AI にエッセイを書かせたらどうなるでしょうか?

いつもどおり、最初の段落ではタイトルをコピーしているので、2 番目の段落に直接進みましょう。

AIは若者が自信を持つべきだというテーマを直接提起しました。『魯迅全集』を読んだことは無駄ではなかったようで、テーマに対する理解は依然として非常に良好です。

その後の内容では、質問に対してより率直な説明がなされ、若者たちに努力を勧めていました。闘争！

私はただ「悪口を言うのをやめなさい」と叫んだだけです...

続いては定型的な操作です。厳しい寒さの中から梅の香りが漂い、金文は感動に満ちています。

記事の最後で、著者は現実の生活に戻り、若者たちに、より良い未来を手にするために現在に集中するよう呼びかけています。

同時に、科学技術革新や大国の台頭といった重要ポイントも盛り込まれました。

このことから、AI がエッセイを書くときにトピックを制御するのは非常に簡単であることがわかります。

実際の大学入試のエッセイのテーマの多くは質問とそれに続く回答であることを考慮して、AIに質問を与えた場合に何が起こるかを見てみることにもしました。

文学をどのように改善すべきでしょうか?そんな提案の後、AIは当然ながら決まり文句を言った。

この最初の段落は非常に哲学的に思えますが、本質的には単なる繰り返しの話です。

このような問題は、生成された他の記事でも非常によく見られ、タイプミスや文法上の誤りなどの小さな欠陥も発生する可能性があります。

同時に、奇妙な質問には耐えられないようだということも分かりました...

AIにネット上で広まっている奇妙なエッセイのテーマを与えると、AIは意識の流れに沿ったエッセイを直接書きました。

これは最初の段落に過ぎません。次の内容には赤い風船、弾丸、ドラゴンの歯、警察など、完全に混乱を招く内容も含まれています。

奇妙な質問があるだけでなく、「古代の人々 」に関する質問になると、AI は奇妙な古典中国語の文章を 1 つまたは 2 つ思いつきます。

案の定、現代的なテーマの大学入試エッセイの方が AI に向いています。

ネットユーザーの素晴らしい要約: これは単なるひどい記事ジェネレーターです。

5つのモジュール、ワンストップの読み取りと回答

上記の記事は、時折「通常レベルを上回る」ものの、平均的には合格に苦労しており、本質的にはマルチモジュール異種ディープニューラルネットワークであるEssayKillerと呼ばれる AI ライティングフレームワークから作成されています。

モデル作者@Ｔ灵的猫によると、このAI生成記事が少し「誇張」されている理由は、使用されているモデルが最先端のものではないためだそうです。

資金不足のため、より優れたモデルがオープンソース化されていないため、テキスト生成にはGPT-2しか使用できません。GPT-3とHuawei Panguが使用できれば、効果は間違いなく今よりも良くなるでしょう。

EssayKiller は OpenCV をベースに開発されており、 17 億個のパラメータを持っていることが分かっています。

構造的には、この AI フレームワークは主に、入力、認識ネットワーク、言語ネットワーク、スコアリングネットワーク、出力の 5 つの部分で構成されます。

これは、通常の「 5ステップのエッセイライティング」に相当します。つまり、テスト用紙を入手し、質問を見て、下書きを作成し、間違いをチェックし、解答用紙を書きます。

その中で、質問を読む、下書きをする、間違いをチェックするといったモジュールは、それぞれ独自の機能を持っており、別個のトレーニング用に取り出されます。

EssayKiller は、質問の読み取り部分で、まず OpenCV の EAST テキスト検出器を使用します。これは、任意の方向とサイズの 720p 画像テキストを 1 秒あたり 13 フレームの速度でスキャンし、その中のテキストを検出できます。

次に、OCR モデルの CRNN を使用してこれらの文字を認識します。

たとえば、上の画像のテキストを、モデルに直接入力できるテキスト情報に変換します。「3 書き込み 70 ポイント...」

草稿部分に関しては、読解とテキスト関連付けの2つの部分に分かれており、それぞれBERTとGPT-2によって完了されます。

BERT は受信した文情報を分割して分解し、キーワードを抽出し、これらの「テキストに出現する必要がある」キーワードを GPT-2 に渡します。

GPT-2 は、重要な情報を受け取った後、要件に応じて「大騒ぎ」を開始できます。すべての文はキーワードと密接に関連しており、常に「要点を押さえて」います。

しかし、GPT-2 によって生成された記事は、大学入試エッセイの基準を満たしていません。

これらの文章を滑らかで首尾一貫したものにするためには、まったく意味をなさない文章をフィルタリングし、文章内のスペルミス、機械翻訳、その他の問題をチェックする必要があります。

これはエラーチェックの部分です。EssayKiller は Baidu モデル DNN の API を直接呼び出します。主な原理は、文中の単語を分析し、正しい位置にあるかどうかを判断することです。

これら 3 つの重要な手順を完了すると、解答用紙を正式にフォーマットし、手書きロボットを使用して出力できます (関連モデルもオープンソースです)。

見た目も良く、ネットユーザーの中には、これを使って短いエッセイを書くのを待ちきれない人もいる。

停止！

@Ｔ灵的猫によると、誰にも EssayKiller を使って宿題を書いてほしくないので、関連するパラメータ設定はオープンソースではなく、colab 呼び出しの数も厳しく制限されているとのことです。

違反が発生した場合、オープンソースプロジェクト全体がシャットダウンされ、Colab オンラインエクスペリエンスを使用できなくなります。

消化はどうですか？

@Turing's Cat は、AI モデルがこの品質のエッセイを書くためには、「言語生成モジュール」のトレーニングセットにおける毛沢東選集や魯迅全集などの作品の割合が10% を超える必要があると述べました。

モデルのその他のトレーニングデータは、主にオープンソースの中国語散文データセット、大学入試エッセイデータセットなどから取得されます。

では、トレーニングされたモデルの効果は期待どおりでしょうか?

多くのネットユーザーは、AIが「一部を読み取った」と感じたと述べた。

作者の @Turing's Cat にとって、生成された作曲の品質は確かに「予想以上」でした。

しかし、これは AI がすでに 100% まともな大学入試エッセイを書けるようになったことを意味するものではありません。

結局、最終的に提示された数少ない大学入試エッセイはすべて言語モデルによって生成され、その後機械で採点され、手動で審査されてから読者に提示されたのです。

作文で紹介されている平行法などの高度な修辞技法は、トレーニングコーパスにそのような修辞技法が含まれていることを意味するだけであり、AI モデルは学習プロセス中にそれらを「記憶」しますが、これらの技法が学習されたことを意味するわけではありません。

つまり、この AI モデルの効果は確かに予想を超えていますが、それがコーパスを本当に「消化」したことを意味するわけではありません。

それで、この AI モデルは次に何を試すのでしょうか?

@Turing's Cat は、次のステップは「サイエンスフィクション」だと言いました。

時間があれば、劉慈欣、アシモフ、アーサー・クラークなどのSF作家の作品をトレーニングセットに追加し、AIモデルにSF小説を書かせてみます。

そうですね、AI ライティングはサイバーパンクな雰囲気を持ち始めています。

毛沢東と魯迅の選集のオープンソース AI モデルを鑑賞しましょう。
https://github.com/EssayKillerBrain/EssayKiller_V2

Colab バージョンオンラインジェネレーター:
https://colab.research.google.com/github/EssayKillerBrain/EssayKiller_V2/blob/master/colab_online.ipynb

参考動画（許可済み）:
https://www.bilibili.com/video/BV1aw411f7G9

<<: AIが別のAIに命令する、GAN+CLIPの組み合わせで「CGアーティスト」に

>>: 【アルゴリズム】アルゴリズムを理解する（I）—アルゴリズムの時間計算量と空間計算量

毛沢東選集と魯迅全集をAIに与えたところ、AIが書いた大学入試のエッセイは非常に適切だった。

試験のエッセイに「テンプレート」を使用するための強力なツール

魯迅のテーマに挑戦

5つのモジュール、ワンストップの読み取りと回答

消化はどうですか？

百人一首の戦いはかつてないレベルに到達！

アマゾンは40億ドルを投資し、グーグルや他の企業もさらに20億ドルを投資する予定で、アントロピックの評価額は急上昇中

脚本を書いて、AIが動画を自動編集：編集者の7時間かけて作成した動画を13分で完成

顔認識アルゴリズムはどのように機能するのでしょうか?

機械学習エンジニアになる方法

Nature: MITの研究者が量子処理と量子通信を組み合わせた巨大原子を作製

まず知性を高め、次に利益を増やす、ヒューイスがトップ商人の「育成」の秘密を明らかにした

機械学習を使用してデータセンターの電力を管理するにはどうすればよいでしょうか?

推薦する

素晴らしい瞬間を振り返りましょう！ IEEE Spectrumが2023年の最もホットなAIストーリーをレビュー

データマイニングにおけるトップ10の古典的なアルゴリズム

著作権侵害、盗作、人工知能技術はこれらすべてをどのように判断するのでしょうか?

Google のアルゴリズムが明らかに: 検索リクエストは平均 2,400 キロメートル往復移動します

FlashAttention v2 は標準の Attention より 5 ～ 9 倍高速です。大規模なモデルで使用されます。

あなたの将来の子供はどんな風になるでしょうか？このAIミニプログラムは海外のDouyinアプリで大人気となり、数え切れないほどのネットユーザーが感動して涙しました！

速報です！ OpenAIがByteDanceアカウントを禁止！コンテンツ生成のための GPT の不正使用に関する内部告発

ロンドンの顔認識で誤った人物が逮捕される：合理的な使用が鍵

IoTとAIが出会うとき: テクノロジーの未来

Googleのエンジニアリングディレクターがアルゴリズム改善の背後にある数字を明らかに

コストを70%削減する秘訣: これらの企業はAIをコスト効率よく活用する方法を見つけました

2024年までにAIがすべての仕事をどう変えるのか

AI人材の競争は軍拡競争となっている。AIの創造性競争に賭けるAI大手の中で、勝利のポイントを獲得するのはどれだろうか？

デジタル変革と人工知能