注目の話題 | 3年生が独力でAIモデルを解読

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

驚異的なAI、GPT-2。

今年2月、OpenAIは初めてこのモデルの存在を発表しました。 GPT-2 は、非常に簡単に記事を書くことができ、特別なトレーニングなしでさまざまな特定分野の言語モデリングタスクを処理できます。また、読解、質疑応答、記事の要約の生成、翻訳を行う機能も備えています。

しかし、珍しいことに、このモデルは実際にはオープンソースではありません。 OpenAIの説明によれば、GPT-2は強力すぎるため、完全なモデルを公開する勇気はないとのことです... 外部から嘲笑されたにもかかわらず、GPT-2は今日まで非公開のままです。

今、OpenAI が他者に知られたくない秘密を誰かが単独で解明した。

しかも彼は3年生です。

ミュンヘン工科大学の学生コナー・リーヒさんは、GPT-2プロジェクトを再現するために2か月で200時間と約6,000人民元を費やした。

この事件はツイッター上で大きな注目を集めた。素晴らしいと賞賛する人もいれば、深い議論をする人もいて、OpenAI の上級研究者数名もコミュニケーションに来てくれました。

また、コナー・リーヒ氏が余暇を利用して機械学習に関する知識をすべて独学で学んだことも称賛に値します。彼は自分自身を好奇心旺盛な大学生だと表現している。

「他の人が女の子をナンパするのに費やす時間を、AI実験に使っただけです。」

[[267586]]

激怒して

GPT-2 は OpenAI の最高の研究成果です。

このモデルは GPT の「進化版」であり、最大の違いはその規模にあります。 GPT-2 には 15 億のパラメータがあり、800 万の Web ページを含む 40 GB のデータセットを使用してトレーニングされました。

言語モデルをトレーニング信号として使用して、大規模なデータセットで教師なし方式で Transformer をトレーニングし、その後、このモデルをより小さな教師ありデータセットで微調整して、特定のタスクを解決できるようにします。

GPTモデル

OpenAIの研究者らは、GPT-2はさまざまなドメイン固有のデータセットでの言語モデリングテストで優れたスコアを達成したと述べている。特定のドメインデータで特別にトレーニングされていないモデルであるため、特定のドメイン用に構築されたモデルよりもパフォーマンスが優れています。

GPT-2 は言語モデリングに使用されるだけでなく、微調整なしで質問回答、読解、要約生成、翻訳などのタスクでも優れた結果を達成できます。

GPT-2のリリース後、ディープラーニングの父であるヒントン氏は、Twitter登録以来3度目のコメントを投稿した。「これにより、シリコンバレーのユニコーン企業はより優れた英語を生成できるようになるはずだ。」

このモデルの強力なパフォーマンスについては、QuantumBit による以前のレポートを参照してください。ここでは繰り返しません。

一言で言えば、「強い」という一言です。

OpenAI は、その強さゆえに、完全なモデルをすべての人に公開しないという難しい決断を下しました。最初にリリースされたのは、1億1,700万のパラメータを持つ小型バージョンで、これは10分の1以下のサイズでした。数か月間批判された後、3億4,500万のパラメータを持つ中型バージョンをリリースしました。

GPT-2 がコナー・リーヒ氏の好奇心を刺激したことは間違いないが、同時に、モデルを非公開にするという OpenAI の決定も彼を非常に怒らせた。「情報は無料であるべきだ。」

そこで彼は自分でそれを再現しようと決心した。

彼はただ衝動的に行動しただけではない。 GPT-2 を再現する必要がある理由については、コナー・リーヒ氏が自身のブログで長々と考察しており、AI が作り上げたフェイクニュースを恐れるのではなく、この問題をすべての人に認識させ、勇敢に立ち向かい、解決策を見つけるために積極的な行動を取る方が良いと述べています。

もちろん、別の理由もあると彼は考えています。

とてもかっこいいですね。

GPT-2の複製版

「15 億のパラメータを持つ GPT-2 モデルを正常に複製できたかどうかはどうやってわかるのですか?」

残念ながら、ほとんどの人はこの質問の答えを知りたいと思うでしょう。

コナー・リーヒ氏は、2 つのモデルは同じサイズとパラメータ数であり、同様のデータソースに基づいてトレーニングされ、同様のコンピューティングリソースを使用し、同様の出力品質を備えていると回答しました。

彼はまた、次のように両者の間に明確な違いをいくつか挙げました。

1. ドロップアウトや学習率は公式には公開されていないため、設定が異なる可能性があります。

2. モデルのトレーニングには Adam ではなく Adafactor が使用されました。 Connor Leahy は、16 ビットの精度であっても、15 億のパラメータ + Adam を TPU に詰め込む方法を知りません。

なぜ？待って……

普通の3年生がTPUを使ってこのような研究を行うにはどうすればいいのでしょうか?

ありがとう、Google。

Google には Tensorflow Research Cloud (TFRC) プログラムがあります。このプログラムは研究者を対象としており、1,000 個の Cloud TPU のクラスターを完全に無料で提供します。このプログラムは、集中的なコンピューティングを必要とし、他の手段では達成できないさまざまな研究プロジェクトをサポートするために使用されます。

Connor Leahy 氏が GPT-2 の再現を研究していたとき、コンピューティングリソースのボトルネックが発生しました。彼はそのことを TFRC チームに何気なく伝えたところ、Google から手厚いサポートを受けることになりました。

実際、このプロジェクトを引き受けるまで、Connor Leahy 氏は TPU を使ったことがありませんでした。そこで彼はブログで Google チームへの感謝の気持ちを熱烈に表明しました。

しかし、データセットの作成、コードのテスト、実験の実行に、クラウドで約600〜800ユーロ（約6,000元）を費やしました。

彼が使っていたノートパソコンは古いThinkPadでした。

学生のコナー・リーヒさんも、ノイズキャンセリングヘッドホンに感謝の意を表した。「おかげで静かに過ごせます。」

現在、GPT-2の再現版はGitHubでオープンソース化されており、コードはGPU、TPU、CPU（非推奨）で実行可能です。作者は現在 2 つのバージョンをリリースしています。1 つは 1 億 1,700 万のパラメータを持つ小型バージョンで、もう 1 つは PrettyBig と呼ばれるバージョンです。PrettyBig は公式の中型バージョンよりわずかに大きく、3 億 4,500 万のパラメータを持ち、現在利用可能な最大の GPT-2 モデルでもあります。

15億パラメータの完全版については、7月1日に発売予定とのこと。

この段階で、Connor Leahy は、誰でもダウンロードして試用し、GPT-2 の再現バージョンにどのような改善の余地があるか話し合うよう呼びかけています。これに関するブログ投稿で、彼はこう述べている。「誤りの指摘には100%耳を傾けますので、何か見つかったらご連絡ください。」

著者とポータルについて

Connor Leahy は 2017 年にドイツのミュンヘン工科大学に入学し、現在はコンピューターサイエンスの学部 3 年生です。 LinkedIn では、彼は人工知能に情熱を持っていると述べている。

2018 年 9 月から現在まで、マックスプランク研究所でインターンシップを行っており、Google の TPU を使用して本格的な AI のトピックを研究しています。

最後にポータルを配置します。

Connor Leahy の思慮深いブログ:

https://medium.com/@NPCollapse/gpt2-counting-consciousness-and-the-curious-hacker-323c6639a3a8

GitHub で彼に会ってください:

https://github.com/ConnorJL/GPT2

<<: 復活したジャンルのトップ10を数えると、必ず気に入るジャンルが見つかる

>>: 人工知能から新素材まで、IBMが5つの革新的な技術を発表