ディープラーニングの台頭から10年:OpenAIのイノベーターたち

ディープラーニングの台頭から10年:OpenAIのイノベーターたち

AlexNet、AlphaGo、GPT、CLIP、DALL-E、Codex、これらはAIの世界でセンセーションを巻き起こした傑作です。AI分野の研究者なら誰でも、上記のプロジェクトのいずれかを主導したり参加したりすることは、間違いなく輝かしいキャリアにつながる可能性があります。しかし、これらの大きなドラゴンボールをすべて集めることができる人もいます。

さらに絶望的なのは、この男の功績がこれを超えているということだ。 2012年に博士号を取得してから10年間で、彼の論文は25万回以上引用され、AI学術コミュニティに大きな影響力を与えています。この人物は、OpenAI の共同創設者兼主任科学者である Ilya Sutskever 氏です。

(左から右へ: イリヤ・スツケヴァー、アレックス・クリジェフスキー、ジェフリー・ヒントン)

トロント大学の学部生だった頃、ディープラーニングの三大巨頭の一人であるジェフリー・ヒントンが彼の指導者になりました。当時、この分野はまだ未開拓でしたが、彼の学習の動機は非常に明確で、AIにごくわずかでも意味のある貢献をするというものでした。 Hinton 氏が Sutskever 社で最初に取り組んだ研究プロジェクトは、ランダム近傍埋め込みアルゴリズムを改良することで、Hinton 氏はその優れたパフォーマンスに深く感銘を受けました。

2012年、トロント大学で博士号取得を目指して勉強していたとき、ヒントン氏の指導の下、彼と博士課程の学生アレックス・クリジェフスキー氏はAlexNetを設計し、同年ImageNetコンテストで優勝した。 AlexNet の出現によりディープラーニングが注目され、過去 10 年間で AI は飛躍的に発展しました。

博士号を取得した後、彼はヒントン氏の新しい研究会社 DNNResearch に入社した。2013 年 3 月、わずか 3 人のこの新興企業は Google に買収され、スツケバー氏は Google Brain の研究科学者として勤務した。

この期間中、彼と Google の研究者である Oriol Vinyals 氏および Quoc Le 氏は Seq2seq 学習を提案し、これにより言語タスクにおける RNN の広範な応用の時代が始まりました。大規模機械学習向けの機械学習フレームワーク「TensorFlow」の開発にも参加。さらに重要なことに、彼はディープニューラルネットワークとモンテカルロ木探索に基づいてトレーニングされ、自己学習に強化学習アルゴリズムを使用するDeepMindのAlphaGoの開発にも参加しました。彼はAlphaGoの論文の著者の一人でもあります。

2015 年 7 月、サツケヴァー氏はサム・アルトマン氏 (Y Combinator 元社長)、イーロン・マスク氏、グレッグ・ブロックマン氏 (OpenAI 現 CTO) との夕食会に出席し、全員一致で「エンジニアリング AI ラボ」を設立することを決定しました。同年末、サツケヴァー氏とグレッグ・ブロックマン氏は、汎用人工知能の開発に取り組むOpenAIを共同設立した。イーロン・マスク氏、サム・アルトマン氏、LinkedIn創設者のリード・ホフマン氏から個人投資を受けており、6年間でGPT、CLIP、DALL-E、Codexといった業界に衝撃を与えたAIプロジェクトを開発してきた。

AI の最前線で活躍する探検家として、スツケヴァー氏はキャリアを通じて、あらゆる場面で金脈を掘り当ててきたようだ。

では、AI 開発に対する彼の鋭い洞察力はどこから来るのでしょうか。また、ニューラル ネットワークと AI の将来の開発機会をどのように見ているのでしょうか。 Pieter Abbeel が司会を務める The Robot Brains Podcast では、Ilya Sutskever がトロント大学、Google、OpenAI などでの研究経験について語ります。ディープラーニングの台頭から 10 年が経ち、この AI イノベーター兼リーダーの考え方と分析について学びます。

以下は会話の内容であり、OneFlow コミュニティは元の意味を変えずにこれをまとめています。

1なぜニューラルネットワークを研究しようと思ったのですか?

ピーター・アブ ビール  : 2012 年の AlexNet のブレークスルーによって AI クライマックスの新たなラウンドの到来が始まったと多くの人が信じていますが、あなたもこの瞬間を実現した人の 1 人です。しかし、それ以前には他の人たちがさまざまなコンピューター ビジョンの手法を研究していたのに、なぜコンピューター ビジョンに適用されるニューラル ネットワークを研究していたのですか?

イリヤ・スツケヴェル:  この決定は、過去数年にわたる一連の認識の結果です。  最初の認識は、James Martens が書いた「Hessian-Free によるディープラーニングの最適化」という論文で、教師ありデータからエンドツーエンドでディープ ネットワークをトレーニングできることが初めて実証されたことでした。

しかし、当時は、場合によっては、ディープ ネットワークをトレーニングすることは不可能であると誰もが感じていました。バックプロパゲーションは非常に弱いため、進歩を遂げる前に何らかの事前トレーニングを行う必要があります。さらに、エンドツーエンドでトレーニングできるとしても、ディープネットワークは実際に何ができるのでしょうか?

もちろん、現在、ディープラーニングについて話すとき、ニューラル ネットワークのトレーニングは当然のこととして受け止められています。必要なのは、大規模なニューラル ネットワークとデータを入力し、非常に優れた結果を出力することだけです。

人々が本当に興味を持っているのは機械学習モデルであり、これらのモデルを完璧にトレーニングできるアルゴリズムが存在することを期待しています。しかし、この条件を自分自身に課し、単純でエレガントな数学的証明を見つけようとすると、最終的にはモデルの機能が制限されることになります。

比較すると、ニューラル ネットワークは基本的には小さな並列コンピュータですが、決して小さいわけではありません。ニューラル ネットワークをトレーニングすることは、バックプロパゲーション アルゴリズムを使用してこの並列コンピューターをプログラミングすることと同じです。したがって、ヘッセ行列の最適化の結果を見たときは、並列コンピューターをプログラムできるようになったことを意味していたので、本当に嬉しかったです。誰かがこれらのことを訓練するほどの野心を持っているかもしれないと思うかもしれませんが、明らかに成功することはほぼ不可能であり、局所的最小値は大きな問題です。しかし今では、ニューラル ネットワークをトレーニングすることができます。

2 つ目の認識は、ニューロンが非常に遅いにもかかわらず、人間の視覚は非常に速く、数百ミリ秒という速さで物事を認識できるということです。つまり、優れた視覚効果を実現するために、それほど多くのレイヤーは必要ありません。  かなり大規模なニューラル ネットワークがある場合は、そのパラメーターを調整することで、視覚的なアプリケーションで良好な結果を得ることができます。最初からトレーニングデータセットが利用できると良いでしょう。その後、ImageNetやGPUが登場し、ニューラルネットワークも必然的に登場してくるだろうと考えました。

ある日、Alex Krizhevsky とチャットしていたとき、彼の GPU コードで小さな畳み込みネットワークをトレーニングし、60 秒で非常に優れた結果を出力できると聞き、私は衝撃を受けました。これを画像で実行すればうまくいくと思います。そういうことがあったんですね。

ピーター・アビール:あなたが「ニューラルネットワークは単なるコンピュータプログラムだ」と初めて言ったのを覚えています。それはアンドレイ・カルパシーが言ったことよりもさらに素晴らしいことでした。  ソフトウェア2.0はニューラルネットワークでプログラムされている 数年前。しかし、これはニューラル ネットワークが成功する前から見られました。 ImageNet ではニューラル ネットワークの方が効果的だと気づいたのはいつですか?

イリヤ・スツケヴェル:  私はこれがうまくいくとずっと信じてきました。当時、アレックスはニューラル ネットワークをトレーニングしており、毎週大きな進歩を遂げ、得られる結果はどんどん良くなっていきました。

しかし、私の観点からすると、当時のニューラル ネットワークは十分な大きさではなく、最大のリスクは、GPU を最大限に活用して、他のすべてのニューラル ネットワークを上回るパフォーマンスを発揮する非常に大規模なニューラル ネットワークをトレーニングできるかどうかでした。もちろん、私たちはそれ以上のことを行っています。

コンピュータは高速化し、ニューラル ネットワークは大規模化していますが、目標は当時のハードウェアで可能な限りの成果を上げることであり、そこにリスクが存在します。幸いなことに、Alex は高度に最適化された CUDA カーネルを使用してこのリスクを排除しました。

Pieter Abbeel: 現在では、PyTorch や TensorFlow で直接ニューラル ネットワークをトレーニングできますが、当時はそれを機能させるために専用のツールを自分で構築する必要がありました。興味深いのですが、AlexNet のブレークスルーを誰よりも早く知ったとき、何を考えていましたか?

イリヤ・スツケヴェル:  その時私は二つのことを考えていました。まず、ニューラル ネットワークは人間が短期間で解決できる問題を解決できること、またニューラル ネットワークは適切な数のレイヤーでトレーニングできることを実証できたと考えています。したがって、ニューラルネットワークを広くすることはできると思いますが、深くすることは難しいと思います。どのように深く掘り下げていくかは、解決するまでにまだ多くの思考が必要です。

では、あまり考えなくてもよい興味深い質問を見つけられるでしょうか?私が実際に考えていたのは強化学習であり、言語は人々がすぐに理解できるものである。翻訳も言語の分野で解決しなければならない問題である。

もう 1 つ、AIphaGo システムに関することがあります。畳み込みネットワークの使用は、当時の他の非ニューラル ネットワーク システムにとって非常に優れた直感的なリファレンスとなる可能性があります。

Pieter Abbeel: ニューラル ネットワークは AlphaGo システムの動作をどのように変えるのでしょうか?

イリヤ・スツケヴェル:  ディープラーニングが登場する前は、AI に関わるあらゆる作業には、何らかの検索手順やハードコードされたヒューリスティックが必要でした。このような状況では、本当に経験豊富なエンジニアは、いつ何かを続けるべきか、何かをやめるべきか、あるいはリソースを拡張すべきかについて、多くの時間をかけて慎重に考える必要があります。彼らはすべての時間をヒューリスティックスの探求に費やしています。

しかし、ニューラル ネットワークは直感を形式化したものであり、一種の専門家の直感を提供します。私は、どんなゲームでも、プロのプレイヤーは状況を見て、これをするか、あれをするかという非常に強い直感をすぐに持つことができることを学びました。そして、残りの時間を、これら 2 つの選択肢のどちらを選択するかを考えることに費やしました。

ニューラル ネットワークが人間が短時間で実行できることを信じているなら、ニューラル ネットワークは実際にそれを実行できます。囲碁のようなゲームは大きなソフト問題であり、私たちにはそれを解決する能力があります。

Pieter Abbeel: 囲碁で畳み込みネットワークが使われることを初めて聞いたとき、畳み込みは並進不変性があることで有名だが、囲碁盤では特徴の位置が非常に重要なので「並進不変性」を保証する方法はないだろうというのが私の最初の反応でした。しかし、明らかに、この機能を習得した畳み込みネットワークの成功は、これによって阻止されませんでした。

イリヤ・スツケヴェル:  これもまた並列コンピュータの威力です。畳み込みネットワークが正しい動作をするようにプログラミングすることを想像できますか?信じられないことですが、それは信念の飛躍です。結局、私もAlphaGoの論文に間接的に参加しました。私には Chris Maddison というインターンがいて、私たちは一緒にスーパー畳み込みネットワークを Go に適用したいと考えていました。

同時に、Google は DeepMind を買収し、従業員全員が Google を訪問しました。私たちはDavid Silver氏とAja Huang氏(AlphaGoの主著者)と話をしましたが、これは素晴らしいプロジェクトです。 DeepMind はこのプロジェクトに本当に多くの努力を注ぎ、非常にうまく実行しました。

Pieter Abbeel: AlexNet は、ほとんどの AI 研究者にとってディープラーニング時代の到来を示す新たな出発点であり、AlphaGo の出現によって、AI が多くの不可能を可能にしていることをほとんどの人が認識するようになったかもしれません。世界中のほとんどの国がこれに注目しており、たとえば自然言語処理の分野では、非常に根本的で破壊的な出来事が起こっています。

当時、ニューラル ネットワークは単なる特徴認識だと多くの人が信じていたにもかかわらず、Google 翻訳システム全体がニューラル ネットワークを使用して変革されました。特徴は音声や視覚信号のようなものですが、言語は個別かつ独立しています。これらの連続的な信号から離散的で独立した言語に「ジャンプ」するにはどうすればよいでしょうか?両者の間には大きな違いがあります。

イリヤ・スツケヴェル:  生物学的ニューロンと人工ニューロンの間に大きな違いはないと考えるなら、この変化は非常に自然であることがわかるでしょう。世界最高のプロの翻訳者とは、少なくとも 2 つの言語に非常に堪能で、ある言語から別の言語にほぼ瞬時に翻訳できる人のことです。つまり、この人の頭の中には、このタスクを実行できる比較的少ない層を持つニューラル ネットワークがいくつかあるということです。

コンピューター内に小規模のニューラル ネットワークを用意し、複数の入力と出力を通じてトレーニングすれば、そのようなニューラル ネットワークで確実に問題を解決できるようになります。そのため、世界には2つの言語に極めて堪能な人間が存在することも、ニューラルネットワークがそれを実行できることを証明しています。今では大規模なニューラル ネットワークが存在し、脳の能力もかなり高まっているので、デジタル ニューロンをトレーニングし続け、ノイズを少し減らせばよいと主張することもできるでしょう。

もちろん、ニューラル ネットワークはまだ人間の翻訳のレベルには達していません。しかし、生物学的ニューロンは人工ニューロンと何ら変わらないのだから、ニューラル ネットワークではそれができないのはなぜかと推測できます。もう少しお待ちください。

Pieter Abbeel: あなたと Google の共同研究者は、ニューラル ネットワークを使用した機械翻訳の方法を開発しました。その仕組みを説明していただけますか?

イリヤ・スツケヴェル:  必要なのは、何らかの方法で単語の表現を吸収する大規模なニューラル ネットワークだけです。 AIの分野では「表現」という言葉をよく使います。たとえば、文字「a」や単語「cat」を、コンピューターやニューラル ネットワークにどうやって伝えるのでしょうか?

コンピューターまたはニューラル ネットワークは、単語または文字の間に何らかのマッピングを作成し、ニューラル ネットワークが受け入れ可能な形式を生成します。したがって、辞書を設計し、これらの信号をニューラル ネットワークに入力し、何らかの方法でニューラル ネットワークがこれらの信号を 1 つずつ受信し、翻訳プロセス中にこれらの単語を 1 つずつ出力するようにするだけです。これは、現在非常に人気のある、いわゆる自己回帰モデリングアプローチです。

この方法は、特別だからではなく、より便利だから使用されます。ニューラル ネットワークはすべてを実行します。ニューラル ネットワークは、内部メカニズムの構築方法、各単語の意味を正しく翻訳するためのニューロンの構築方法を知っています。

ニューロンは単語をチャンク化し、変換し、並べ替えて、正しい単語を一つずつ吐き出します。もちろん、これらの単語からの信号を受信するための他のニューラル ネットワークを設計する方法は他にもあり、現在、拡散モデルなどの研究が行われています。おそらく、ニューラル ネットワークは単語を並列に取り込み、いくつかの連続した作業を実行し、それらを並列に出力できるでしょう。

実際のところ、それは問題ではありません。重要なのは、ニューラル ネットワークがターゲットの単語を出力するような方法で、ニューラル ネットワークに単語を提示することです。

2大学生活とメンターのヒントン

Pieter Abbeel: AI 研究者になろうと思ったきっかけは何ですか?

イリヤ・スツケヴェル:  私はロシアで生まれ、イスラエルで育ち、16歳のときにカナダに移住しました。両親によると、私は幼い頃から AI について話し始めたそうです。また、AI について考えていたとき、その分野を「力ずくでチェスをすること」と表現した記事を読んだこともはっきり覚えています。

明らかに、AI はチェスをプレイできるようです。  しかし、AI の真の核心は学習であるべきであり、それが AI がひどい理由でもあります。  なぜなら、それは学習しないが、人間は常に学習しているので、常にすべての学習を行うことができるのでしょうか?

トロント大学に行った後、ディープラーニングを研究していたジェフリー・ヒントン教授に出会いました。もう 1 つの理由は、彼がニューラル ネットワークをトレーニングしていたことです。当時は決定木の方が人気がありましたが、ニューラル ネットワークには明らかな計算上の制限がないため、ニューラル ネットワークの方が有望な方向であるように思われました。

ピーター・アビール: トロント大学に進学した後、ヒントン氏がこの分野で30年か40年研究を続けてきたが進歩が見られず、今後30年か40年研究を続けても成功しないかもしれないと考えたことはありますか?

イリヤ・スツケヴェル:  私の動機は非常に明確で、AIに少しでも意味のある貢献をすることです。学習が常に完全に効果的であるとは思いませんが、私の存在によって AI 研究が少しでも向上するのであれば、それは成功したことになります。

ピーター・アビール:ヒントン氏に初めて会ったときのことを覚えていますか?

イリヤ・スツケヴェル:  私が彼に初めて会ったのは大学3年生の時でした。当時、私の専攻は数学でした。誰もが数学は難しいと考えており、本当に才能のある人だけが数学を学ぶと思っていました。私が機械学習を選んだのは、それが本当に価値のある研究だったからというだけでなく、賢い人たちがみんな数学と物理学を研究していて、それが嬉しかったからです。

ピーター・アビール:ケイド・メッツの本を読んでいたとき、ヒントンがあなたとの出会いについて語っていました。そのとき先生はあなたに論文を渡しました。あなたはそれを読み返した後、理解できなかったと言いました。先生は、それは問題ではない、あなたはまだ学部生だから、何かわからないことがあれば説明できると言いました。そして、手作業が非常に多く、学習プロセス全体を自動化しないのはなぜか理解できないと言います。論文の内容は理解できるが、なぜそのようにしたのかは理解できない。わあ、それは面白いな、とヒントンは思った。その後、彼は別の論文をあなたに渡し、あなたはそれを読んで戻ってきて、なぜ各アプリケーションごとに別々のニューラル ネットワークをトレーニングするのか、なぜ 1 つの巨大なネットワークですべてを実行できないのか、理解できないと言います。一緒にトレーニングするとより効果的でしょう。

これらのことは、私たちが OpenAI にいた頃を思い出させます。皆さんは常に私たちの先を考えて、将来どのように発展していくかを予測していたように感じました。今日振り返ってみると、数年後に物事がどのように発展するかを本当にご存知のようですね。

イリヤ・スツケヴェル:  真実。私がこの分野で働き始めた頃は、AIはまだ認知度が低く、誰も成果を出していなかった。この分野は未開拓で、今後進歩があるかどうかも不透明でした。

私が最初に自分自身に設定した目標は、AI の分野で小さくても有用で有意義な前進を遂げることでした。これはかなり長い間、私の明確な動機でした。この動機がより明確になるまで、道はより険しく険しくなるかもしれませんが、それはまた私たちの闘志に火をつけます。

3 OpenAIとGPTの誕生

Pieter Abbeel: トロント大学で研究者としてのキャリアをスタートさせてから、Google で働き、OpenAI を設立するまで、あなたは適切なタイミングで状況を変え、この分野で最も革新的な研究を行っているようです。これらの変化はどのようにして起こったのですか?

イリヤ・スツケヴェル:   Google にいた頃、私はとても快適であると同時にとても不安を感じていたことを覚えています。そのような気持ちになったのは、2 つの要因があったと思います。1 つは、10 年先を見通すと、物事が少しはっきりしすぎているように感じたため、それが気に入らなかったことです。もう 1 つは、DeepMind が AlphaGo をベースに経験を積んできたのを見て、とても刺激を受けたため、ディープラーニングの分野が成熟し始めている兆候だと思いました。

これまで、AI の進歩はすべて、小規模なプロジェクトに取り組む少数の研究者によって推進されていました。仕事のほとんどはアイデアに基づいており、そのアイデアが機能することを証明するためにエンジニアリングを通じて実行されます。しかし、私は思う、   AlphaGo が他と異なるのは、エンジニアリング設計の重要性を示している点です。

実際、分野は変化し、エンジニアリングに移行し始め、ツールは非常に信頼できるものになります。次の質問は、これらのネットワークを実際にどのようにトレーニングするかということです。デバッグするにはどうすればいいですか?分散トレーニングを設定するにはどうすればいいですか?やるべき仕事は山積みで、山積みになっているものもかなり多いです。

Google の文化は学術界と非常に似ており、斬新な新しいアイデアを生み出すのに非常に役立つと思います。実際、Google は長年にわたり AI 分野で多くの急進的かつ革新的なアイデアを生み出してきましたが、その中で最も顕著なのがここ数年の Transformer です。

しかし、これが AI の進歩のすべてではなく、ほんの一部に過ぎないと思います。   AIを身体と考えると、筋肉、骨、神経系も必要になります。部品のうち 1 つしか持っていない場合でも問題ありませんが、すべての部品が揃うまで全体が実際に進むことはありません。  企業がこれらすべての部品をまとめることができたら本当に素晴らしいと思います。

でも、どうすればいいのか分からないので、ただ考えるだけです。ある日、サム・アルトマンから「クールな人たちと夕食を一緒に食べよう」というメールが届きました。グレッグ・ブルックマン、イーロン・マスクなどが出席し、新しい AI ラボで研究を始めるのがいかに素晴らしいかについて話し合いました。私も同じことを考えていたので、エンジニアリング指向にしたかったのです。イーロンが関与するとなると、大規模なエンジニアリング プロジェクトについて学ぶのに彼より適した人物は思い浮かびません。それがまさに OpenAI が始めたことだと思います。私にとっては、まるで夢が実現したかのようでした。

Pieter Abbeel: OpenAI の初期の頃は、どのように形作ろうと計画していましたか?

イリヤ・スツケヴェル:  最初は、各方面からプレッシャーがあり、すぐにどのように行動を開始すればよいのかよく分かりませんでした。明らかなのは、何らかの大規模なプロジェクトを実行する必要があるということでした。予測がうまくできれば教師あり学習を進歩させることができるという考えには興奮しましたが、それ以上に、どのようにそれを実現するかは不明でした。

当時の状況は、DeepMind が強化学習の分野で非常に刺激的な進歩を遂げていたというものでした。最初、強化学習はニューラルネットワークを訓練して単純なコンピュータゲームをプレイするために使用されましたが、その後、AlphaGo事件が発生し、強化学習で何かできるのではないかと人々は考え始めましたが、以前は不可能な作業のように思われていました。

さまざまなプロジェクトを試した後、最終的に、Dota のような挑戦的なリアルタイム戦略ゲームに挑戦できるかもしれないと判断しました。ここでグレッグが本領を発揮し、不可能に思えたにもかかわらず、彼はプロジェクトを引き受けました。しかし、どういうわけか、彼は最も旧式のディープラーニング手法を使用してそれを機能させ、私たちが試した最も単純なポリシー勾配法が最終的に機能し、規模を拡大してトレーニングを増やすことで改善が止まることはありませんでした。大規模なプロジェクトを実行できることを証明しています。

Pieter Abbeel: 最もシンプルなアプローチが機能するのは驚くべきことです。言語の分野では、OpenAI は GPT モデルも作成しましたが、その機能は非常に驚くべきものです。あなたにとって、これがやるべきことだと確信したのはいつですか?

イリヤ・スツケヴェル:  私の観点から非常に重要なことの 1 つは、教師なし学習に非常に興味があるということです。 Alexnet、AlphaGo、Dota はすべて、特定の方法で入力と予想される出力を提供することでニューラル ネットワークをトレーニングします。現在、このアプローチは非常に直感的であり、少なくとも、教師あり学習と強化学習が実行可能である理由についてかなり強い直感を持つことができます。しかしそれに比べると、少なくとも私にとっては、教師なし学習ははるかに神秘的です。

教師なし学習とは具体的に何でしょうか?理想的な行動がどうあるべきかを教えてくれる「先生」がいなくても、単純な観察を通じて世界について学ぶことができます。問題は、これがどのように機能するのかということです。

一般的な考え方としては、画像を入力し、ニューラル ネットワークに何らかの方法で変換させて同じ画像を生成するといったタスクがあると考えられます。しかし、これがあなたが関心のあるタスクにとって良いことであるという数学的な理由はあるのでしょうか?

私はこれを非常に不満足だと感じており、教師なし学習には単純に適切な数学的基礎がないというのが私の意見であるという事実が本当に気になっています。いろいろ考えた結果、私は次のような結論に達しました。  実際、次のステップをうまく予測できるなら、それは良い上司がいるということだ。

具体的には、次のビットを非常にうまく予測できれば、意味のある情報はすべて抽出され、モデルは何らかの方法でこの情報が信号内に存在することを認識します。モデルは、言語モデルのコンテキストにおけるすべての概念、つまりアイデアの表現を持っているはずです。

これはかなり直感的で、次の単語を適度な精度で予測できます。おそらく、モデルは単語がスペースで区切られた単なる文字列であることを学習するでしょう。予測が上手ければ、そこに語彙があることは分かるかもしれませんが、文法は得意ではありません。予測をさらに改善すると、文法も改善され、突然、文法的に説明できないエラーも発生するようになります。しかし、予測をさらに改善したい場合は、セマンティクスを活用する必要があり、ピクセルの予測にもセマンティクスを活用できると思います。

ですから、ある意味では、これはかなり良い予測をしているのではないかと私は信じ始めています。興味深いのは、今では誰もが教師なし学習が機能することを知っていることです。しかし、つい最近まで、これは非常に難しいことのように思われていました。

GPT が誕生した経緯に戻りましょう。その方向に本当に一歩踏み出したプロジェクトは、GPT の物語の重要人物である Alec Radford が主導したもので、Amazon 製品レビューの次の単語を予測するためにニューラル ネットワークと LSTM をトレーニングしました。

この LSTM には感情に対応するニューロンがあることがわかりました。つまり、読んだレビューが肯定的なものであれば感情ニューロンが活性化し、否定的なものであれば感情ニューロンは低下します。これは非常に興味深いことであり、私たちの仮説を裏付けています。

その後、Transformer ニューラル ネットワーク アーキテクチャが登場し、大変嬉しく思いました。私たちは長期的な依存関係が非常に重要であると考えており、Transformer は長期的な依存関係に対して非常にクリーンでエレガント、かつ計算効率の高い答えを提供します。

しかし、技術的には、これらのニューラル ネットワークはいくつかの点で深いものであると説明しましたが、最近まで、ディープ ニューラル ネットワークをトレーニングするのは非常に困難でした。

これまで、ニューラル ネットワークはモデルや言語シーケンスのトレーニングに使用されていました。シーケンスが長くなるほど、ネットワークが深くなり、トレーニングが難しくなりました。しかし、Transformer はシーケンスの長さから深さを切り離すため、非常に長いシーケンスでも扱いやすい深さの Transformer を実現できます。これは素晴らしいことです。これが直接的に GPT-1 のリリースにつながり、その後パラメータスケールを拡大し続け、GPT-2 と GPT-3 を取得しました。

Pieter Abbeel: GPT-3 が発表されたとき、コミュニティ全体が非常に興奮しました。少しだけテキストを追加するだけで、希望どおりの動作をさせることができ、基本的なコードも記述できます。大まかにどのような仕組みですか?

イリヤ・スツケヴェル:  ニューラル ネットワークとテキストを用意し、単語が何であるかを確率的に推測する、根拠のある予測を出力させるだけです。ニューラル システムによって出力された確率に基づいて単語を選択し、それをニューロンに送信して、「ニューロン」に次の単語を何度も予測させることができます。十分に優れた予測があれば、夢に描いたものがすべて実現します。

Pieter Abbeel: 印象的なのは、GPT が非常に実用的な大きな研究上の進歩であるということです。 GPT が機能し始めてから、あなたや他の誰かが関連するアプリケーションについて考え始めましたか?

イリヤ・スツケヴェル:  私たちは、GPT-3 の潜在的な用途に非常に興奮しており、人々が独自の言語アプリケーションを構築できるように、GPT-3 を中心とした API 製品を構築しました。何が起こっているのかを別の角度から見ると、AI はますます多くの機能を獲得し続けているということです。

研究の進歩が本物かどうかを判断するのは難しい場合があります。クールなデモがあるとします。特に、そのデモがトレーニング データとどの程度似ているかわからない場合は、アプリがどの程度改善されたかを把握するのは難しいかもしれません。この分野は、進歩の唯一の尺度としてデモやベンチマークに頼る必要がないほど成熟しています。しかし、製品の有用性こそが進歩を測る最も真の尺度です。

4 AIが生産性に与える影響

Pieter Abbeel: これらのツールは人間の生産性向上にどのように役立つと思いますか?

イリヤ・スツケヴェル:  短期的には生産性は徐々に向上するでしょう。時間が経ち、AI システムの能力が向上するにつれて、生産性も大幅に向上します。長期的には、AI システムによってすべての作業が AI によって行われるようになり、生産性が大幅に向上すると確信しています。

Pieter Abbeel: 人々はさまざまな方法でそれについて考えますが、その文脈では、AI に多くの生産性を与える場合、AI は常に正しいことを行う方がよいでしょう。 AI は、人々が望むことを台無しにしたり誤解したりすることはありません。このプロジェクトは強化学習と GPT を組み合わせたものなので、とても興味があります。

イリヤ・スツケヴェル:  控えめに言っても、私たちが持っているこれらの AI システムはますます強力になっています。彼らの力は非常に大規模なデータセットでトレーニングすることで生まれ、私たちは彼らが何をするのかを直感的に理解しています。

私たちは大規模な言語モデルを持ち、プロンプトを通じてそれらを制御する能力を持っています。実際、言語モデルが優れているほど、制御能力が強くなり、プロンプト情報を通じて制御しやすくなります。しかし、私たちはモデルがまさに私たちが望むこと、または可能な限りそれに近いことを実行してくれることを望んでいます。

先ほど、これらの言語モデルをトレーニングするために、人間からのフィードバックによる強化学習を使用するとおっしゃいました。強化学習はシミュレーターに対してではなく、出力が理想的かどうかを判断する人間の審査員に対して行われます。この強化学習環境は本当にエキサイティングですが、まだ優れた環境がないため、強化学習は少し遅いかもしれないと主張することもできます。

強化学習では、通常、良い結果と悪い結果の両方が提供されます。しかし、人間のフィードバックを使用する強化学習方法では、「教師」がモデルの 2 つの出力を観察し、どちらが優れているかを判断する必要があります。

2 つのもののどちらが相対的に優れているかを比較することは、1 つのものが絶対的に良いか悪いかを判断するよりも簡単な作業です。次に、少し機械学習を行って報酬モデルから報酬を作成し、このモデルを使用してニューラル ネットワークをトレーニングします。これは非常にシンプルで強力なもので、言語モデルとニューラル ネットワークの動作を非常に細かく制御できるようになります。

最近、私たちは指示に従うモデルをトレーニングしています。実際、GPT3 のオープン API を通じてこれを使用できます。

したがって、ある種のカーネルを設計し、モデルに期待どおりに動作させるためのヒントの指定方法については非常に賢明に考える必要があり、また、命令トレース モデルが実際に指示どおりに動作するようにトレーニングされる例を提供する必要があります。機械学習分野の一部のサブセットでは知られているが、すべてのサブセットでは知られていない単語があります。

しかし、さらに進んで、さまざまな方法で「教師」を学習し、機械学習を使用し、教師ありの例や報酬を提供するだけでなく、概念を理解するために必要な情報を得るために適切な質問をする会話をしたいと考えています。

これが今後の発展の傾向です。このアプローチは現在、GPT モデルを自然界よりも整合したものにするために効果的に使用されています。

Pieter Abbeel: アライメントとは、特定の要件に合わせてパーソナライズされた方法で調整できることだと理解しています。私の好みに従うように教えることができるのと同じです。

イリヤ・スツケヴェル:  これは間違いなく可能です。私が言及した命令トレース モデルは単一のモデルです。それは調整され、訓練され、あなたが与えた指示に従うように動機づけられています。これは、これらのニューラルネットワークを採用し、あなたが望むことを何でもし、どんな方法でもトレーニングさせるための非常に便利なインターフェイスです。また、あらゆる方法でパーソナライズすることもできます。ユーザーは、段落で過去のアクションの一部を指定または使用できます。ほとんどすべてが可能です。

Pieter Abbeel:Openaiのあなたとあなたの協力者は最近リリースされたClipとDall-Eをリリースしました。これらは同じモデルでビジョンと言語を処理し、必要に応じて2つを効率的に切り替えることができます。どうやってやったんですか?

Ilya Sutskever:  根底にある動機は、将来のニューラルネットワークがビジョンと言語の両方を同時に処理しないことは信じられないように思えるということだと思います。  少なくとも私の意見では、ニューラルネットワークを非常に大きくし、適切なデータセットを持っている場合、多くの証拠があります。彼らが言語を生成できるなら、なぜ画像の言語ではないのですか?おそらく、これを探求、画像とテキストの両方でニューラルネットワークをトレーニングし、Dall-Eをコンテキストとして使用する必要があります。

Dall-Eは、実際には、画像のテキスト表現のようにテキストで訓練されたGPT3であるため、これらのトークンを使用して画像を表現します。モデルの観点からは、英語とフランス語のテキストでGPTを訓練できるのと同じように、それは単なる派手な言語です。

それは問題ではありません。別の言語、人間の言語、画像の言語があれば、Dall-Eはあなたがそれを期待する方法で正確に働き、神経系が画像を生成するのを見るのはまだ興味深いものでした。クリップは、反対方向の探索です。

Pieter Abbeel:Imagenetよりもクリップデータセットはどれくらい大きいですか?

Ilya Sutskever:  何百倍も大きく、フリーフォームのテキストであるオープンエンドのカテゴリがありますが、少し大きくなります。多様なデータが必要です。データセットが狭いソースから来る場合、ニューラルネットワークに害を及ぼします。

5。より強力なニューラルネットワークを持っています

Piter Abbeel:Alexnetのブレークスルーから過去10年間を振り返ると、毎年新しいブレークスルーがあったようです。先を見たいとき、それが今後数年間で起こるかもしれないことについてあなたが特に興奮していることはありますか?

Ilya Sutskever:  ある意味では、深い学習のサガは過去10年よりも長いです。 60年代のRosenblattからの紹介のいくつかを読むのは興味深いことです。彼は、実際のコンピューターで興味深いことを学ぶことができる最初のニューラルネットワークの1つであるPerceptronを発明しました。

Rosenblattはかつて、いつかニューラルネットワークがあなたの友達になり、翻訳し、翻訳し、翻訳すると言っていました。大規模で大規模なコンピューターを構築するために資金を調達しようとする彼の試み​​は、一部の学者からも批判を集め、ニューラルネットワークの開発における最初の低い点につながりました。

これらのアイデアはまだ考えられていると思いますが、環境はまだ準備ができていません。  必要なデータと計算の準備ができたら、進歩を遂げる機会をつかむことができます。  私は進歩が続くと信じており、より強力なニューラルネットワークがあります。  何が起こったのかについてあまり具体的になりたくありません。

これらのことは予測するのが難しいですが、良いことは、私たちの神経系がより信頼性が高く、あなたがそれらの出力を信頼できることです。彼らが知らない何かに遭遇したとき、彼らはあなたに伝え、検証を求めるかもしれません。私はそれが非常に衝撃的であり、彼らは今よりも多くの行動をとるだろうと思います。

私たちのニューラルネットワークは依然として不活性で受動的であり、その有用性は増加し続けると思います。  たとえ私たちが今よりも物事を見る方法を伴うかもしれないとしても、私たちはいくつかの新しいアイデアが必要だと確信しています。しかし、深い学習の大きな進歩の多くはこの形でもたらされています。

たとえば、監視された学習の最新の進歩は、より大きな言語モデルをトレーニングしたばかりですが、過去に存在していましたが、言語モデルの方向が常に正しいことを認識しています。私たちの目の前のことは、実際には予想していたよりも強く、これらのシステムの能力が改善し続け、世界でますます影響力があると予想しています。私たちは信じられないほど革新的な製品を見るでしょう、そしてあなたは多くの人々が非常に強力なAIを持っていると想像することができます。最終的に、人々はAIの仕事を楽しむ世界に入ります。

Pieter Abbeel:それは本当に美しいです、あなたのモデルはAIの利点が無限になる可能性があるという意味でのビジョンを反映しています。他の人が小さなグループの人々に無制限の利益を集中させることは良くありません。多くの人々は、AIのコストがますます高くなる可能性があると議論しています。モデルが多いほど、モデルが大きいほど、パフォーマンスが向上するのか、それとも将来が異なるのだろうか?

Ilya Sutskever:  モデル効率を改善するための努力の半分で結果を2倍に達成する方法を見つけることは非常に強力であり、この分野のすべての人に影響を与えます。将来的には、ハードウェアコストが低下し、関連する方法がより効率的になり、コストのごく一部でさらに行うことができると予想しています。同時に、モデルがより大きく大きくなる方が良いと思います。それが現実です。

さまざまなモデルがさまざまなことを行うためのルールが必要です。特定のタスクには非常に強力なモデルがいくつかあり、より小規模でより専門的なモデルは依然として非常に便利です。また、各レベルで計算を使用する最良の方法がいくつかあることを願っています。人々はこのアプローチを見つけて、非常に興味深いアプリケーションを作成します。

Pieter Abbeel:過去10年またはそれ以前に、AIの分野で多くの研究のブレークスルーを行いました。強い創造性と生産性を持つのを助けるために、どのような習慣や特性が必要ですか?

Ilya Sutskever:  一般的なアドバイスをすることは困難です。しかし、これらの2つの答えは、時間と労力を節約するのに役立つかもしれません。あなたは困難に直面しなければなりません、そして、これらの困難を解決した後、あなたはあなたが望むものを手に入れます。

ピーターアブビール:時間を節約するのは何ですか?

Ilya Sutskever:  私は多くの独立した仕事をしており、一部の人々と非常に重要かつ詳細な研究会話をしています。これは私が主にしていることです。

ピーターアブビール:あなたもアーティストであることを学びましたが、これはあなたの創造性を向上させるのに役立ちますか?

Ilya Sutskever:  言うのは難しいですが、私はそれが役立つと思います。

(この記事では、編集承認を取得しました。出典:https://www.youtube.com/watch?v=fcoavggz64y&t=699S)

<<:  次回の組み込み設計に人工知能を使用する4つの理由

>>:  テスラAIディレクター:33年前にルカンのニューラルネットワークを再現したが、今とあまり変わらない

ブログ    

推薦する

...

プロジェクトを始めたいけれど、どこから始めればいいのか分からないですか?興味深いオープンソースの機械学習プロジェクト7つを試してみる

プロジェクトを実行することが機械学習を学ぶ唯一の方法であり、興味深く価値のあるプロジェクトを見つける...

...

なぜ機械学習モデルの90%が実稼働に至らないのか

会社は厳しい時期を迎えている。私はパンデミックや株式市場の変動について話しているのではない。時代は不...

AIと機械学習でデータセンターを強化

AIと機械学習はデータセンターをよりスマートにする上でますます重要な役割を果たしている今日の企業では...

ロボティック プロセス オートメーションの導入を成功させるための 8 つのヒント

RPA は、企業が導入できる、リスクが低く価値の高い自動化アプローチの 1 つです。 RPA ツール...

...

Safetensors は、高速、効率的、安全、使いやすい新しいディープラーニングツールです。

Safetensor とは何ですか? 【セーフテンソル】:https://huggingface....

...

...

...

テスラがテスラAIのTwitterアカウントを開設、Dojoスーパーコンピューターの生産を来月開始すると発表

テスラは6月22日、@Tesla AIというTwitterアカウントを作成し、「テスラは自律型ロボッ...

SafetyNet: 自動運転における機械学習戦略のための安全な計画アプローチ

[[427712]] 2021年9月28日にarXivにアップロードされた論文「SafetyNet:...

パンデミック後、AI教育はどのように存在していくのでしょうか?

現在の教育における人工知能の応用は、依然として「弱い人工知能」になりがちですが、教育の効率性を向上さ...