2021年に理解すべき5つのAIコンセプト

人間の知能は、生物学を模倣することで模倣されるべきでしょうか? それとも、鳥類の生物学が航空宇宙工学に無関係であるのと同じように、人間の精神病質は AI とは無関係なのでしょうか?

これは、この概念が考案されて以来、人々が考えてきたことです。私たちはインテリジェントなシステムを構築したいと考えていますが、人間はおそらく唯一の真に知的な種族です。私たちにインスピレーションを求めるのは理にかなっているのではないでしょうか。しかし、AI の構成要素は生物学的構成要素とは大きく異なるため、人間のことは忘れて、研究が導く道をたどるべきではないでしょうか。

[[416058]]

AIの将来がどうなるかは誰にも分かりません。私たちが知っていることといえば、ディープラーニングが人間の認知能力にどんどん近づいているということです。人間は知能に関してはそれほど特別ではないかもしれませんが、進化によって人間には AI システムを作成するときに考慮したほうがよい独自の機能がいくつか与えられています。私たちは何千年もの間この環境の中で進化し、不変の自然法則にゆっくりと適応してきました。研磨メカニズムをシミュレートしてこのプロセスをバイパスしてみませんか?

この記事では、現在 AI 研究の最前線にある 5 つの例について説明します。それぞれは、少なくとも大まかに、人間の認知機能の何らかの側面に基づいています。これらの概念は今後数年間の中心となるので、注目していきましょう。

トランスフォーマー - 人間の注意メカニズム

再帰ベースのアーキテクチャが自然言語処理 (NLP) を支配していたのは、それほど昔のことではありません。翻訳、音声テキスト化、生成タスクなどの NLP 問題に直面している場合は、Gated Recurrent Unit (GRU) または Long Short-Term Memory (LSTM) のいずれかを使用しています。どちらのアーキテクチャも、順次入力データを処理するように設計されています。たとえば、システムは英語の文章を取得し、スペイン語の翻訳における連続する各単語を処理できます。

これらのモデルの主な欠点の 1 つは、勾配消失問題です。情報は順番に処理されるため、システムが最初のフランス語の単語を出力する頃には、最初の英語の単語だけが記憶されています。この欠点を解決するために、研究者は2014年に注目メカニズムを導入しました。認知的注意を模倣することで、ニューラルネットワークはコンテキストの影響を評価することができます。情報の損失はもうありません。

2017年、GoogleのAIチームは最新の注意メカニズムを公開しました。彼はこう言った。「注意メカニズムは言語課題を解決するのに十分強力です。」再度発生する必要はなく、順番に処理する必要もありません。彼らは有名なトランスフォーマーアーキテクチャを発明しました。 Transformer は風景におけるディープラーニングの方法に影響を与え、2012 年に Hunting 氏のチームはコンピュータービジョン (CV) の Imageenet チャレンジで優勝しました。

Transformer は、文中のすべての単語 (トークン) を並行して処理し、それらの間の文脈上の関係を学習することによって機能します。 LSTM と比較すると、Transformer はデータを順番に処理しません。トレーニング時間が大幅に短縮されます。 Transformer は現在、あらゆる NLP タスクの転送アーキテクチャです。 CV 科学者たちも、画像やビデオの問題にトランスフォーマーを適用し始めています。畳み込みも生き残ります。

2017年から2021年にかけて、研究者たちはさまざまな欠点を解決し、パフォーマンスを向上させることを目指して、Transformerをさらに開発しました。 Transformer-XL はより大きく、システムはより大きなコンテキストで依存関係を学習できるようになります。オリジナルの Transformer アーキテクチャに基づいて構築された GPT-3 は、コンテキストウィンドウを確認できないため、記憶することができません。改革者たちは、研修費用の法外なコストの問題に対処した。最先端のパフォーマンスを実現しながら、効率を向上し、トレーニング時間を短縮します。

近年の Transformer の最も注目すべきアプリケーションには、Google の BERT、OpenAI の GPT ファミリー (その中で GPT-3 は誰もが認めるスター)、または史上最大のニューラルネットワークとしての記録を持つ WuTao 2.0 などのマルチタスク AI があります。 Transformer は、新世代のチャットボットである Meena、Blenderbot 2.0、Lamda のコアアルゴリズムでもあります。生物学の世界にもその足場が築かれています。数日前、DeepMind は AlphaFold 2 のコードとデータベースをリリースしたと発表しました。これは、タンパク質の折り畳みの仕組みをより深く理解するのに役立つ可能性のあるモデルです。

自己教師あり学習 - 人間の学習

2012 年以降、教師ありディープラーニングシステムが AI 業界を席巻してきました。これらのシステムは、ラベル付けされたデータから学習して、新しいインスタンスを学習したクラスに分類します。学習を容易にするために、多数のリソースを分類トレーニング例に分類します。しかし、これらのパターンマッチングシステムは、私たちが知っていること以外何も学習していません。

強化学習は、私たちの学習方法によく似ています。これらのシステムは制限された仮想世界に存在し、報酬を得るために限られたアクションを実行できます。 DeepMindの研究者らは数か月前に論文を発表し、汎用AIを実現するには「報酬で十分」だと主張した。しかし、人々が行うすべてのことが、同じ意味で AI を強化するための報酬を最適化することを意味するわけではありません。これは、私たちの世界の複雑さ、各瞬間に可能な行動の数、私たちが望むものや必要とするものの複雑さやニュアンスについては言うまでもありません。

上記の理由から、研究者は最近、ヤン・ルカンが好んで呼ぶ「教師なし学習」または「自己教師学習」のパラダイムにますます興味を持つようになりました。彼は、私たちはこれらのシステムと同様に学習する（少なくとも他のパラダイムと比較して）と主張しています。人間は世界を観察し認識することで多くのことを学びます。これは自己教師学習です。

「[自己教師学習]とは、タスクを学習する前に世界の表現を学習するという考え方です。これは幼児や動物が行うことです。[…]いったん世界の適切な表現が得られれば、タスクを学習するのに必要な試行回数は非常に少なく、ほんの数例で済みます。」

教師あり学習システムは、世界に注意を払わずにデータ内のパターンを見つけることを学習します。
強化学習システムは、世界を気にせずに報酬を最適化することを学習します。
自己教師型学習システムは、お互いのことを理解するために世界を表現する必要があります。

これらのシステムは、入力の可視部分から入力の隠された部分を学習できます。たとえば、自己教師型システムに文の半分を入力すると、抜けている単語を予測できるようになります。そのためには、物事の関係をより深く理解する必要があります (だからといって、彼らが私たちと同じ感覚で世界を理解しているというわけではありません。そうではありません)。

大量のラベル付きデータ（教師あり学習）と数え切れないほどのシミュレーション（強化学習）が必要であることが障害となります。自己教師学習は、これら両方の問題に対処することを目的としています。これらのシステムは、何を学ばなければならないかを明示的には伝えません。コースはありません。タスクはありません。

自己教師あり学習におけるいくつかの重要な成功は、Transformer アーキテクチャに関連しています。たとえば、BERT や GPT-3 は言語生成タスクで非常に成功していることが証明されています。多くの NLP ドメインでは、自己教師ありシステムが現在最先端の技術となっています。これらのシステムの顕著な欠点は、画像や音声などの連続的な入力を処理できないことです。

「AI の次の革命は教師あり学習でもなければ、純粋な強化学習でもありません。」

ヤン・ルカン。

ジャストインタイムプログラミング - ヒューマンコミュニケーション

ローコードおよびノーコードの取り組みは、コーディングの世界におけるスキルギャップの拡大への対応として数十年前に登場しました。優れたコードを作成し、設計から製造までのパイプラインのさまざまなポイントでタスクを処理する方法を知るための技術的能力は高価です。ソフトウェア製品が複雑になるにつれて、プログラミング言語も複雑になります。 No Code は、技術系ではないビジネスマンのこのギャップを解消することを目指しています。これは、エンコードをバイパスして、誰でも結果にアクセスできるようにする方法です。

代表者をどのように代表するかを知ることは、数年前の英語を話すことと同じくらい重要だと言えます。あなたはそれを知っているか、あるいは多くのことを見逃しているかのどちらかです。仕事の機会、書籍や記事、論文やその他の技術的な仕事…将来的には、スマートホームの割合が増加します。技術的なソフトウェアスキルは当時も重要でしたが、現在でもパイプや壊れた照明を修理する方法と同じくらい重要です。

ノーコードイニシアチブと AI の将来については、プログラミングのヒントがあります。 GPT-3 はヒントを使用する最もよく知られた AI システムです。 OpenAI は昨年 API をリリースしており、人々はプロンプトの独自性をすぐに認識するでしょう。これは人間の場合とは異なり、また正式な意味でのプログラミングの場合とも異なります。プロンプトプログラミングは、いわゆるプログラミングの新しい形式として理解できます。システムと通信し、自然言語でプログラムするため、表面的なものではありません。 C や Python でのプログラミングよりも高度ではありません。

GPT-3 は研究者や開発者の注目を集めており、多くの人が欠点を見つけようとしています。 GPT-3 は成功するはずのところで失敗するという人もいます。しかし、GWERN は彼らが間違っていることを証明しました。彼は、GPT-3 を英語でプログラミングするのと同じように扱うべきだと主張しています。すべてをただやろうとするのではなく、正しくやらなければなりません。彼はプロンプトの調整を繰り返しテストし、GPT-3 にタスクを正しく完了するように教えることに成功しました。彼はこう言った。

「[プロンプト]はDL [ディープラーニング]モデルを使用するかなり異なる方法であり、プロンプトがGPT-3に新しいことを行うようにプログラムする「プログラム」になった、新しい種類のプログラミングと考えるのが最適です。」

GPT-3 は英語で記述することでシステムをプログラミングする可能性を高めます。システムは私たちの意図を理解し、それを不確実性なく解釈できる方法でコンピューターに変換することができます。

1か月前、昨年OpenAIと提携したMicrosoftとGithubは、Github Copilotを発表しました。このシステムは、Codex と呼ばれる GPT-3 の派生機能を搭載しており、強力なコード自動補完機能として作成されました。 Microsoft は、コードの作成と、それが英語を理解して適切に記述された機能的なプログラムに変換できる点において、GPT-3 の可能性を見出しました。コピーでは、英語の説明、機能を説明するコメントを読み、機能についてメモを取ることができます。

GPT-3 と GitHub Copilot は、ノーコードの可能性とプログラミングの新時代を融合し、技術者以外の人々もコーディングの世界にアクセスできるようにします。

プロンプトプログラミングの主な利点とその成功の理由は、私たち人間が形式言語ではなく自然言語でコミュニケーションするように進化してきたことです。英語には直感的にわかる一連のルールがあります。私たちは、使用するルールを理解する前に、正しく話すことを学びます。私たちはルールを作り、それに固執したわけではありません。私たちはすでに従っているルールを見つけます。

Python または C の書き方は異なります。私たちはそれらを言語と呼んでいますが、重要な点で英語とは異なります。コンピュータが何をすべきかを知るには、明示的で解釈されないコマンドが必要です。プログラミング言語には厳密な文法規則があり、それを破るとプログラムは実行されません。近道はありません。プログラミングの知識がなくてもコンピュータとコミュニケーションを取りたいなら、その言語を学ばなければなりません。 Python のような高級言語でさえ、ほとんどの人が持っていない高度な技術的専門知識が必要です。

ヒントプログラミングはコーディングの未来です。ほとんどのものを自然言語でプログラムできるようになります。私たちの不正確で微妙な統計的および文脈的アイデアと、コンピューターが動作するために必要な正式な指示との間の翻訳を解決する中間システムが存在するでしょう。

マルチモーダル - 人間の知覚

最近まで、ディープラーニングシステムは単峰性の問題を解決するために設計されていました。機械翻訳で最先端のパフォーマンスを実現したい場合は、英語とスペイン語のテキストデータのペアでシステムをトレーニングします。 ImageNet チャレンジに勝ちたいのであれば、システムはオブジェクト認識において最高のものでなければなりません。 NLP システムは CV システムとはまったく異なり、ロックを解除するのが困難です。

現在、研究者たちは神経科学からインスピレーションを得て、人間の知覚メカニズムを模倣しようと、さまざまな種類のデータから学習する AI システムの作成に注力しています。システムを専門分野ごとに分割するのではなく、視覚的ソースと言語的ソースからのデータを組み合わせるようにするのはどうでしょうか。テキストには情報が含まれています。画像付きの情報です。しかし、どちらにも情報があります。マルチモーダル輸送システムのこの新しいトレンドは、Google と Beda がそれぞれ Mama と Wu Dao 2.0 で実現したものです。これは、人間の脳に似た人工システムを作るための一歩です。

私たちはマルチモーダルの世界で繁栄しています。私たちの周りにある出来事や物体は、電磁気的、機械的、化学的など、さまざまな種類の情報を生成します。たとえば、リンゴには色、形、質感、味、風味があります。これが、私たちの脳がマルチユーザーである理由です。私たちは、世界の多様性の一部を捉えるさまざまな知覚システムを持っています (他の生命体は、私たちが生物学的に認識していないパターンを認識できる異なる知覚システムを持っています)。さらに興味深いのは、脳が知覚チャネルからの情報を統合して現実をひとつに表現することです。

このような機能から、Umbing AI の有用性がわかります。モデルにテキスト画像のペアを与えることで世界をより正確に表現できるようになると、予測やアクションがより正確になり、環境への適応性が向上する可能性があります。これが今日の知能の定義です。「受け継いだ能力と学んだ知識を活用して、自分の環境を理解し、適応する能力」

人間の目、耳、手と GPT-3 に相当する機能を備えたロボットは、現在のどの AI よりも強力です。脳はあらゆる処理が行われる場所であり、処理されたデータを処理します。将来の AI システムでは、センサー、コントローラー、アクチュエーターが相互接続され、情報処理が高速、正確、かつ豊富になります。

重点は依然としてソフトウェア中心の仮想システムにありますが、一部の研究グループはテキストと画像データの統合に成功しています。これらのネットワークがどのようにして 2 種類の情報を組み合わせるのかは謎のままですが (人間についても完全には解明されていません)、試みは成功しています。 Dall·E、Clip、Mum、UC²、Wu Dao 2.0 はすべて居住地の証拠です。

マルチタスクとタスクシフト - 人間の多才さ

AI システムの監視と強化は、多くの場合、悪いことです。さまざまなタスクを学習するように設計された AlphaZero のようなシステムであっても、タスクごとにリリースして再学習する必要があります。しかし、自己監視型システムは本質的に優れています。その理由は、彼らがトレーニングに対してタスクに依存しないアプローチを採用しているからです。これらのシステムでは、入力データから何を学習するかが明示的に指示されないため、パラメータを変更することなくさまざまなタスクに適用できます。 GPT-3 の場合もそうです。

GPT-3 の最も効果的な機能の 1 つは、同じ重みを持つさまざまなタスクを処理できることです。システムは、機械翻訳、質問への回答、または創造的なフィクションの生成を実行するために内部的に変更されていません。このシステムは、主にインターネットのテキストデータから教師なし方式でトレーニングされます。しかし、学んだことをどのように活用するかは分かりません。プロンプトプログラミングの助けを借りて、ユーザーは GPT-3 を調整して特定のタスクを解決できます。ちなみに、GPT-3 は、トレーニングを受けていないいくつかのタスクで最先端の結果を達成しています。これがマルチタスクとタスク転送の力です。

マルチタスクシステムは、同じ入力を異なるタスクに適用できます。たとえば、システムに「猫」という単語を入力すると、スペイン語の翻訳「gato」を探すように依頼したり、猫の画像を見せるように依頼したり、猫がなぜそんなに奇妙なのかについてのエッセイを書くように依頼したりできます。同じ入力に対して異なるタスクを実行します。

この考え方は、少量の学習と組み合わせられることが多いです。ディープラーニングシステムのトレーニングは、事前に選択された一連のクラスに基づいて監視およびトレーニングされます。 CV システムが車、飛行機、船の画像を分類することを学習した場合、この 3 つのクラスでテストした場合にのみ良好なパフォーマンスが得られます。少数ショット（またはゼロショット/ワンショット）学習設定では、重みの更新なしで、システムが新しいクラスに対してテストされます。

一例としては、テスト時にシステムに自転車の画像を 3 枚表示し、車、飛行機、船、自転車の画像を一般的に分類するように要求します。これはほとんど映像ではありません。テスト期間中に 3 つの例でバイクの概要をすでに示しました。学習方法を学習したシステム (GPT-3 など) は、このような極端なケースでも優れたパフォーマンスを発揮できるはずです。 GPT-3 はそれが可能であることを証明します。そのパフォーマンスは監視システムでは意味をなさない。

マルチタスクと少数ショットの設定を組み合わせると、トレーニングされていないタスクを解決できるシステムを構築できます。この場合、テスト時にシステムに新しいクラスを表示せず、新しいタスクを実行するように要求します。いくつかのショットのセットアップの場合、タスクがどのように達成されたかの例をいくつか示します。さらに、内部的に何も新しいことが学習されていない場合、システムは新しいタスクを解決するように調整されます。

たとえば、システムでトレーニングされたシステムを考えてみます。ワンショットのタスク転送設定では、「I love you -> te quiero. I hate you -> ____」と記述できます。例 (ワンショット設定) を表示することで、システムに暗黙的に英語からスペイン語への文の翻訳を依頼しています (トレーニングされていないタスクを表示することにより)。

考えてみれば、私たち人間はこれができるのです。私たちは学習者です。私たちは単にタスクを実行する方法を学ぶだけでなく、新しいタスクを実行する方法を学ぶ方法も知っています。誰かが部屋を掃除しているのを見たら、すぐにそれを終わらせる方法がわかります。床を掃除するにはほうきの動きを一定にし、方向を決めて動かす必要があることを理解し、動きをスムーズにするために手と足の動きを協調させるようにしました。誰かが私たちを訓練するとき、私たちは理解するだけではなくなければなりません。私たちは観察することによって学びます。それが、いくつかのミッションシフトの目的です。そして AI システムは改善し始めました。

オリジナルリンク: https://towardsdatascience.com/5-must-know-ai-concepts-in-2021-75d8c1ff938

<<: 自動運転車の台頭は半導体業界に発展のチャンスをもたらす

>>: 心臓血管画像診断における人工知能の応用の進歩