業界観察：世界の人工知能開発はどのレベルに達しましたか？

[[334267]]

今日の技術コミュニティにおける人工知能の開発レベルについては、学界、産業界、メディアによって見解が異なる可能性があります。よく耳にする言葉は、「ビッグデータとディープラーニングに基づく人工知能は、まったく新しい形の技術である。自律的に「学習」できるため、その出現は将来、人類の社会形態を全面的に変える可能性があり、それによって大量の人間の労働を置き換えることができる」というものです。ここでは 2 つの誤解があると思います。

まず、ディープラーニングは新しい技術ではありません。次に、ディープラーニング技術に伴う「学習」は人間の学習とは異なります。なぜなら、ディープラーニングは直面する情報を真に「深く」理解することができないからです。

ディープラーニングは新しい技術ではない

技術史の観点から見ると、ディープラーニング技術の前身は、実は1980年代に一時期流行した「人工ニューラルネットワーク」技術（「コネクショニズム」技術とも呼ばれる）です。

この技術の本質は、数学的モデリングを使用して単純な人工ニューラルネットワーク構造を構築することです。このタイプの典型的な構造には、通常、入力ユニット層、中間ユニット層、出力ユニット層の 3 つの層が含まれます。入力ユニット層は、外界から情報を取得した後、各ユニットに組み込まれた集約アルゴリズムと励起機能に基づいて、中間ユニット層にさらにデータ情報を送信するかどうかを「決定」します。このプロセスは、人間のニューロンが他のニューロンから電気パルスを受信した後、自分の細胞核の電位の変化に基づいて、他のニューロンに電気パルスを送信するかどうかを「決定」できるのと同じです。

システム全体で実行される全体的なタスクが画像認識に関するものであるか、自然言語処理に関するものであるかに関係なく、システム内の単一のコンピューティングユニットの動作状態のみに基づいて、観察者が関連する全体的なタスクの性質を知る方法はないことに留意する必要があります。むしろ、システム全体は、マクロレベルでの認識タスクを、システムのコンポーネント間のミクロな情報伝達活動に「全体を部分に分解する」方法で実際に分解し、これらのミクロな情報伝達活動によって反映される一般的な傾向を通じて、人間の心の情報処理プロセスを象徴レベルでシミュレートします。

エンジニアがシステムの微視的な情報転送活動の傾向を調整する基本的な方法は、まずシステムに入力情報をランダムに処理させ、次にその処理結果を理想的な処理結果と比較することです。両者がうまく一致しない場合、システムは独自の「バックプロパゲーションアルゴリズム」をトリガーして、システム内のさまざまなコンピューティングユニット間の接続の重みを調整し、システムによって提供される出力が以前の出力と異なるようにします。 2 つのユニット間の接続重みが大きいほど、それらの間で「共励起」が発生する可能性が高くなります。逆もまた同様です。次に、システムは実際の出力と理想の出力を再度比較します。両者がまだ一致しない場合は、実際の出力と理想の出力が一致するまで、システムはバックプロパゲーションアルゴリズムを再度開始します。

このトレーニングプロセスを完了したシステムは、トレーニングサンプルを正確に意味的に分類できることに加えて、通常、トレーニングサンプルに比較的近い入力情報も比較的正確に意味的に分類できます。たとえば、既存の写真ライブラリ内のどの写真が張三の顔であるかを認識するようにシステムがトレーニングされている場合、写真ライブラリに一度も入力されていない張三の新しい写真であっても、システムはすぐに張三の顔として認識できます。

上記の技術的説明をまだ十分に理解していない読者は、次の例え話を通じて人工ニューラルネットワーク技術の動作メカニズムをさらに理解すると役立つかもしれません。中国語が分からない外国人が武術を学ぶために少林寺に行くとしたら、教師と生徒の間の指導活動はどのように行われるべきでしょうか？ 2 つの状況があります。1 つ目の状況は、両者が言語でコミュニケーションできる場合です (外国人が中国語を理解するか、少林寺の師匠が外国語を理解する)。この方法では、師匠は「ルールを与える」ことで外国人の弟子に直接教えることができます。この教育方法は、人工知能のルールベースのアプローチと大まかに比較することができます。

もう一つの状況は、師匠と弟子がまったく同じ言語を話さないことです。この場合、弟子はどうやって武術を学ぶべきでしょうか?唯一の方法は、弟子がまず師匠の動きを観察し、それから真似をすることです。師匠は簡単なボディランゲージを使って、弟子に動きが正しいかどうかを伝えます（例えば、正しい場合は師匠は微笑み、正しくない場合は師匠は弟子を叱ります）。さらに、師匠が弟子の特定の行動を承認した場合、弟子はそれを覚えて学習を続けます。それが間違っていた場合、弟子はどこで間違えたのかを推測し、その推測に基づいて新しい行動を提示し、師匠が最終的に満足するまで師匠からのフィードバックを待ち続けます。明らかに、この種の武術の学習効率は非常に低いです。なぜなら、弟子は自分の動きがどこで間違っていたかを推測するのに多くの時間を無駄にするからです。しかし、「推測」という言葉は、人工ニューラルネットワークの動作の本質をまさに言い表しています。要約すると、このような人工知能システムは、実際には、受信した入力情報が何を意味するのかを知りません。言い換えれば、前の例の師匠が弟子と口頭でコミュニケーションできないのと同じように、このシステムの設計者は、記号レベルでシステムとコミュニケーションすることはできません。この非効率的な学習の「非効率性」がコンピューターによって許容される理由は、コンピューターが人間に対して持つ大きな利点によるものです。コンピューターは、非常に短い物理的時間内に大量の「推測」を行い、比較的正しい解決策を選択できます。メカニズムをはっきりと理解すると、人工ニューラルネットワークの動作原理が実は非常に不器用であることに気づくのは難しくありません。

「ディープラーニング」は「ディープラーニング」であるべきだ

では、なぜ「ニューラルネットワーク技術」に「ディープラーニング」と呼ばれる後継技術が誕生したのでしょうか?この新しい名前は何を意味するのでしょうか?

「ディープラーニング」は誤解を招く用語であることを認めなければなりません。なぜなら、この用語を使うと、多くの素人が、人工知能システムがすでに人間と同じくらい「深く」学習内容を理解できると信じてしまうからです。しかし現実はこうです。人間の「理解」の基準からすると、そのようなシステムは生の情報の最も表面的な理解さえも達成できません。

このような誤解を避けるために、著者は「ディープラーニング」を「ディープラーニング」と呼ぶことを好みます。なぜなら、元の英語の単語「deeplearning」技術の本当の意味は、従来の人工ニューラルネットワークの技術をアップグレードすること、つまり、隠れユニット層の数を増やすことだからです。これを行う利点は、システム全体の情報処理メカニズムの洗練度を高め、より多くのオブジェクト機能をより多くの中間層に収容できるようになることです。

たとえば、顔認識用のディープラーニングシステムでは、中間層を増やすことで、原色ピクセル、カラーブロックのエッジ、線の組み合わせ、顔の特徴の輪郭など、さまざまな抽象化レベルの特徴をより細かく処理できます。このような洗練された処理により、システム全体の認識能力が確実に向上します。

ただし、システム全体の数学的な複雑さと、このような「深さ」の要件によってもたらされるデータの多様性により、当然のことながら、コンピューターのハードウェアとトレーニングに使用されるデータの量に高い要求が課されることに注意する必要があります。これは、ディープラーニング技術が21世紀以降にようやく普及し始めた理由でもあります。ディープラーニング技術の実装に基本的な保証を与えたのは、過去10年ほどのコンピュータ分野におけるハードウェアの急速な発展と、インターネットの普及によってもたらされた膨大な量のデータです。

しかし、ニューラルネットワークディープラーニングテクノロジーがより「インテリジェント」になるのを妨げるボトルネックが 2 つあります。

まず、システムがトレーニングされて収束すると、システムの学習能力が低下し、新しい入力に基づいて重みを調整できなくなります。これは私たちの究極の理想ではありません。私たちの理想は、トレーニングサンプルライブラリ自体の制限によりネットワークが早期に収束すると仮定し、新しいサンプルに直面したときに、元の入力と出力のマッピング関係を自律的に修正し、この修正で古い履歴と新しく出現するデータの両方を考慮に入れることができることです。しかし、既存の技術では、この一見壮大な技術的ビジョンをサポートすることはできません。設計者が今できることは、システムの履歴知識をゼロにリセットし、サンプルライブラリに新しいサンプルを追加して、最初からトレーニングを開始することです。ここで私たちは間違いなく、恐ろしい「シシュポス物語」を再び目にすることになる。

第二に、前の例が示すように、ニューラルネットワークディープラーニングパターン認識のプロセスでは、設計者は元のサンプルの特徴抽出に多大な労力を費やします。当然のことながら、同じ元のサンプルでも、設計者によって特徴抽出パターンが異なり、ニューラルネットワークとディープラーニングのモデリングの方向性も異なります。人間のプログラマーにとっては、これは創造性を発揮する絶好の機会ですが、システム自体にとっては、創造的な活動に従事する機会を奪うことになります。想像してみてください。このように設計されたニューラルネットワーク - ディープラーニング構造は、元のサンプルを自ら観察し、適切な特徴抽出モードを見つけ、独自のトポロジ構造を設計できるのでしょうか?これは、構造自体を反映した表現を与えることができる構造の背後にメタ構造が必要であると思われるため、難しいと思われます。このメタ構造をどのようにプログラムするべきかについては、まだ私たちは混乱しています。なぜなら、このメタ構造の機能を実現するのは私たち人間だからです。残念なことに、ディープラーニング技術にはこうした基本的な欠陥があるにもかかわらず、現在の主流の人工知能コミュニティは、ディープラーニング技術がすべての人工知能に匹敵すると信じるように「洗脳」されている。より柔軟で汎用性の高い、少量データに基づく人工知能技術には、当然ながら、人々がより多くの労力を投入する必要があります。純粋に学術的な観点から言えば、私たちはまだこの目標から程遠いところにいる。

（著者は復旦大学哲学学院に勤務）

<<: 意見: 顔認識 - 今後の展望

>>: 一貫性ハッシュアルゴリズムとは何ですか?