アンドリュー・ン氏との独占インタビュー: 今後 10 年間の AI、ハードウェア優先からデータ優先へ

現在の仕事に飽きて方向転換したいと思ったことはありませんか?もしそうなら、あなたは決して一人ではありません。しかし、ビッグディクショナリに参加する以外にも、Andrew Ng のアプローチのように、それほど過激ではないアプローチもあります。

アンドリュー・ン氏は、今日の人工知能の分野で最も著名な人物の一人です。

彼は、Landing.AI と DeepLearning.AI の創設者であり、Coursera の共同会長兼共同創設者、スタンフォード大学の非常勤教授です。彼は以前、百度の主任科学者であり、Google Brainプロジェクトの創設者の一人であった。

しかし、彼によれば、現在彼の焦点は「ビットからモノへ」ということわざにあるように、デジタルの世界から現実の世界へと移っているという。

2017年、アンドリュー・ン氏は製造業における人工知能の応用を促進することを目的としたスタートアップ企業、Landing AIを設立しました。

私たちは、Andrew Ng 氏に、彼が「AI へのデータ中心のアプローチ」と呼ぶものについて、またそれが Landing AI での彼の仕事や今日の AI のより広い文脈とどのように関係しているかについて話を聞きました。

デジタル化から実装まで

アンドリュー・ン氏は、自身の動機は業界志向であると語った。彼は、製造業は「すべての人の生活に大きな影響を与えているが、私たちの多くには目に見えない素晴らしい産業の一つ」だと考えている。

米国を含む多くの国々が製造業の衰退を嘆いています。アンドリュー・ン氏は、「インターネット企業を変革したAI技術を活用して、製造業で働く人々の支援に役立てたい」と願っている。

これは増加傾向にあります。 2021 年の調査によると、製造業のリーダーの 65% が AI の試験導入に取り組んでいます。今後5年間で年平均成長率57.2%を達成すると予想されています。

AIは製造業でますます利用されるようになってきたが、そのプロセスはアンドリュー・ン氏が想像していたよりもはるかに困難だ。 Landing AI が設立された当初は、主にコンサルティング業務に重点を置いていたと彼は認めた。

しかし、多くのクライアントプロジェクトに取り組んだ後、Andrew Ng 氏と Landing AI は、製造業と産業オートメーションに AI を活用するための新しいツールキットとプレイブックを開発しました。

Landing Lens は、製造業および産業オートメーション分野のお客様がビジョン検査システムを迅速かつ簡単に構築および導入できるようにすることに注力しています。ウー氏は、消費者向けソフトウェア分野での自身の取り組みを、製造業における AI を対象に適応させる必要がありました。

たとえば、AI 駆動型コンピュータービジョンは、製造ラインでの欠陥の特定などのタスクで製造業者を支援できます。しかしそれは簡単な仕事ではないと彼は説明した。

「消費者向けソフトウェアでは、1億人または10億人のユーザーに対応する単一のAIシステムを構築し、その方法で非常に大きな価値を獲得できますが、製造業では、工場ごとに製造するものが異なります。そのため、各製造工場には独自のデータでトレーニングされたカスタムAIシステムが必要です。」

アンドリュー・ン氏は、AI分野の多くの企業が直面している課題は、1万社のメーカーが1万社の顧客システムを構築するのをいかに支援するかであると述べた。

データ中心のアプローチでは、AI はモデルよりもデータが重要になる段階に到達したと主張しています。 AI を可動部分を持つシステムと考えると、モデルのわずかな改善を追求し続けるのではなく、モデルを比較的固定した状態に保ち、高品質のデータに焦点を当ててモデルを微調整する必要があります。

このように考える人は多くありません。スタンフォード大学のヘイジー研究グループを率いるクリス・レ氏も、データ中心のアプローチを提唱する一人です。もちろん、前述したように、データの重要性は新しいものではありません。数十年にわたって開発されてきた、データを処理するための成熟した数学的、アルゴリズム的、システム的技術が存在します。

しかし、これらのテクノロジーを最新の AI モデルと手法に基づいて構築し、再検討する方法が新たな要件となっています。

ほんの数年前には、長寿命の AI システムも、現在のような規模で優れたパフォーマンスを発揮するディープラーニングモデルもありませんでした。アンドリュー・ン氏は、2021 年 3 月にデータ中心の AI について話し始めて以来、受けた反応が、約 15 年前に自分と他の人がディープラーニングについて議論し始めたときのことを思い出させたと述べています。

「今日、人々の反応は『これはずっと前から知っていた、何も新しいことはない』から『こんなことは絶対にうまくいかない』までさまざまだ」とン氏は言う。「しかし、『そうだ、この業界にはこれが必要だとずっと感じていた、これは素晴らしい方向性だ』と言う人もいる」「

データ中心のAIと基本モデル

データ中心の人工知能が正しい方向だとしたら、それは現実世界でどのように機能するのでしょうか?アンドリュー・ン氏は、機関が独自のカスタム AI モデルをトレーニングすることを期待するのは非現実的であると指摘しました。

このジレンマから抜け出す唯一の方法は、顧客が独自のモデルを設計し、データを収集し、それぞれの分野の知識を表現できるツールを設計することです。

Andrew Ng 氏と Landing AI は Landing Lens を通じてこれを実現し、さまざまな分野の専門家にデータのラベル付けを通じて知識を伝える能力を提供します。アンドリュー・ン氏は、生産現場では一般的に、参考になるデータがそれほど多くないと指摘した。たとえば、不良品を特定することが目標である場合、適度に優れた生産ラインには、参照できる不良品の画像はそれほど多くありません。

制作の世界では、参考になる写真が世界中に50枚しかないこともあります。これは既存の AI には不十分です。だからこそ、今は専門家がデータを収集して知識を文書化することに重点を移すべきなのです。

Andrew Ng 氏は、Landing AI のプラットフォームがまさにそれを実現すると述べました。このプラットフォームは、ユーザーが最も有用なケースを見つけ、最も一貫性のあるラベルを構築し、アルゴリズムに入力される画像とラベルの品質を向上させるのに役立ちます。

ここで重要なのは一貫性です。アンドリュー・ン氏と彼以前の他の人々は、専門知識は一人の専門家によって定義できるものではないことを発見しました。ある専門家にとって欠陥のあるものが、別の専門家にとっては価値があるとみなされることもあります。この現象は新しいものではありませんが、同じ注釈を持つデータセットを生成する必要がある場合にのみ発生します。

「だからこそ、専門家の合意を迅速に得るための優れたツールとワークフローが必要なのです」と、Ng 氏は言います。「すでに合意が得られている分野に時間を費やす必要はありません。その代わりに、専門家が合意していない分野に焦点を当て、専門家が議論して欠陥を解決できるようにすることが私たちの目標です。データ全体で一貫性を保つことが、AI システムを迅速に優れたパフォーマンスを発揮させる上で非常に重要であることがわかりました。」

このアプローチは理にかなっているだけでなく、いくつかの類似点もあります。 Ng 氏が説明するプロセスは、今日の AI でよく採用されている「より多くのデータを投入する」アプローチとは明らかに異なり、キュレーション、メタデータ、およびセマンティック調整に基づくアプローチを指し示しています。

実際、Google の元機械翻訳責任者である David Talbot 氏のような人々は、データから学習することに加えて、さまざまな分野の知識を機械翻訳に適用することも理にかなっているという考えを伝えてきました。機械翻訳と自然言語処理 (NLP) の場合、問題となるドメイン知識は言語学です。

私たちは現在、NLP ベースモデルと呼ばれる、GPT3 のような巨大なモデルが存在する段階に到達しています。大量のデータでトレーニングした後、これらのモデルを使用して、特定のアプリケーションやドメインに合わせて微調整することができます。しかし、このタイプの NLP 基本モデルでは、さまざまな分野の知識が実際には活用されていません。

コンピュータービジョンの基本モデルでこれができるでしょうか?もしそうなら、いつ、どうやってそれを達成できるのでしょうか?それが実現すると何が起こるでしょうか?アンドリュー・ン氏によると、基礎となるモデルは規模の問題と伝統の問題の両方である。コンピュータービジョンの基本モデルの構築を試みている研究グループが多数あるため、これは実現可能だと彼は考えています。

Andrew Ng氏は、「初日は基本的なモデルではないが、次の日には基本的なモデルになるだろう」と語りました。NLPの場合、GoogleのBERTモデル、Transformerモデル、GPT2からGPT3へと、モデルが進化しているのがわかりました。

これは、ますます多くのデータでトレーニングされた、次第に大きくなる一連のモデルであり、人々はこれらの新しいモデルのいくつかを基本モデルと呼びます。

「コンピュータービジョンでも同様の現象が見られるようになると思います」と Ng 氏は言います。「何年もの間、多くの人が ImageNet で事前トレーニングを行ってきましたが、今後は、より大規模なデータセットでの事前トレーニング、ラベルなしデータセットでの事前トレーニング、そしてビデオでの事前トレーニングがますます増えていく傾向にあると思います。」

AIの次の10年

コンピュータービジョンの専門家である Andrew Ng 氏は、人工知能が着実に進歩していることをよく知っています。彼は、将来のある時点で、メディアや一般の人々がコンピュータービジョンモデルが基礎モデルであると宣言するようになるだろうと考えています。しかし、それがいつ実現するかを正確に予測できるかどうかは別の問題です。

NLP などのデータ集約型アプリケーションの場合、システムに入力されるドメイン知識の量は時間の経過とともに減少します。 Andrew Ng 氏は、ディープラーニング (コンピュータービジョンや NLP を含む) の初期の頃は、ディープラーニングがうまく機能しなかったため、通常は小規模なディープラーニングモデルをトレーニングし、各分野の知識ベースに基づくより従来の方法と組み合わせていたと説明しました。

しかし、モデルの規模が大きくなり、データが増えるにつれて、さまざまな分野に注入される知識は少なくなっていきます。 Andrew Ng 氏によると、人々は大量のデータが学習アルゴリズムであると考える傾向があるそうです。このため、機械翻訳によって、エンドツーエンドの純粋な学習方法が優れたパフォーマンスを発揮できることが最終的に証明されました。しかし、これは学習に大量のデータを必要とする問題にのみ有効です。

データセットが比較的小さい場合、ドメイン知識が重要になります。アンドリュー・ン氏は、人工知能システムはデータと人間の経験という 2 つの知識源を提供すると考えています。データが大量にある場合、人工知能は人間の知識よりもデータに大きく依存するようになります。

しかし、製造業などデータが不足している分野では、人間の知識に頼るしかありません。技術的なアプローチは、専門家が知識を表現できるツールを構築することです。

これは、ロバスト AI、ハイブリッド AI、ニューロシンボリック AI などのアプローチや、ドメイン知識を表現するためのナレッジグラフなどの技術を指しているようです。しかし、Ng 氏はこれらの技術を認識し、興味深いと感じていたものの、Landing AI はそれらを活用しませんでした。

ン氏はまた、いわゆるマルチモーダル AI、つまりテキストや画像などの異なる形式の入力を組み合わせる AI にも将来性があると考えています。過去 10 年間、重点はシングルモダリティアルゴリズムの構築と改善に置かれてきました。 AI コミュニティが拡大し、進歩が遂げられた今、この方向性を追求するのは理にかなっています。

Andrew Ng 氏は機械学習に GPU を使用した最初の人物の 1 人ですが、最近ではハードウェアの側面についてはあまり関心がありません。 Nvidia、AMD、Intel などの大手企業や斬新なアーキテクチャを持つ新興企業を含む AI チップのエコシステムが活発化しているのは良いことですが、これで終わりではありません。

過去 10 年間、AI では主にビッグデータ、つまり、膨大なデータセットを使用して、さらに大規模なニューラルネットワークをトレーニングすることに重点が置かれてきました。これは、Andrew Ng 自身が普及に貢献したものです。

しかし、ビッグモデルとビッグデータの進歩にもかかわらず、アンドリュー・ン氏は、今日の AI 開発の焦点はスモールデータとデータ中心の AI に移行すべきだと考えていると述べました。

「10年前、私はディープラーニングの開発に必要な作業量を過小評価していました。そして今日でも、データ中心のAIを開発するために必要な作業量、イノベーション、創造性、ツールを過小評価している人は多いと思います」とアンドリュー・ン氏は語ります。「しかし、今後数年間でこの分野で進歩を遂げ、より多くのAIアプリケーションをサポートできるようになると思います。とても楽しみです。」

<<: スケーリングトランスフォーマーでスパース性を使用するだけで十分です。将来的にはGPT-3をラップトップでホストできるようになるかもしれない