Baidu CTO 王海鋒氏のCNCC2019講演: ディープラーニングプラットフォームが産業インテリジェンスをサポート

10月17日から19日まで、2019年中国コンピュータカンファレンス（CNCC2019）が蘇州で開催されました。今大会のテーマは「インテリジェンス＋社会発展の先導」で、1,000以上の機関の代表者と8,000人以上が展示会とカンファレンスに参加しました。百度のCTOである王海鋒氏は会議で「産業インテリジェンスを支えるディープラーニングプラットフォーム」と題する講演を行い、ディープラーニング技術が人工知能の発展と産業応用をどのように促進できるかについての百度の考えを共有した。また、百度のPaddlePaddleディープラーニングプラットフォームの利点と、百度スマートクラウドと組み合わせて産業インテリジェンスを支援することによる結果についても詳しく説明した。

[[279624]]

以下はスピーチの記録です。

専門家の皆様、ゲストの皆様、おはようございます！世界コンピュータ会議に参加する機会をいただき、大変光栄に思います。ご招待くださった中国コンピュータ協会と会議に感謝申し上げます。本日ご紹介するトピックは、「ディープラーニングプラットフォームが産業インテリジェンスをサポートする」です。

1860 年代以降、人類は 3 度の産業革命を経験してきたことは誰もが知っています。第一次産業革命は機械技術をもたらし、第二次産業革命は電気技術をもたらし、第三次産業革命は情報技術をもたらしました。これら3つの産業革命の歴史を振り返ると、それぞれの産業革命を推進した中核技術は、極めて普遍的であることがわかります。機械技術は当初は繊維産業から始まったなど、特定の産業から始まる場合もありますが、最終的には生産と生活のあらゆる側面に応用され、非常に強力な汎用性を持っています。これらの技術は、その普遍性に加えて、人類を大規模な工業生産の新たな段階へと押し進めるでしょう。この大規模な工業生産を支える技術には、標準化、自動化、モジュール化といういくつかの特徴があります。私たちは現在、第四次産業革命の始まりにあり、人工知能は新たな科学技術革命と産業変革の核心的な原動力となっています。人工知能は人類社会をインテリジェント時代へと導くでしょう。

人工知能技術の発展を振り返ると、人工知能技術の発展段階には多くの分類次元があります。大まかにまとめると、次のように理解しています。初期の段階では、人工ルールがより多く使用されていました。私が26年前にこの業界に入ったとき、実際に人工ルールを使用して機械翻訳システムを開発していました。その後、機械学習、特に統計機械学習が徐々に始まり、長い間支配的で大きな影響を与え、アプリケーション業界に多くの価値をもたらしました。ディープラーニングは機械学習のサブ方向です。現在、ディープラーニングは徐々に新世代の人工知能の中核技術になっています。

[[279625]]

いくつか例を挙げると、テキスト認識 OCR 技術は、ルール + 機械学習方式を使用して初期に実行されていました。当時の OCR 技術システムはいくつかの部分に分かれており、領域検出、行分割、文字分割、単語認識、言語モデルのデコード、後処理まで段階的に実行されていました。ディープラーニング技術を追加した後、トレーニングにビッグデータを使用するようになり、ステージの目標も非常に明確になりました。ディープラーニングの特徴がいくつか見つかりました。この時点で、OCRシステムは簡素化され、検出と認識の2つのプロセスのみが必要になりました。典型的なディープラーニングベースのOCRシステムはおそらくこのようなものです。ディープラーニング技術のさらなる発展により、OCRではマルチタスク共同トレーニング、エンドツーエンド学習、特徴の再利用/補完が実施されるようになりました。現時点では、2つの段階を区別する必要はありませんが、テキスト認識のタスクは統合的に実行できます。

機械翻訳を見てみましょう。 26年前、私が人工知能の分野に入ったとき、機械翻訳に取り組んでいました。当時は、翻訳システムを書くために何万ものルールを使っていましたが、これには多くの言語の専門家の作業が含まれていました。私たちが作ったシステムは20年以上前に全国大会で1位を獲得しましたが、このシステムがさらに発展し、大規模な産業化の段階に入るには、まだ多くの問題に直面しています。たとえば、手動のルールは時間がかかり、労力もかかります。また、ルールの数が増えるにつれて、衝突はますます深刻になります。すべての言語現象を網羅することは常に困難です。その後、統計的機械翻訳は機械翻訳の分野で最も主流の技術となりました。例えば、百度翻訳が8年前にリリースしたシステムの最初のバージョンは、実は統計的機械翻訳でした。統計的機械翻訳のプロセスでは、まだ段階的に実行する必要があります。たとえば、最初に統計的な単語のアライメントが行われ、次にフレーズの抽出、構造のアライメントなどが行われ、人工的な特徴の抽出とターゲットを絞った最適化も含まれますが、これはまだ非常に複雑です。約4年前、Baiduは世界初の大規模なニューラルネットワークベースの翻訳製品をリリースしましたが、その時点でエンドツーエンドの学習を行うことができました。もちろん、このようなニューラルネットワーク、つまりディープラーニングシステムにも欠点はあります。実際にオンラインで実行され、毎日何億人もの人々にサービスを提供している翻訳システムは、実際にはニューラルネットワークの機械翻訳方式に基づいており、いくつかのルールと統計的手法も統合されています。

先ほども述べたように、ディープラーニングの発展により、これらの技術はより標準化され、自動化されつつあります。ディープラーニングには普遍性という非常に重要な特徴があることがわかります。以前機械学習をやっていた頃は、SVMやCRFなど誰もがよく知っているモデルがたくさんありました。ディープラーニングの登場後、人々は、ディープラーニングが私たちが目にするほぼすべての種類の問題を非常にうまく解決でき、現時点では最善の解決策さえ得られることを発見しました。これは、独自の長所を持つ以前のモデルとは異なります。ディープラーニングには強力な汎用性があります。

ディープラーニングの位置づけとしては、一方ではチップの下方に接続します。例えば、私たちが開発したディープラーニングフレームワークも、さまざまなチップメーカーと共同で最適化されます。一昨日も、ファーウェイのチップとの共同最適化リリースを行いました。上方では、さまざまなモデルや実際の製品など、さまざまなアプリケーションに取り組みます。したがって、ディープラーニングフレームワークはインテリジェント時代のオペレーティングシステムになると考えています。

ディープラーニングを本格的に大規模に産業化すると、解決しなければならない問題もいくつか出てきます。例えば、ディープラーニングのモデルやシステムの開発は、実装が非常に複雑で、開発効率が低く、容易ではありません。トレーニングの段階では、百度の製品など、実際の大規模な産業生産で使用するモデルはすべて非常に大きなモデルであり、超大型モデルをトレーニングするのは困難です。展開段階になると、推論速度が十分に速いかどうか、展開コストが制御可能で合理的かどうかも考慮する必要があります。

これらの側面に対処するために、私たちはBaiduのディープラーニングプラットフォーム「PaddlePaddle」（英語ではPaddlePaddleと呼んでいます）を開発しました。標準化、自動化、モジュール化された大規模工業生産の特徴をすでに満たしていると考えています。

PaddlePaddle のコアフレームワークには、開発、トレーニング、予測が含まれます。開発では動的グラフィックスと静的グラフィックスの両方をサポートでき、トレーニングでは大規模な分散トレーニングと産業グレードのデータ処理をサポートできます。同時に、異なるバージョンをサーバーと端末に展開し、非常に効率的な圧縮、安全な暗号化などを実行できます。コアフレームワークの上位には、自然言語処理用の基本モデルライブラリ、コンピュータービジョン用の基本モデルライブラリなど、多くの基本モデルライブラリがあります。同時に、いくつかの開発キットも提供され、自動ネットワークトレーニング、転移学習、強化学習、マルチタスク学習など、さまざまなツールコンポーネントが用意される予定です。さらに、あらゆる分野のアプリケーションを真にサポートするために、基盤となるテクノロジーを理解しなくてもユーザーが直接呼び出せるサービスプラットフォームを多数提供しています。例えば、EasyDL では、カスタマイズされたトレーニングやサービスが提供されます。基本的に、ディープラーニングの原理を理解する必要はなく、敷居ゼロで独自のアプリケーションを開発するために使用できます。AI Studio はトレーニングプラットフォームであり、多くの大学でも授業や学習にこのようなプラットフォームを使用しています。もちろん、エンドコンピューティングモデル生成プラットフォームも含まれています。

PaddlePaddle は非常に大規模なプラットフォームであり、最先端のテクノロジーの 4 つの領域に重点を置いています。

まず、開発の観点からは開発しやすいディープラーニングフレームワークを提供し、トレーニングの観点からは超大規模なトレーニングをサポートし、展開の観点からは高性能な推論エンジンを複数の端末やプラットフォームに展開でき、同時に産業レベルのモデルライブラリを多数提供しています。

開発の観点から見ると、PaddlePaddle は開発が容易なディープラーニングフレームワークを提供します。一方では、これらのソフトウェアシステムは多くのプログラマーによって作成されており、プログラマーは独自のプログラムを作成することに慣れていることは誰もが知っています。当社のネットワークプログラミングパラダイムはプログラマーの開発習慣と非常に一致しており、プログラマーは開発において非常に効率的であり、始めるのも簡単です。もう 1 つの側面は、ネットワーク構造の設計です。ディープラーニングは長年にわたって開発されており、ほとんどのディープラーニングシステムネットワークは人間の専門家によって設計されています。ただし、ネットワーク構造の設計は非常に専門的で困難な作業です。そこで、ネットワーク構造の自動設計を開発します。現在では、多くの場合、機械によって自動的に設計されたネットワークは、人間の専門家によって設計されたネットワークよりも優れた結果を達成できます。

一方、大規模な研修には課題もあります。 PaddlePaddle は、超大規模な機能、トレーニングデータ、モデルパラメーター、ストリーミング学習などをサポートします。私たちが開発したシステムは、現在では兆レベルのパラメータモデルをサポートできるようになりました。このようなトレーニングをサポートするだけでなく、リアルタイムの更新もサポートできます。

複数の端末やプラットフォームに関しては、PaddlePaddle はサーバーから端末、異なるオペレーティングシステム間、さらには異なるフレームワーク間のシームレスな接続を十分にサポートできます。ここに具体的なデータがあります。私たちの一般的なアーキテクチャの推論速度が非常に速いことがわかります。同時に、先ほど Huawei との協力についてお話ししたように、Huawei の NPU の推論速度をさらに向上させるために、ターゲットを絞った最適化を行ってきました。

一方、これらすべての基本フレームワークと実際のアプリケーション開発の間には、もう 1 つのステップがあります。言語理解、強化学習、ビジョンなど、さまざまな一般的なアプリケーション向けに、多くの公式モデルライブラリを提供しています。これらの PaddlePaddle モデルは、大規模なアプリケーションで検証されています。また、これらのモデルはいくつかの国際コンテストでもテストされ、多くの優勝を獲得しています。

今お話ししたのは、基本的なフレームワークモデルなどです。一方で、完全なツールコンポーネント、タスク指向の開発キット、産業グレードのサービスプラットフォームもございます。

いくつか例を挙げてみましょう。たとえば、言語理解です。皆さんご存知のとおり、私たちは現在、Baidu の ERNIE などのディープラーニングフレームワークに基づいて言語理解を行っています。一方、現在私たちが使用しているディープラーニング技術は、膨大なデータから学習しますが、前提となる知識はありません。 Baidu は 3,000 億以上の事実を含む非常に大規模なナレッジグラフを開発しました。私たちはこの知識を利用して、ディープラーニングベースの言語理解フレームワークを強化し、ERNIE を開発しました。一方、ERNIE のパフォーマンスを向上するために、継続的な学習テクノロジーを追加しました。下の水色の線は、現在の最良の SOTA 結果です。ERNIE + 百科事典の知識 (ナレッジグラフにも多くのソースがあります) を使用して追加すると、大幅な改善が見られることがわかります。会話の知識、段落構造の知識など、さまざまな知識を継続的に追加することで、システムのパフォーマンスをさらに向上できることを嬉しく思います。

これは、前述のキットシリーズの 1 つであり、参入障壁のないカスタマイズされたトレーニングおよびサービスプラットフォームです。私たちのプラットフォームは、その敷居を下げ、あらゆる業界の技術革新を加速させるお手伝いをしたいと考えています。現在の状況はどうですか?当社は現在、65,000 社以上の企業を含む 150 万人以上の開発者にサービスを提供しています。このプラットフォームでは、169,000 個のモデルを独自にトレーニングしました。

PaddlePaddle ディープラーニングオープンソースプラットフォームは、Baidu のインテリジェントクラウドともうまく統合されており、クラウドを活用してより多くの顧客にサービスを提供し、AI があらゆる分野の人々に力を与えることを可能にします。いくつか例を挙げますと、農業では水耕栽培野菜のスマート植え付け、林業では害虫や病気の監視と特定、公共の場での喫煙管理、商品販売予測、人材システムの自動マッチング、製造部品の仕分け、地震波や石油備蓄予測など、さらに広く通信業界、不動産、自動車などの分野にまで及び、あらゆる産業がこのプラットフォームに基づいてスマート化されています。

たとえば、インテリジェントな水耕栽培による野菜栽培では、深層学習プラットフォームを使用して、成長分析、水耕栽培計画の微調整、環境制御をサポートし、コストを削減しながら収穫量を増やします。インテリジェント昆虫モニタリングも同様です。システムの認識精度はすでに人間の専門家と同等であり、モニタリングサイクルは1週間から1時間に短縮されました。

精密部品のインテリジェントソートの場合、実際にこのディープラーニングシステムを使用する際には、ソートモデルの選択方法、データのラベル付け、特にいくつかのエラーケースの蓄積など、やるべきことがまだたくさんあります。その後、PaddlePaddle プラットフォームでトレーニングとアップグレードを行います。

これは産業安全生産監視の一例です。昨日、別の会議で、ゲストから、生産環境での携帯電話の使用、喫煙、ガードレールの飛び越えなど、特定のシナリオにおける不適切な側面を特に監視したいと尋ねられました。これらはすべて、PaddlePaddle プラットフォームを通じて自動的に実現できます。

国家の主要プロジェクトの土地の検査、スマート司法、AI眼底検査など、他の業界でもPaddlePaddleが活用されています。また、AI行方不明者捜索では、4歳の子供が行方不明になったが、27年後に顔比較技術を通じて家族が見つかり、家族が再会するなど、心温まる事例も数多くあります。今年6月現在、百度AIの行方不明者検索機能は6,700家族の再会に貢献した。さらに、AIが視覚障害者を助けたり、AIが退役軍人の夢の実現を助けたりする事例もあります。

ディープラーニングに戻ると、先ほど言ったように、あらゆる分野の人がその恩恵を受け、自らのインテリジェントなアップグレードを実現するでしょう。これは第三者によるレポートです。ディープラーニングはさまざまな業界に平均約 62% の改善をもたらすことがわかります。

それが今日私が共有したいことです。 Baidu の PaddlePaddle ディープラーニングプラットフォームは、貴社の業界におけるインテリジェントなアップグレードの実現と人工知能の開発促進に協力したいと考えています。ありがとうございます!

<<: 調査によると、中国の従業員の88％が人間の上司よりもロボットを信頼している

>>: WeChat AIがGoogleを超え、NLP分野で新たな世界初を獲得