百度の王海鋒氏:マルチモーダルな深い意味理解により、AIは現実世界をよりよく理解できるようになる

百度の王海鋒氏:マルチモーダルな深い意味理解により、AIは現実世界をよりよく理解できるようになる

7月4日に開催された百度AI開発者会議(Baidu Create 2018)で、百度上級副社長兼AI技術プラットフォームシステム(AIG)ゼネラルマネージャーの王海鋒氏は、百度ブレイン3.0を発表し、百度ブレイン3.0の核心は「マルチモーダルディープセマンティック理解」であり、データのセマンティクス、知識のセマンティクス、画像、動画、サウンド、音声などの理解が含まれると指摘した。

マルチモーダルな深い意味理解を技術的に実現するにはどうすればよいでしょうか?あなたにはどれくらいのエネルギーがありますか?それはどのように応用されて私たちの生活を変えるのでしょうか?その日の午後の百度ブレインフォーラムでは、百度ブレイン3.0のコア技術が次々と公開され、開発者たちに技術的な饗宴をもたらした。

1,000人を収容できる会場は満員となり、開発者らは床に座ったり、会場の中央に立ってプレゼンテーションを最後まで聞いていた。ある開発者は「情報が多すぎて時間が足りない。家に帰ってからもう一度ビデオを見てじっくり考えなければならない」と語った。

「はっきりと見え、はっきりと聞こえる」から「はっきりと見え、はっきりと聞こえる」へ

「マルチモーダルな深い意味理解により、機械は明確に聞き、見ることができ、その背後にある意味をより深く理解できるだけでなく、現実世界に対する深い理解も得られるため、さまざまなアプリケーションをより適切にサポートできます」と王海鋒氏は述べた。

[[235407]]

視覚的な意味論化により、機械はビデオをはっきりと見ることから理解し、構造化された意味論的知識を抽出できるようになります。 Baidu のビジュアル技術部門、フェイシャル技術部門、拡張現実技術部門のディレクターである Wu Zhongqin 氏は、ビジュアル セマンティック テクノロジーは、まず人、オブジェクト、シーンを識別し、それらの動作と関係性を捉えながら、時間的、デジタル的、構造化された方法でセマンティック ナレッジを形成し、最後に分野とシナリオを組み合わせてインテリジェントな推論を行い、業界アプリケーションに実装すると紹介しました。例えば小売業では、各人の動きや行動を正確に把握できるため、顧客が実際に商品を受け取って立ち去ることが可能になります。将来的には、視覚セマンティック技術はさらに拡張され、新しいセンサーやAIチップと組み合わせることで、認識とコンピューティングのレベルを大幅に向上させることができます。携帯電話と組み合わせることで、ユーザーに優れたユーザーエクスペリエンスをもたらすことができます。将来的には、Baidu のビジュアル セマンティック テクノロジーは、Baidu AI オープン プラットフォーム上で開発者に公開される予定です。

音声技術の向上により、機械は世界をよりよく理解できるようになります。百度の音声技術部門のディレクターであるガオ・リャン氏は、百度は遠距離音声と意味統合技術で大きな進歩を遂げ、業界にさらに先進的な遠距離音声技術を提供していると述べた。音声とセマンティクスの統合により、遠距離対話における高頻度クエリの認識精度が10ポイント向上し、通常のクエリの認識率は維持されます。Deep Peak2に基づく多言語混合音響モデリングにより、中国語と英語の混合クエリの認識精度が大幅に向上し、相対エラー率は業界をリードする競合他社よりも20%低くなります。新たにアップグレードされたTTSテクノロジーは、従来のスプライシングテクノロジーとWavenetテクノロジーを業界初融合したもので、合成品質を確保しながらコストを大幅に削減し、大規模なアプリケーションを実現します。さらに、百度は「Du Xiaoyun」と呼ばれる低コストの遠距離音声技術ソリューションを発表しました。これは、Deep Peak V2音声認識技術、音声と意味の統合技術、LSTM-VADディープラーニング音声分割技術に基づいています。業界をリードする5レベルのウェイクアップ技術を実現し、Wavenetに基づく洗練されたサウンドライブラリを備え、遠距離に最適化されたオーディオ通信技術をサポートしています。将来的には、開発者はワンストップで Baidu の遠距離音声機能に平等かつ便利にアクセスできるようになります。

[[235408]]

機械を人間と同じくらい賢くしたいのであれば、言語を知識に変えることが不可欠です。百度のAI技術プラットフォームシステムのエグゼクティブディレクターである呉天氏は、長年の開発を経て、百度の自然言語処理技術は包括的かつ最先端のパターンを形成したと述べた。 Baidu Knowledge Graph は、エンティティ グラフ、業界グラフ、イベント グラフ、フォーカス グラフ、マルチメディア グラフなど、複雑で多様かつ包括的なマルチセマンティック ナレッジ グラフに発展しました。エンティティ グラフは、一般的なニーズにおけるエンティティとその属性の 90% をすでにカバーしています。読解技術の面では、百度ブレインは中国の6万の国立図書館のコレクションに相当する数千億の記事を読み、数億の実体と数千億の事実に関する知識を蓄積しており、実際のアプリケーションによって生成される知識を毎日「学習」することで継続的に最適化しています。対話理解の面では、百度の理解・対話技術プラットフォームUNITが2.0にアップグレードされ、コールドスタート機能がさらに強化され、人間のような会話学習がサポートされるようになりました。同時に、初の産業グレードの対話システムオープンソースフレームワークを公開し、構築のハードルを下げ、開発者がシームレスにクラウドに接続できるようにしました。 Baidu は今後も新技術をオープンソース化し、より柔軟で便利なソリューションを提供し、自然言語理解技術の革新と発展を推進していきます。

強固な基盤を築く: データ、アルゴリズム、コンピューティングパワーが連携して機能する

データ、アルゴリズム、計算能力は、人工知能技術の発展に影響を与える重要な要素です。メインフォーラムで、王海鋒氏は、百度ブレイン3.0は技術システムにチップを組み込み、百度ブレインの計算能力の爆発的な成長を促進すると述べた。百度が独自に開発した中国初のクラウドベースのフル機能AIチップ「Kunlun」も同会議で初公開された。今後、AIチップはBaiduが独自に開発したPaddlePaddleディープラーニングフレームワークと組み合わせられ、AI業界エコシステムの急速な発展を促進します。

Baidu が 2016 年に公式にオープンソース化した PaddlePaddle は、中国の開発者に最適なディープラーニング フレームワークです。メインフォーラムでは、王海鋒氏がPaddlePaddle 3.0を発表した。午後には、百度AI技術生態部ゼネラルマネージャーの于有平氏が詳細な解説を行った。 PaddlePaddle 3.0 には、完全なコア フレームワークに加えて、開発者が最先端の AI 機能に平等かつ便利にアクセスできるようにする AI Studio、AutoDL、EasyDL などのプラットフォームが含まれています。 PaddlePaddle 3.0コアフレームワークは、サーバーバージョンとモバイルバージョンを全面的に最適化しました。PaddlePaddle Fluidは、一般的な主流のモデル構築のニーズを満たす豊富なAPIを提供し、幅広いモデル構築をサポートし、トレーニングランタイムはさまざまな種類のモデルトレーニングのニーズを満たすことができます。PaddlePaddle Servingは、さまざまな予測エンジンに柔軟に適応できます。PaddlePaddle Mobileは、Baiduのモバイル予測の実践経験を統合し、マルチプラットフォームのサポートを提供します。

PaddlePaddle3.0では、AutoDLが大きな注目を集めています。百度ビッグデータ(北京)研究所所長のHuan Jun氏は、AutoDLによりニューラルネットワーク構造をより効率的に自動検索でき、開発者は特別なハードウェア機器なしで高品質のモデルを迅速に入手できると紹介した。 AutoDL は、特定のタスク シナリオに適応しながら、新しいディープラーニング ネットワーク構造の設計、および既存のディープラーニング ネットワーク構造とパラメーターの最適化をサポートするさまざまな機能を提供します。

[[235409]]

膨大なデータの爆発的な増加に伴い、データの価値を発見することが多くの業界で共通の要求となっています。百度のビッグデータ部門の郭謝部長は、百度はデータからデータエンジニアリング、データサイエンス、データ製品から産業ソリューションに至るまで、ビッグデータ製品の技術スタックを形成していると述べた。ビッグデータの特性に基づき、生産材料と生産ツールの両面から産業の発展を推進している。データの安全性を最大限に確保するため、百度はビッグデータ群衆知恵オープンプラットフォーム「点師」を正式に立ち上げました。これは世界をリードする百度AI技術を基盤とし、あらゆる面でデータの安全性を確保し、ツール機能を徐々に開放して業界のデータセキュリティを強化します。

現場では、百度がいくつかのコンテストを立ち上げた。 Baidu Star Developer Competitionは予定通り再開されます。また、PaddlePaddleをベースとした中国大学コンピューター競技会の人工知能創造競技会、KG知識抽出競技会、交通予測競技会、無人車両シリーズ競技会、ビジネスサイン分類・検出、人工知能アクセラレータの応用・設計などのビッグデータ競技会も開催されます。百度は、あらゆる専門家からの挑戦を歓迎し、コンテストを通じてAI業界全体の発展を促進するために協力したいと述べた。

業界関係者は、百度は技術の導入を推進しながら継続的に技術アップグレードを提供しており、現在では中国の人工知能分野のリーダーとなっているとコメントした。 Baidu Brain 3.0へのアップグレードは、BaiduのAI技術の飛躍的なアップグレードでもあります。Wang Haifeng氏は冒頭の挨拶で、「BaiduのAI機能の中核はBaidu Brainであり、Baidu Brain 3.0はBaiduのAI機能の集大成です」と強調しました。 Baidu Brain の技術力の継続的な進歩に基づき、Baidu は中国の開発者や企業に最新の AI 技術を提供することができ、すべての開発者や企業が最新の AI 機能を平等に取得できるようにすることで、中国で AI が繁栄することを可能にします。

<<:  Baidu が DuerOS 3.0 会話型 AI システムをリリース: Bluetooth デバイスに会話機能を持たせる

>>:  Kingsoft WPS Office 2019 正式リリース: Word、Excel、PPT を 1 つのソフトウェアで操作

ブログ    

推薦する

18年経った今、マイクロソフトの自然言語処理技術はどうなっているのでしょうか?

[51CTO.com からのオリジナル記事] 自然言語処理は、人工知能の開発において常に克服しなけ...

自然災害の予測に関しては、AIはまだ大丈夫でしょうか?

古代から現代に至るまで、自然災害は人類に限りない損失をもたらしてきました。都市社会がますます発展する...

...

米国は戦闘における人工知能の活用を推進し続けている

海外メディアの報道によると、米国防総省は最近、トップレベルの設計を強化し、関連技術の急速な発展を促進...

飛行、地中への潜水、海への潜水も可能な多機能ソフトロボット

2月10日のニュース(劉亜珠)最近、科学者たちは変形して運転、飛行、水泳ができる新しい「ソフト」ロボ...

...

建築環境における人工知能:その可能性を実現するためのステップ

AI と自動化により、企業はさまざまな最適化ソフトウェアを使用して、冷房、暖房、発電を自動的に改善し...

リアルタイム6自由度オブジェクトトラッキングを実現するDeepACが登場

本記事では、国立国防科技大学の劉宇教授チームと浙江大学-SenseTime合同研究室の周暁偉教授チー...

...

Microsoft が機械学習モデルを簡単に作成できる Lobe デスクトップ アプリケーションをリリース

なお、Lobe はインターネット接続やログインを必要とせず、現在は機械学習モデルの出力のみ可能である...

2つのセッションでは人工知能技術が注目を集めました。AI技術はこれらの業界で導入されています

近年、人工知能がブームを迎えており、人々は合理的な分析と思考を通じて、人工知能の波をどのように利用し...

...

ロボット研究助手が人間の1,000倍の速さで研究を行うために登場

研究者たちは、研究室の中を動き回り、人間のように科学実験を行うことができる画期的なロボット研究助手を...

AIがソフトウェアテストを変える5つの方法

[51CTO.com クイック翻訳] AI技術は、ソフトウェアテスト作業を5つの方法で変えています。...

ディープラーニングのメリットが終わりを迎える中、AIは再び「死の谷」に直面しているのでしょうか?

[[384224]]大いに期待されているディープラーニングは、人工知能を再び AI の冬に突入させ...