コンピューティングパワーのギャップを克服: Baidu は、コンピューティングパワーを最適化するために PaddlePaddle と組み合わせた新しい AI コンピューティング アーキテクチャを発表

コンピューティングパワーのギャップを克服: Baidu は、コンピューティングパワーを最適化するために PaddlePaddle と組み合わせた新しい AI コンピューティング アーキテクチャを発表

「このフォーラムは最先端の技術を採用しており、幅広いトピックをカバーしています。まったく不満のないフォーラムです。」

「技術的な説明は詳細で、実装事例も十分でした。これは、お金を払う価値のあるサブフォーラムでした。」

7月3日午後、百度AI開発者会議「Baidu Create 2019」の百度ブレインフォーラムが予定通り開催された。午前のメインフォーラムで、百度最高技術責任者の王海鋒氏は、飛躍的なアップグレードを実現した百度ブレイン5.0を正式に発表した。アルゴリズムのブレークスルーとコンピューティングアーキテクチャのアップグレードに基づき、AIアルゴリズム、コンピューティングアーキテクチャ、アプリケーションシナリオの統合イノベーションを実現し、ハードウェアとソフトウェアが一体となったAI制作プラットフォームとなった。

[[269647]]

目を引く「蓋付きの茶碗からお茶を注ぐロボットアーム」、わがままな「自由に中国語と英語を話す」、インテリジェント音声チップ「百度紅虎」など、すべてが観客に深い印象を残し、AI技術を人々に近づけました。その裏にはどんな先進技術が隠されているのか?なぜBaidu Brain 5.0はハードウェアとソフトウェアを統合した大規模AI制作プラットフォームと呼ばれるのか?「技術」満載のBaidu Brain Forumが、その答えを一つずつ明らかにしていく。

音声、視覚、言語、知識の革新AIアルゴリズムは手を取り合って進化している

大幅にアップグレードされたBaidu Brain 5.0は、基本的なディープラーニング技術から一般的なAI機能、アプリケーション技術ソリューション、カスタマイズされたモデル、その後の展開と統合に至るまで、人工知能産業アプリケーション実装の全プロセスを開放し、AI技術の標準化、自動化、モジュール化を実現しました。

Baidu Brain の音声技術は、音声認識、音声合成、遠距離音声対話チップにおける成果を披露しました。百度の音声技術部門のシニアディレクターである高良氏は、認識の面では、百度がストリーミングマルチレベル切断注意モデルSMLTAを提案し、文章全体の注意モデルを超えるローカル注意モデリングを実現したと紹介した。オンライン音声への注意モデルの大規模な使用を実現したのは世界初でもある。 SMLTA は認識速度を大幅に向上させるだけでなく、認識精度も向上させます。有効な入力方法製品の相対精度は 15% 向上し、有効な話者製品の相対精度は 20% 向上しました。合成の面では、現在直面しているスタイルの転送、音色のシミュレーション、感情の擬人化という3つの大きな課題に対応するため、Baiduは音声合成技術Meitronを発表しました。これは、音声内の音色、スタイル、感情などの要素を異なるサブスペースにマッピングできます。使用時に、さまざまな要素を任意に組み合わせて、合成音声のスタイルを柔軟に制御できます。同時に、言語合成の閾値が下がり、わずか20文でその人独自の音声を生成できるようになります。

端末側での実用的なアプリケーションに対する需要が非常に高いため、Baidu Brain Voice チームは遠距離音声対話用に設計されたチップ、Baidu Honghu チップを開発しました。 Honghu チップの設計は、従来のチップ設計方法を変更し、「ソフトウェア定義チップ」という新しい設計コンセプトに従っています。このチップは、デュアルコアHiFi4アーキテクチャ、2.8Mの大容量メモリ、TSMCの40nmプロセスを採用しています。このハードウェア仕様により、約100mWの平均動作消費電力で、遠距離音声対話コアのアレイ信号処理と音声ウェイクアップ機能をサポートできます。同時に、自動車グレードの基準に従って構築されたHonghuチップは、非常に厳しい要件を満たすことができ、車内での音声対話やスマートホームなどのシナリオにさらなる想像力をもたらします。 Honghuチップはテープアウトと同時に量産されました。

百度の視覚技術は2019年、主要な国際大会で「不正行為」モードに突入した。最近終了したCVPRでは、動画理解、顔ライブネス、車両REIDなどの分野で目覚ましい成果を上げた。上半期には、NTRIE2019、ICME2019、ICDAR2019、DWAN2019などの大会でも優勝した。百度のビジュアル技術部門と拡張現実技術部門のディレクターである呉中琴氏は、5G時代には、より多くの物理デバイスが高信頼性、低遅延のネットワーク空間に接続され、人々が環境やデバイスとやりとりする方法が完全に変化するだろうと紹介した。新しくリリースされた Visual Semantic Platform 2.0 は、視覚技術を「はっきりと見て理解する」から「インタラクション」へとアップグレードすることを推進しています。 Visual Semantic Platform 2.0 は、インタラクションのアップグレードとソフトウェアとハ​​ードウェアの統合という 2 つの側面で画期的な進歩を達成しました。

インタラクティブなアップグレードには、統合されたヒューマン コンピュータ インタラクション システムと、大規模なシーンの物理世界インタラクション システムが含まれます。簡単に言えば、統合ヒューマンコンピュータインタラクションシステムとは、人、機械、仮想環境の自然な相互作用と統合であり、AR特殊効果を実現するライブブロードキャスト、ショートビデオ、特殊効果アプレットなどのシナリオに適しており、多くのBaiduビデオアプリに適用されています。大規模物理世界インタラクションシステムは、視覚ポジショニングとAR技術の画期的な組み合わせであり、大規模な仮想情報と物理世界の正確な重ね合わせを実現し、AI時代の新しいインタラクションシステムを確立します。現在、ソフトウェアとハ​​ードウェアの組み合わせにより、データのプライバシーを保護しながら、より効率的なビジュアルコンピューティングと低遅延エクスペリエンスのアプリケーションシナリオを満たすことができます。 Baidu のビジョン関連のハードウェアとソフトウェアの統合は、主にモデル圧縮プラットフォーム PaddleSlim、マルチモーダル FaceID 開発コンポーネント、AI カメラという 3 つの部分に焦点を当てており、オールインワンのハードウェアとソフトウェアのソリューションとなっています。 FaceIDは現在1,200万台以上のデバイスをカバーしています。

Visual Semantic Platform 2.0 は、多くの高度な認識技術を更新し、ロボット工学技術の新たな進歩も可能にしました。 Baidu 3D Visionの主任科学者であるヤン・ルイガン氏は、ロボットは知能体であると紹介した。知能体は、知覚技術に加えて、環境知覚から能動知覚への移行を実現するために意思決定と行動関連の技術を必要とする。現在、百度のインテリジェントボディ技術の研究は、主にアポロ自律運転、建設機械、サービスロボットの3つの分野に集中しています。今朝のメインフォーラムで注目を集めたロボットアーム「ティードクター」は、巧みな動作だけでなく、伝統的な長い注ぎ口の急須からお茶を注ぐという作業もこなしました。その基礎となったのが、サービスロボットソリューションです。 Baidu 3D ビジョンに基づいて、ロボットはティーカップの位置を検出して追跡できます。ロボットの動作計画と制御により、ロボットアームは作業スペースでの衝突検出と障害物の回避を実行できます。リアルタイムの動作計画の後、自動的にお茶を注ぐ軌道を生成できます。その後、水の流れの変化を感知し、お茶を注ぐ位置をリアルタイムで調整できます。音声と意味のリンク技術の分析により、ロボットは「人間」のようになり、理解し、上手に話し、正確に行動できるようになります。

言語と知識技術の面でも、Baidu Brain は一連のイノベーションとブレークスルーを発表しました。百度のAI技術プラットフォームシステムのエグゼクティブディレクターである呉天氏は、百度が持続可能な学習機能を備え、コアモデル機能を継続的に向上させる知識強化型セマンティック理解フレームワークERNIEを設計・実装したことを紹介した。現在、ERNIEは10億以上の知識を学習し、中国語NLPタスクの指標を全面的に更新し、多くのBaidu製品アプリケーションでの効果を向上させました。機械同時通訳においても、翻訳プロセス中に音声認識結果を修正するジョイントワードベクトルエンコーディング技術や、複数回の翻訳における一貫性や首尾一貫性の問題を解決できる談話翻訳モデルなど、新たな開発が行われています。先進的な音声技術と組み合わせることで、Baidu Brainは高精度で低遅延の機械同時通訳技術を実現しました。

知識は AI が現実世界をより深く理解するのに役立ちます。メインフォーラムでは、王海鋒氏が最近人気の音楽ドキュメンタリー「大河歌词」を例に、百度のナレッジグラフ技術と統合されたビデオ意味理解機能を鮮明に実演しました。このテクノロジーは、ビデオのマルチモーダル知識を分析し、多種多様な知識グラフ上で関連付けを確立し、計算推論を通じてビデオの深い意味的理解を確立します。

さらに、呉天は業界知識グラフプラットフォームとインテリジェント創造プラットフォーム2.0も正式にリリースしました。業界知識グラフ プラットフォームは、さまざまな業界のニーズを満たすように設計されており、知識グラフを構築して適用し、インテリジェンスの促進に役立ちます。優れた知識グラフ コア テクノロジーを基盤とする業界知識グラフ プラットフォームは、インテリジェントで効率的な知識生成プロセス、低コストの起動、業界間の移行機能を提供し、業界の開発者が業界知識グラフをカスタマイズして適用するのに役立ちます。新しいインテリジェント作成プラットフォームは、リアルタイムのホットスポット追跡と関連する豊富な素材を統合し、包括的な作成支援機能を備えており、従来のコンテンツ作成が直面する問題を簡単に解決し、プロセス全体を通じてクリエイターを支援します。呉天はまた、10月にテストに招待されるマルチモーダル自動作成機能を発表しました。現在、百度は百度脳言語知識技術オープンプラットフォームを構築しており、豊富な基本技術を備えているだけでなく、知能創造プラットフォームを含む翻訳オープンプラットフォーム、UNITプラットフォーム、知識グラフ構築および応用プラットフォームなど、4つの応用レベルプラットフォームを形成し、さまざまな分野に百度の先進的な言語知識技術を提供しています。

基礎体力を強化し、データ価値を掘り起こすAIコンピューティングに注力

Baidu Brain 5.0 はアルゴリズム レベルでの革新だけでなく、コンピューティング能力においても大きな進歩を達成しています。近年、アルゴリズムの計算能力の需要は30万倍近く増加しているのに対し、チップの計算性能は30倍しか増加しておらず、両者の間には大きな隔たりが生じています。

Baidu 副社長の Hou Zhenyu 氏は、Baidu の新世代 AI コンピューティング アーキテクチャを聴衆に紹介しました。 AIコンピューティングの課題に直面して、エンドツーエンドでAIコンピューティング機能を提供できることが必要です。これには、コンピューティングシステムが、従来の大量データ処理機能とIOピーク値の追求から、AIトレーニング機能のIO集約型、コンピューティング集約型、通信集約型の要件、およびAI推論機能の高スループットと低レイテンシの要件を満たすように変革する必要があります。

Hou Zhenyu 氏は、来たる AI + 5G 時代にはコンピューティングがあらゆる場所に存在するようになると考えています。実際のコンピューティングはデバイス、エッジ、クラウドで行われるため、DEC シナリオが次の研究の焦点となります。同時に、チップ、システム、デバイス間の相互接続により、さまざまなシナリオでの計算がつながり、より大きなコンピューティング能力が生み出されます。

基盤となるチップと上位レベルのアプリケーションの間にはオペレーティング システムが必要です。王海鋒氏は、ディープラーニングフレームワークがインテリジェント時代のオペレーティングシステムであると考えています。百度が自社開発した国産フル機能ディープラーニングプラットフォーム「PaddlePaddle」は、中国独自の「AIオペレーティングシステム」です。メインフォーラムでは、Baidu PaddlePaddleとHuawei Kirinチップが密接に連携することが正式に発表されました。先進的なエッジAIチップとディープラーニングプラットフォームが共同でエッジAIに強力なコンピューティングパワーを提供し、高速ディープラーニングの運用効率を生み出します。

[[269648]]

多くの開発者は PaddlePaddle をよく知っています。 Baidu のディープラーニング技術プラットフォーム部門のディレクターである Ma Yanjun 氏は、PaddlePaddle の 5 つの中核的な利点について詳しく説明しました。 PaddlePaddle はコアフレームワークレベルで動的グラフィックスと静的グラフィックスの両方をサポートし、柔軟性と効率性のバランスをとっています。PaddlePaddle は、産業グレードのアプリケーション効果を実現する 70 以上の公式モデルを提供しています。PaddlePaddle は、大規模な分散トレーニングとエンドツーエンドの展開をサポートしています。中国の開発者向けに、PaddlePaddle は非常に包括的な中国語サポートを備えた体系的なディープラーニング技術サービスを提供しています。馬延軍氏はまた、15年間にわたって成功裏に開催され、テクノロジー業界の「オスカー」とも呼ばれるクラシックイベント「2019 Baidu Star」が今から登録を開始すると現場で発表した。Baidu StarプログラミングコンテストはPaddlePaddleのコアフレームワークを開発するタスクであり、Baidu Star開発コンテストはPaddlePaddleに基づくターゲット検出タスクである。

モデリングのコストを削減し、モデリングの効率を高め、ビッグデータへの依存を減らし、人間の介入を減らすために、Baidu は AutoDL 自動モデリング技術を開発しました。フォーラムでは、Baiduのビッグデータ研究所所長であるHuan Jun氏が、設計、移行、適応の3つの側面で全面的にアップグレードされたAutoDL 3.0を正式にリリースしました。また、いくつかの実践的なケースも共有しました。現在、PaddlePaddleを通じて正式にオープンソース化されています。

産業界の実践から生まれたディープラーニング プラットフォームである PaddlePaddle も、業界に貢献しています。 Baidu Map Business UnitのゼネラルマネージャーであるLi Ying氏は、交通分野を例に挙げ、PaddlePaddleをベースとするBaidu Mapsが、ETAの開発、デバッグ、トレーニングの効率化の利便性を向上させ、1日で数百億のデータトレーニングを完了し、ETAの展開と予測パフォーマンスを向上させ、1日で数百億の通話をサポートしたことを紹介しました。 ETA は、地図上のルート計画の主な機能であり、ユーザーの旅行決定の主な参照要素です。ユーザーにとって、PaddlePaddle を搭載した Baidu Map ETA は、移動時間のインテリジェントな推定を実現します。旅行前に道路状況を事前に予測し、混雑する時期を避け、混雑の期間を把握し、混雑したルートを回避し、移動時間を合理的に計画することができます。

データはAI時代の中核的な生産手段です。ビッグデータ業界の現在の発展は、データ資産のセキュリティとデータ価値の発見コストの高さという2つの大きな問題に直面しています。百度のビッグデータ部門シニアディレクターの郭謝氏は、百度電視ビッグデータテクノロジーオープンプラットフォームは、ビッグデータiPaaSプラットフォームの成功的な実装として、ビッグデータ産業の発展におけるセキュリティと効率という2つの大きな問題に重点を置いていると紹介した。同時に、Dianshi には、安全なデータ融合処理環境、マルチレベルのオープンでカスタマイズ可能なコンポーネント、統合されたビッグデータ開発プラットフォームという 3 つの中核的な特徴があり、開発者がビッグデータの価値を安全かつ効率的に探求するのに役立ちます。 Baidu は、Dianshi を通じてビッグデータ エコシステムの発展を加速し、開発者がデータの価値を深く探求し、石を金に変えるのを支援したいと考えています。

AIアルゴリズム、コンピューティングアーキテクチャ、アプリケーションシナリオを統合・革新するBaidu Brain 5.0は、ハードウェアとソフトウェアの両方を統合した大規模なAI制作プラットフォームとなっています。午後の百度ブレインフォーラムで行われた約3時間にわたる情報共有は、百度ブレイン技術の氷山の一角に過ぎませんでした。先進的な技術に加え、Baidu Brainは今後も開放とエンパワーメントを進め、現在210以上の先進的なAI技術能力を開放しています。プラットフォームの呼び出し数は前年比108%増加し、カスタマイズされたプラットフォームモデルの数は急速に増加しています。プラットフォーム上の開発者数は130万人に達しています。王海鋒氏は「魚を与えるより、魚の釣り方を教える方が良い」と述べた。百度はAI技術の開発を進める一方で、優れたAI技術の公開にも力を入れている。 Baidu Brain 5.0 は、あらゆる分野の業界開発者が産業インテリジェンスを加速するのに役立ちます。

<<:  「許してバオ」に続き、「ワンクリック脱衣」が再び登場。テクノロジーの悪の問題をどう解決するのか?

>>:  金融分野における機械学習の7つの主要な応用例をカウントダウン

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

メディア業界の自動化をリードする10のAI分野

データ爆発の時代では、データの収集だけでは不十分です。ビジネスを運営し、成長させるための洞察を得るに...

...

GitHub、企業向けAI搭載コーディングアシスタント「Copilot Enterprise」をリリース

GitHub の新製品「GitHub Copilot Enterprise」は、企業独自のコードベー...

...

ビデオ映像から間取り図を推測する新たなAI研究は目を見張るものがある

フロアプランは、空間を視覚化したり、ルートを計画したり、建物のデザインを伝えたりするのに役立ちます。...

口の中に124個のセンサーを埋め込み、Google Glassの創設者の新プロジェクト:舌でメッセージを送信

不運なGoogle Glassはスマートデバイスの波の中で大きなインパクトを与えることはできなかった...

DeepFakeの頭部置換技術がアップグレード:浙江大学の新モデル、GANが美しい髪の頭部を生成

DeepFake は顔を本物らしく入れ替えることができますが、髪の毛の場合は同じことはできません。現...

...

ISPの廃止はテスラの「純粋なビジョン路線」にとって重要なステップ

私はテスラの「純粋なビジュアルルート」に常に懐疑的でした。疑問なのは、アルゴリズムの進歩によってカメ...

...

...

...

NetEase はデータ指標の異常をどのように検出し、診断するのでしょうか?

1. 背景指標はビジネスと密接に関係しており、その価値は、問題点やハイライトを発見し、タイムリーに...

RNN の理論から PyTorch まで

RNN とは何か、どこで使用されているか、どのように前方および後方に伝播するか、そして PyTorc...