[51CTO.comより引用] 2017年7月21日から22日まで、51CTO主催の人工知能をテーマとしたWOTI2017グローバルイノベーションテクノロジーサミットが北京フラマルネッサンスホテルで開催されました。サミットでは、30 人以上の AI スターと、人工知能をテーマにした数十の素晴らしいスピーチや円卓フォーラムが徐々に披露されました。会場内での素晴らしい講演に加え、会場外にはAI愛好家向けに特別に作られたハンズオンラボや技術体験エリアもあり、見どころ満載のカンファレンスとなっています。 7月21日午前、WOTI2017のメイン会場で、Yunzhisheng CTOのLiang Jiaenが「インテリジェントインタラクションテクノロジーとモノのインターネットのアプリケーション」と題した素晴らしい講演を行いました。以下はスピーチの書き起こしです、ちょっと覗いてみましょう!
皆さん、おはようございます!焦教授は学術的観点から、多くの基礎技術アルゴリズムと進化を紹介しました。今年は人工知能61年目と言えます。3世代にわたる研究と努力を経て、今日まで技術は徐々に成熟し、特にAlphaGoの科学教育の普及により、社会全体が人工知能に注目し、私たちは再びより良い時代を迎えました。 Yunzhishengは設立から5年が経ち、インターネット環境には多くの革新がありました。今日は主にこの部分についてお話ししたいと思います。 今は、インターネットと人工知能を組み合わせた「インテリジェンス・インターネット」の時代です。インターネットは単独で産業になることはできません。大きな価値を発揮するには、産業と密接に融合する必要があります。私たちはこの時代をインテリジェントインターネットの時代と呼び、IoTを再定義します。過去、IoTは数年前から人気の概念でした。モバイルインターネットの後、私たちはInternet of Everythingの時代に入り、偶然にも人工知能と組み合わされました。将来的には、あらゆるものがつながり続け、よりインテリジェントになります。これがビジョンです。 業界全体の発展は、2つの線の組み合わせです。上の線は情報産業の発展であり、最も初期のチューリング時代から情報化時代の到来まで、そしてそれ以前の活気ある10年間、2010年以降はあらゆるものがインテリジェント化する時代を迎えました。この時代を特徴づけるのは下の線であり、これまではあまり注目されていませんでした。人工知能の概念は1956年に誕生しました。私たちはこれまでに2度の寒い冬を経験しました。かつては、コンピューターが登場する限り、人工知能の問題は20年は解決されないだろうと誰もが信じていました。しかし、20年後、人類が月に着陸して帰ってきたとき、人工知能が立てた約束は実現されておらず、第一波はすぐに寒い冬に入りました。 2回目は、業界で初めて適用されたときでしたが、適用範囲が非常に狭かったため、第2波の衰退につながりました。 最初の2回は、大学や研究機関が推進していました。第3の波では、テクノロジーの進化を含め、産業の発展を推進する上で産業界の力が非常に強くなっています。私たちは、この波は1997年にディープブルーがカスパロフを破り、2015年にアルファ碁がイ・セドルを破った時だと考えています。私たち実務家は、これは私たちが想像する未来の人工知能の時代からはまだ遠いと考えています。この産業化の波は、2006年のディープラーニングの復活によって、研究段階から本格的に産業化の時代に入り、産業化できるレベルに到達したことによるものと考えられます。 雲智盛は2012年6月に設立され、先月5周年を迎えたばかりだ。私たちの入り口は音声インタラクションです。これまでのインタラクションの変化は、初期の独立したテープやポイントカードからマウスとキーボードへと始まり、その後、Microsoft のような偉大な企業が誕生しました。モバイル インターネットが登場すると、タッチ + センシングが登場しました。 IOTはモバイル時代に誕生しました。例えば、アリババやテンセントなど、モバイルインターネット時代の製品規模は過去のPC時代よりも桁違いに大きくなっています。2010年以降、誰もがIOT時代にはインタラクションが端末の普及に大きな影響を与えると予測していました。かつては、人間が学習を通じて機械をうまく使いこなす必要がありました。現在では、機械が人間から学び、人間を理解し、自然な方法で人間と対話する必要があります。したがって、人間とコンピューターの相互作用の発展は不可逆的な傾向であり、ユーザーがデバイスを使用するコストはますます低くなります。焦教授は今すでに私たちにたくさんのことを紹介してくれました。 人工知能は、知識、ルール、テンプレート、記号推論から始まります。機械を使用して記号を処理し、機械に人間の知識を与えて問題を解決します。 20年、30年経って、多くの実験で期待通りの結果が得られなかったことが分かりました。その後、誰もが他の方法を考えました。機械学習の方法は新しく提案されたものではありません。多くの科学者も以前から研究を行っており、機械学習の問題の解決に集中できるかどうかに焦点を当てています。機械が人間の知識を保存するのは困難です。データ学習方法を通じて、よりスマートにすることはできますか?これはより良いアイデアです。 当時、教師あり学習や教師なし学習などの基礎理論と統計知識は大きく進歩し、主に分類問題、回帰問題、クラスタリング、次元削減問題などが含まれていました。関数を使用して数学的分布や物理的メカニズムを記述し、データを通じてパラメータを推定し、この方法を使用してマシンをますます強力にすることができると期待していました。十分な大きさのデータがあれば、理論的には多くの関数を分散できます。これはより有望な研究です。 音声認識は、1988年に李開復教授が博士論文として発表したものです。当時は統計的手法が用いられ、音声認識は大きく進歩しました。非常に刺激的な手法でした。しかし、20年から30年近く開発が進み、このメカニズムを現実世界に適用してみると、多くの複雑なデータや複雑なシナリオを解決する方法がまだないことがわかりました。私たちのニューラルネットワークは、人間の脳の多層ニューロン構造をシミュレートしてこの問題を解決します。 なぜ 1980 年代に脇に追いやられたのでしょうか。それは、データ量とコンピューティング リソースの多さが、従来の手法とは比較にならないほどディープラーニングをサポートすることを困難にしたためです。データ基盤は厳密で強固でしたが、ディープラーニングはブラック ボックスであり、誰もそれを改善する方法を知りませんでした。そのため、2006 年までに、ニューラル ネットワークの評判はすでに悪く、20 年以上前のニューラル ネットワークとあまり変わらないものになっていたため、誰もニューラル ネットワークという言葉を口にしなくなりました。最大の特徴はビッグデータの学習であり、特にビッグデータの爆発的な増加は2010年以降に業界で普及し、現在では基本的に人工知能の非常に大きな部分を占めるようになっています。さて、人工知能について話すことは、基本的にはディープラーニングについて話すことと同じです。これらの方法はどれも万能薬ではないと考えており、今後さらに多くの方法が進化することを期待しています。 人工知能技術システムはいくつかの部分に分けられると思います。人工知能は人間と人間の知能システムを管理する方法を研究しています。実際、それは非常に簡単です。私たちの視覚、聴覚、口には、知覚部分と表現部分が含まれています。実際、最も重要な部分、コア部分は、いわゆる認知コンピューティング部分です。認知科学者は、人間が認知プロセスを実現する方法を完全に理解していません。人間の脳は非常に複雑であり、解剖学では、脳が活動しているときにどのように機能するかを研究することはできません。 現在、インフラストラクチャの面では、機械学習、ビッグデータ、クラウド コンピューティングを活用して開発を推進しています。まず、コンピューティングの観点から言えば、機械が人間を超えることは驚くべきことではありません。AlphaGoは囲碁の名人を超えることができます。そのコンピューティングパワーは完全に人間を超えています。その知覚は人間のレベルに近いか、それを超えています。画像であれ評価であれ、その最大の特徴は、環境適応性を向上させる必要があり、表現技術を完成させる必要があることです。 音声合成:10年前、あるいはそれより前は、音声放送を聞くことはでき、音声も良好で、問題なく受信できました。しかし、物語を語ったり、ジョークを言ったり、ドラマを演じたりするよう頼んだら、かなり困難でした。認知は人工知能の深海領域です。私たちが習得した方法から、自律意識を生成する方法はありませんが、自律意識を生成したいですか?必ずしもそうではありませんし、人工知能を良くするために自律意識を生成する必要はありません。人工知能、主に自律意識の誕生について、より深い懸念を抱いている人もいます。 将来的には、車載、家庭用、ウェアラブル、ハンドヘルドデバイスなど、業界全体のアプリケーションが非常に大規模に浸透し、私たち一般ユーザーがそれを実感できるようになると思います。インテリジェント システムがユーザーをより深く理解するにつれて、こうした人間によるサービス ニーズを満たすことができるようになります。今ではスマート製造が盛んに行われており、選り好みして欲しいものが見つからないという状況ではなく、私たちが作るものがユーザーをより満足させるものになることを望んでいます。私たちが実現したいのは、在庫ゼロ、ユーザーシステム、そしてユーザーが必要とするものを生産することです。政府主導のスマートシティ構築を中心に、医療、教育、金融、交通、セキュリティなどの分野においても、これらの分野への応用の余地は大きいと考えています。 ユーザーから企業、政府に至るまで、産業のアップグレードに対する需要は膨大です。次はテクノロジー全体です。AI技術の飛躍的進歩であれ、ビッグデータやスーパーコンピューティング能力の普及であれ、確固たる基盤があります。そのため、私たちは今回の人工知能産業化に非常に強い自信を持っています。無駄な状況にはならないと信じています。 以下は、私たちが長年かけて開発してきたインテリジェントな音声インタラクションです。ぜひ皆さんと共有したいと思います。 Unisound は、モノのインターネット、音声および画像アプリケーション、認知コンピューティング機能、いわゆる「3 頭の馬」または 3 つの主要エンジンなどの人工知能サービスに重点を置いています。私たちは、その核となるのは認知的ブレークスルーであると信じています。これは、今後 5 年間で取り組む必要があることであり、過去 5 年間で成果が現れ始めています。雲智盛の起源をご紹介します。私たちは、インテリジェンスはクラウドで実現され、将来的には多くのコンテンツサービスがクラウドで完了すると信じています。 認識の部分は言語を含む認知コンピューティングを表していると考えています。知識、思考、推論、計画能力はすべて認識を通じて完成します。音はモノのインターネットの相互作用における重要なリンクです。必ずしもすべての相互作用モードに取って代わるわけではありませんが、相互作用の方法です。人間にとって、言語による相互作用は非常に自然で主要な相互作用方法です。過去 5 年間、Unisound は設立から IoT の産業化まで、多くの取り組みを行ってきました。その取り組みについて、一つ一つ詳しく説明することはしません。 人工知能技術は、その技術的背景が非常に深く、過去に非常に強力な技術的蓄積があり、業界で違いを生み出すことができました。この業界は60年間蓄積されており、遺伝子技術には非常に深い数学的背景が必要です。私たちはクラウド サービスを経験し、そこにディープラーニングを適用してきました。そして、ディープラーニングはモバイル インターネットに役立っています。音声がハードウェアデバイスと密接に統合されると、ユーザーエクスペリエンスは非常に良くなり、ユーザーは音声とのやり取りに非常に積極的になります。そこで、私たちは2014年に「クラウドチップ」戦略を打ち出しました。モノのインターネットは、将来間違いなく非常に大きなユーザーシナリオになるでしょう。対話には手や目は必要なく、人々は触覚に大きく依存しています。最近では、多くの人が路上で頭を下げて携帯電話を操作しており、多くの事故が発生しています。そのため、ウェイクアップ技術は不可欠であり、モノのインターネットへのアクセスに関する多くの作業が行われてきました。 この技術も全面的にアップグレードしました。音声認識、意味理解、音声合成など、すべて実装されています。自動車市場でも好調です。 2016 年以降、スーパーコンピューティング プラットフォームなど、この方向に進むためのサポートとなるデータがますます蓄積されるようになりました。 2017 年には、端末インタラクション方法の推進にさらに重点を置く予定ですが、これについては後ほど詳しく説明します。 5年間の開発を経て、私たちはクローズドテクノロジーループを確立しました。エコーノイズ低減やウェイクアップの問題、消費電力の削減方法など、インタラクションに関わる技術は数多くあります。将来、モノのインターネットは大きなバッテリーやプラグインで構築できないため、消費電力の問題は解決する必要があります。音声認識と声紋認識はすべて、私たちが完了する必要があるタスクです。音声合成では、ユーザーが適切なフィードバックを得る必要があります。10%、20%、さらには30%の改善を望むなら、コンピューティング リソースとデータ、機械学習手法を含む非常に強力な AI アーキテクチャが必要です。ここではいくつかの重要な問題があります。 まず、遠距離通話とノイズ低減があります。最もよく聞かれるのは、ディスカバリーicall(同音異義語)と8つのマイクです。昨年、Googleは2つのマイクのソリューションを使用しました。私たちの主なソリューションは2つのマイクのソリューションです。なぜなら、人は対話の問題を解決し、方向を識別するために2つの耳だけを必要とするからです。同時に、私たちは特定の人の対話を聞くことに重点を置いています。 2 つのマイクと複数のマイク。多くの人は、マイクの数が多いほど強力になると考えていますが、実際には、マイクの数が多いほどアルゴリズムが成熟しますが、マイクの一貫性を確保する必要があり、同時に強力な技術サポート機能も必要です。しかし、信号の観点から見ると、ノイズ低減能力は非常に低いです。最大の利点は、2 つのマイクの取り付けが非常に簡単なことです。デバイスの形状に関係なく、2 つのマイクを取り付けるのは比較的簡単です。ただし、8 つまたは 6 つのマイクを取り付けるのはより複雑になります。 低電力ウェイクアップは、組み込みシステムの最適化に近いものです。まずはX86で最適化しました。2015年には専用チップで高速化しました。2017年にはUniOneソリューションを開発しました。チップを通じてこれらのノイズ低減機能と認識機能を追加することで、消費電力とコンテンツのより良いマッチングを実現できます。次は垂直アプリケーションの最適化です。音声認識技術は現在急速に発展しているため、POIやスマートホームなど、さまざまな業界で多くの最適化ポイントがあります。合成技術だけでなく、多くの作業が必要です。技術については詳しく説明しません。スタッフにこの音声を再生してもらい、皆さんに感じてもらいましょう。 (音を再生) これは私たちの音声合成の音です。10年前よりもずっと良くなりました。主に機械のコマンドを対象とし、チャット、質疑応答、会話の推奨などを組み合わせています。これは、エンドツーエンドの学習と実用的なコンピューティングフレームワークを統合した対話システムです。意味理解とは、初期の音声アシスタントのように、すべての情報を 1 つの文にエンコードできるようになることを意味します。実用的なコンピューティングとは、マシンがユーザーが誰であるか、いつどこで対話するかをより正確に認識できるようにすることです。このアプローチにより、対話時にすべての情報を再配置する必要がなくなるため、面倒な人間とコンピューターの対話プロセスを簡素化できます。 前回は、当社のインテリジェント音声対話技術の進歩についてお話ししました。今回は、モノのインターネットにおける当社のアプリケーション実践の結果を皆さんにご紹介したいと思います。モノのインターネットとインテリジェントネットワークの将来のビジョンに関して、私たち人間が認識しているのは、スマートホーム、スマートトラベル、センサーデバイスです。この状態が実現できれば、スマート製造とスマートシティのサポートにより、toC、toB、toG産業が発展するでしょう。インテリジェントなインタラクションは過去のインタラクション方法よりもはるかに複雑であるため、問題を解決する上で私たちが直面する課題は依然として非常に大きいです。過去のタッチスクリーンとは異なり、多くの AI 技術を統合するなど、実用上の多くの問題を解決する必要があり、これは非常に大きな困難です。 さらに、完全なインタラクティブ ソリューションを設計するという問題を解決する必要があります。SDK を提供しても、それをうまく使いこなすのは困難です。多くの開発者は、SDK を使用しても、目的のインタラクティブ効果を実現するのは難しいと感じています。遠距離認識もあります。実際のアプリケーション シナリオでは、ユーザーが手をタップして対話することは不可能です。コンテンツの集約やホーム コントロールもあります。これを完全なソリューションに仕上げ、インターネット上ですぐに適用できるようにしました。 製品システムはAI技術全体を中心としており、クラウドと端末、チップソリューションを組み合わせたインタラクティブシステムを構築しました。これにより、システムは業界に追加できる完全なソリューションを備え、モノのインターネットに迅速に適用できます。以下は産業導入事例です。左は弊社量産設備です。スタッフに動画の再生をお申し付けください。 (ビデオを再生) これは Gree エアコンの展示です。この製品は、現在では基本的に国家首脳が展示会場を訪れた際にデモを行う製品の一つとなっています。 Yunzhisheng は創立 5 周年を記念して、ホーム コントロール ソリューションである Pandora ソリューションを発表しました。ビデオ デモをご覧いただけます。 (ビデオを再生) このデモにはいくつかのポイントがあります。対話のたびに起動する必要はありません。2 人のユーザーがチャットしているときは対話的なアクションは実行されません。指示やコンテンツを受信できることを通知した場合にのみ実行されます。独自の音声をカスタマイズすることもできますが、これらのテクノロジはすべて後で利用できます。以下は車載用製品ですので、ディスプレイを見てください。 (ビデオを再生) 医療分野での応用もあります。昨年、私たちとユニオン病院は、そのような症例入力システムを開発しました。こちらにビデオがあります。 (ビデオを再生) ここで使われる語彙はすべて専門用語です。専門的なトレーニングを受けた後でも、それをすべて覚えることはできません。専門家は10時半に仕事を終え、毎日これに時間を費やさなければなりません。私たちは彼らの時間を大幅に節約します。 これが私たちのモノのインターネット産業の未来の形です。私たちは最初のいくつかの部分に焦点を当てています。1つはスマートブレイン部分、つまり「クラウドコア」製品システムで、スマートライフとスマートサービスに向けられており、スマート端末製品にスマートサービスソリューションを提供します。モノのインターネットと人工知能の組み合わせは避けられないトレンドです。インテリジェントな音声技術は、産業化の機会と課題をもたらしました。音声技術は画期的な進歩を遂げましたが、産業化は依然としてノイズ、アクセント、フィールド、電力消費、コストなどの課題に直面しています。私たちは、将来の最大の課題は認知にあり、認知コンピューティングがインタラクションとサービスのアップグレードの鍵となると考えています。将来的には、テクノロジー、製品、サービスのオープンエコシステムが AI 業界の急速な発展につながるでしょう。今回お伝えしたいことは以上です。ありがとうございました。 51CTO の記者は、WOTI2017 グローバル イノベーション テクノロジー サミットの興味深いレポートを引き続きお届けしますので、どうぞお楽しみに! [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
1. 生産性の向上多くの組織がリモートワークに移行するにつれて、効率性を維持することが重要になります...
[[314955]]川沿いを頻繁に歩くと、足が濡れてしまいます。決済の兄貴分であるアリペイも小さな...
誰かが本当にあなたの顔を真似して、顔認識システムを回避できるのです! 最近、スタンフォード大学の研究...
中国サイバースペース管理局と他の7つの部門が共同で発行した「生成人工知能サービスの管理に関する暫定措...
ロボット兵士はまもなく現実のものとなり、戦争作戦の遂行において人間の兵士を支援し、負傷した兵士に医療...
6月16日、MetaのCEOマーク・ザッカーバーグ氏とその代理人は、Metaが開発中の新しい人工知...
[[426889]]古代の学者たちは、一杯の酒を飲みながら心の奥底にある感情を表現したり、武宇寺に...
AI アルゴリズムの人気により、近年会話型ロボットの人気が高まり、あらゆる分野で推進され、使用されて...
今日、AI プログラムは、写真やビデオ内の顔や物体を認識し、音声をリアルタイムで書き起こし、X 線ス...
AI界の巨人ジェフリー・ヒントン氏は「テクノロジー企業は今後18カ月で、現在のGPT-4の100倍の...
Cycode の共同創設者兼 CTO である Ronen Slavin 氏は、AI によって実現され...