人工知能の分野では、すでに世界中で 10 個の画期的な技術が存在します。

人工知能の分野では、すでに世界中で 10 個の画期的な技術が存在します。

[[238191]]

人工知能はハイテクで、多岐にわたり、多次元的で、学際的な統合装置であり、ビッグデータとインターネットに基づく純粋なコンピュータアプリケーションから、人々の日常の生産と生活のあらゆる側面へと徐々に進化し、微妙な方法で私たちを改善し、変えています。現在、多くの新技術と新モデルが徐々に実用化されていますが、ほとんどの分野はまだ推進、テスト、研究の段階にあります。携帯電話の普及のように、人工知能技術を推進し、人々に人工知能を使用させる大きな機会をどのように捉えるかは、私たちの世代が直面しなければならない時代の発展の「必須の質問」です。

2018年、人工知能技術は多くの面で画期的な進歩を遂げました。国内外のテクノロジー企業は、人工知能をより多くの分野に適用しようと絶えず取り組んでいます。テクノロジー大手と新興企業の両方が、継続的なイノベーションと技術進歩の促進に取り組んでいます。次に、中国と海外の人工知能分野における10の画期的な技術を見てみましょう。

1. ニューラルネットワークに基づく機械翻訳

選択理由: 翻訳は「自然言語処理」の中でも最も重要な分野であり、また比較的難しい分野でもあります。初期の頃は、機械翻訳は「低レベルの翻訳」とみなされ、嘲笑されていました。今日では、ニューラルネットワークを使用した機械翻訳の精度は大幅に向上し、プロの手作業による翻訳に匹敵するようになりました。有名な Google 翻訳、Microsoft 音声翻訳、Sogou 音声認識はすべてこのテクノロジーに基づいています。

技術革新: 機械翻訳は、研究者が何十年も研究してきた研究分野です。その技術的な中核は、膨大な数のノードを持つディープ ニューラル ネットワークであり、コーパスから翻訳知識を自動的に学習できます。ニューラル ネットワークは、人間の脳ニューロンの多層深層伝達プロセスを比較的うまくシミュレートできるため、いくつかの複雑な問題を解決する上で非常に明らかな画期的なパフォーマンスを発揮します。

マイクロソフトは今年3月、同社の機械翻訳システムが一般ニュースの中国語から英語への翻訳において初めて人間の専門家レベルに到達したと発表した。マイクロソフトの自然言語コンピューティンググループは、これまでの研究の蓄積に基づき、今回、共同トレーニングと一貫性規範という2つの新しい技術をシステムモデルに追加し、翻訳の精度を向上させた。最終的に、自然言語処理における新たなマイルストーンが達成され、機械翻訳がアマチュアの人間の翻訳者を上回るまでの時間が 7 年も早まりました。

意義: ニューラル ネットワーク ベースの機械翻訳は、従来の単語単位の翻訳の効果を直接改善し、文章全体に基づく翻訳にアップグレードします。

2. ビジョンベースのロボット自律ナビゲーションとインテリジェントアプリケーション

選定理由:ロボットの究極の目標は、人間にインテリジェントなサービスを提供することです。自律航行は、近年、人間が克服しようとしている技術的な障壁です。PowerVision は、視覚などの複数のセンサーを統合して水中ロボットが自律航行とインテリジェント認識を実現できるようにすることで、インテリジェントロボットの分野で画期的な進歩を遂げました。

技術革新: ロボットのアプリケーション シナリオと操作タスクがますます複雑になるにつれて、単一のセンサーではアプリケーション要件を満たすことが難しくなります。複数のセンサーの情報融合は、ハードウェアリソースに大きく依存します。PowerVisionは、各種センサー、慣性航法、動作制御、カメラISP、視覚検出/認識、ビジュアルSLAM、ディープラーニングなどのコアテクノロジーを基盤として、長年にわたりロボット産業に深く関わってきました。組み込み側の統合プラットフォームのシステムアーキテクチャと最適化された設計により、モバイルプラットフォームのハードウェアリソースの限界を打ち破り、水中ロボットがより正確かつインテリジェントに、包括的にターゲットを認識し、水中の魚をロック、検出、識別、追跡できるようにしました。水中ロボット分野における自律航行のインテリジェントな応用が実現しました。

意義: ナビゲーション制御、視覚技術、ディープラーニングを組み合わせることで、ロボットは地球環境内で自律的に配置および移動することができ、より広範な水中資源やアプリケーションのニーズに対する人間の探査に強力な保護と安全対策を提供します。

3. DuerOS会話型人工知能システム

選定理由: DuerOS 3.0 は、感情音声放送や声紋認識機能などの自然言語インタラクション技術の包括的なアップグレードを含め、画期的な自然対話インタラクションをユーザーに提供できます。

技術的ブレークスルー: DuerOS は、Baidu の Duer ビジネス ユニットによって開発された会話型 AI オペレーティング システムであり、10 のカテゴリに 250 を超えるスキルを備えています。 DuerOS には、音声認識から音声放送、画面表示までの完全な対話プロセスと、対話をサポートする自然言語理解、対話状態制御、自然言語生成、検索などのコアテクノロジーが含まれています。これらのテクノロジーは、アプリケーション層と機能層の実装をサポートします。

2018年7月4日、最新のDuerOS 3.0が正式にリリースされ、対応製品では複数ラウンドの音声エラー修正を実装し、複雑な段階的意図認識と条件付き意図認識をロジックで実行できるようになりました。これにより、ユーザーの意図をより正確に判断し、最終的には拡張機能を使用してユーザーの行動を理解することで機能の向上を実現できます。これに基づいて、DuerOS3.0 は、スクリーン デバイス ソリューション、Bluetooth デバイス ソリューション、業界ソリューションなど、20 を超えるクロスシナリオおよびクロスデバイス ソリューションを提供します。

意義:DuerOSはAI時代の商用化を先導する最初の企業であり、製品、コンテンツ、プロモーションの面でエコパートナーに完全なアプリケーションソリューションサポートを提供し、AIデバイスの実装を加速します。

4. モバイルARテクノロジー

選定理由:今後はARとAIが相互にサポートし合うことが必要となり、ARはAIの目のようなものだと考える。

技術革新:リアルタイムレンダリング技術、空間位置追跡、画像認識、ヒューマンコンピュータインタラクション、ディスプレイ技術、クラウドストレージ、データ転送、コンテンツ開発ツールなどの分野を含む、数多くのコンピュータ技術とグラフィックスおよびイメージング技術を統合します。

AR技術は現実世界の情報を表示するだけでなく、同時に仮想情報も表示します。2種類の情報は互いに補完し、重ね合わせます。視覚的拡張現実では、ユーザーはヘッドマウントディスプレイを使用して現実世界とコンピューターグラフィックスを多重化し、周囲の現実世界を見ることができます。拡張現実技術には、マルチメディア、3次元モデリング、リアルタイムのビデオ表示と制御、マルチセンサー融合、リアルタイムの追跡と登録、シーン融合などの新しい技術と方法が含まれており、人間が情報を認識するための新しい方法を提供します。

将来、モバイル AR テクノロジーは、クリエイティブな AR アプリケーション、位置ベースの AR エクスペリエンス、複数人の AR エクスペリエンスへと発展していきます。

[[238195]]

意義: Apple ARKit と Google ARCore のリリースにより、世界中の 5 億台の AR 対応モバイル デバイスが、あらゆる企業の参加を促しています。これらの企業は、データと API を組み合わせて、ユーザーに新しい AR エクスペリエンスを提供しています。

5. 行動認識技術

選定理由:行動認識技術をセキュリティに応用し、セキュリティを一層強化します。

技術革新:店舗にカメラを設置することは非常に一般的ですが、通常のカメラは店内の人々の行動しか記録できません。盗難が発見された場合、監視記録を見て手動で調査する必要があり、時間がかかり、手間がかかります。

最近、日本の通信大手は、「AIガードマン」と呼ばれる新しい人工知能防犯カメラを開発したと発表した。このカメラは、人間の動作の意図を理解することで、盗難が発生する前に正確に予測し、店舗が盗難を特定し、潜在的な万引き犯を検出するのに役立つ。

この人工知能システムはオープンソース技術を使用してビデオストリームをリアルタイムでスキャンし、人の姿勢を予測します。監視中に不審な行動に遭遇すると、システムは姿勢データを事前に定義された「不審な」行動と照合し、発見すると関連するモバイルアプリを通じて店舗オーナーに通知します。関連メディアの報道によると、この製品により店舗での盗難が約40%減少したという。

意義:行動認識技術により、犯罪者を早期に発見し、犯罪行為を予測し、店舗の安全を効果的に保護することができます。

6. ロボティックプロセスオートメーション

選択理由: ロボティック プロセス オートメーションは、人間が行う多数の単純で単発の反復的で困難な作業を、より高い効率とエラーゼロで実行できるように支援したり、人間の代わりに実行したりすることができます。

技術革新: ロボティック プロセス オートメーション (RPA) は、高性能の認知技術を使用してビジネスの自動化と作業効率を実現します。ブラウザ、クラウド、各種ソフトウェアなど、さまざまな業務を処理するために、人間が手動で完了する必要があるワークフローを操作インターフェースに記述するだけで済みます。

ガートナーのデータによると、過去 1 年間で、世界の大手および中堅企業 300 社が、これまで手動で行っていたプロセスを自動化する RPA プロジェクトを相次いで立ち上げています。テクノロジーの進歩に伴い、RPA にはさらに多くの人工知能テクノロジー、つまりインテリジェント プロセス オートメーションが組み込まれるようになります。これは、ルールベースの自動化 (RPA) の上に、ディープラーニングと認知技術に基づく推論、判断、意思決定機能を追加することと同じです。

[[238196]]

意義: ロボットによるプロセス自動化により、企業の作業効率が大幅に向上し、人的投入が削減され、企業のコスト削減、人的生産性の向上、そしてより価値のある作業を行うための人員の解放が可能になります。

7. ピクセルレベルの音源定位システム「PixelPlayer」

選定理由:視覚と聴覚信号の観点から音源分離を実現でき、新たな研究の道が拓かれる。

技術的な進歩: 音楽を編集する際、通常はイコライザーを使用して音楽の低音を強調しますが、MIT のコンピューター科学および人工知能研究所の研究者は、より優れた解決策を見つけました。彼らが開発した新しいシステムは PixelPlayer です。

PixelPlayer は、音声と画像情報を組み合わせることができ、機械学習システムは、教師なし方式で画像または音声からターゲットを識別し、画像内のターゲットの位置を特定し、ターゲットによって生成された音声を分離することができます。入力ビデオが与えられると、PixelPlayer はダビングをターゲット コンポーネントに共同で分離し、ターゲット コンポーネントを画像フレーム上に配置できます。 PixelPlayer を使用すると、ビデオの各ピクセルでサウンドのソースを特定できます。

簡単に言えば、PixelPlayer はビデオ内のどのオブジェクトがどの音を発しているかを識別し、音を分離することができます。

重要な理由: PixelPlayer は伴奏をフィルタリングし、音源を識別できるため、人間が音楽を処理するのに役立つだけでなく、ロボットが他の物体によって生成される環境音をよりよく理解するのにも役立ちます。

8. 高精度の学習と低精度の推論の両方を考慮したディープラーニングチップ

選択理由: このチップは、現在知られている最高のトレーニングと最高の推論をカバーでき、すべてのプロセッサ コンポーネントがデータを取得して動作できるようにします。

技術的ブレークスルー: このディープラーニング チップは、IBM が研究しているプロジェクトの 1 つです。 IBM はこのチップの目標使用率を 90 パーセントに設定しました。これは質的なブレークスルーとなります。このブレークスルーを実現するために、IBM の研究開発チームは 2 つの革新を実現しました。

まず、使用率が低いのは、チップ周辺のデータフローのボトルネックが原因であることが多いです。これらの情報障壁を打破するために、プロジェクト チームは「カスタム」データ ストリーミング システムを開発しました。データ フロー システムは、ある処理エンジンから次の処理エンジンへのデータ転送を高速化できるネットワーク ソリューションです。また、学習や推論のタスクやさまざまな精度に合わせて最適化されています。

2 つ目のイノベーションは、CPU や GPU に搭載されている従来のキャッシュ メモリではなく、特別に設計された「スクラッチ パッド」の形でオンチップ メモリを使用するというチームの取り組みです。これは、チップの処理エンジンを通じてデータが流れ続けるように構築されており、データが適切なタイミングで適切な場所にあることを保証します。 90 パーセントの使用率を達成するために、IBM はパッドに膨大な読み取り/書き込み帯域幅を持たせるように設計する必要がありました。

[[238197]]

重要な理由: このチップは、畳み込みニューラル ネットワーク (CNN)、多層パーセプトロン (MLP)、長短期記憶 (LSTM) という、今日のディープラーニング AI の 3 つの主要なタイプすべてを実行できます。これらのテクノロジーを組み合わせることで、音声、視覚、自然言語処理が支配的になります。

9. インテリジェントエージェントトレーニングプラットフォーム

選定理由: インテリジェント エージェント テクノロジーにより、コンピュータ アプリケーションがより人間的でパーソナライズされたものになります。これは、人間による即時の介入を必要とせずに、一連の操作をアクティブ サービス方式で完了できるモバイル コンピューティング エンティティです。

技術革新: インテリジェント エージェント テクノロジーは、問題解決に必要な豊富な知識、戦略、関連データを備えており、関連する推論とインテリジェント計算を実行できます。インテリジェント エージェントは、ユーザーが明確な要件を提示しない場合でも、ユーザーの意図、興味、趣味を推測し、最適な方法でユーザーに代わってタスクを完了できます。また、一部の不合理な要件や潜在的に有害な要件を自動的に拒否することもできます。インテリジェント エージェントは、経験から継続的に学習し、環境に応じて動作を調整できるため、問題に対処する能力が向上します。

インテリジェントエージェント技術は、ビジネス、インテリジェント検索エージェント、デジタルライブラリ、電子商取引、遠隔教育研究などに応用できます。現在では、ゲームの分野にも応用されています。

Unity は世界有数のゲーム開発会社です。昨年、同社は機械学習プラットフォーム ML-Agents を立ち上げました。これにより、AI 開発者や研究者は Unity でゲーム環境をシミュレートでき、機械学習システムがゲーム時間の最適化、プレイヤーのペアリング、ゲーム時間の最大化の方法を理解することができます。このシミュレーショントレーニング方法は、産業用ロボット、ドローン、無人車両、ゲームキャラクターデザインなどで広く使用されています。

[[238198]]

重要性: 最も強力なトレーニングシナリオで機械学習研究者を支援するという使命を掲げる Unity は、急速に成長している AI 愛好家のコミュニティにディープラーニングを探求するための研究プラットフォームを提供します。

10. インイヤー人工知能

選定理由:ヘッドホンは周辺機器から、無制限の時間、無制限のシナリオで使用できるスマートウェアラブルデバイスへと進化しました。

技術革新:Appleは今年発売予定のAirPods 2にSiriウェイクアップ機能と内蔵チップを追加しました。これにより、歩行歩数、心拍数データ、体温などを収集できます。内蔵ジャイロスコープは、ユーザーの頭の動きを捉え、位置を特定することもできます。もちろん、マイクを介してコマンドを受信し、スピーカーを介してフィードバックを提供することもできます。

Googleのリアルタイム翻訳ワイヤレスイヤホンPixelBudsは、AirPodsとよく比較されます。PixelBudsはGoogleアシスタントを素早く呼び出すことができます。イヤホンのタッチパッドに指を置くだけで、ほぼ同時にGoogleアシスタントに話しかけることができます。

AirPods と PixelBuds により、人間にとってのヘッドフォンの役割が再定義されました。手首に装着するスマートウォッチと比較すると、ヘッドフォンは明らかに音声によるやり取りを容易にし、情報を受け取る際に貴重な視覚スペースを占有する必要がありません。また、スマート スピーカー スタイルの遠距離対話を、より自然で高速な近距離対話に変換します。

[[238199]]

意義: スマートイヤホンにより、スマートアシスタントの携帯性が高まります。Apple と Google の関与により、耳に AI の波が確実に押し寄せるでしょう。

最後に

これらのテクノロジー企業や研究チームが翻訳を学んだり、釣りを研究したり、ゲームを開発したり、音楽を作ったりしているのを目にしますが、一見「非生産的」に見えますが、これは人工知能が単なるテクノロジーや製品ではないことを証明しているに過ぎません。

IBM、Apple、Google、Baidu など、すべての人工知能大手はソフトウェア、ハードウェア、アプリケーションのシナリオを結び付けようとしています。スマートテクノロジー企業は、もはや従来のビジネスだけに焦点を当てるのではなく、未来を見据えて、常に技術を革新し、国境を越えて統合し、統合されたエコシステムを構築しています。

近い将来、マルチインテリジェンスの時代は間違いなく私たちの生活に完全に入り込むでしょう。将来の最先端産業への参入に興味のある友人は、マルチインテリジェンスの時代に注目し、人工知能、ビッグデータ、クラウドコンピューティング、モノのインターネットに関する最先端の情報と基礎知識をタイムリーに取得できます。一緒に人工知能の未来をリードしましょう!

<<:  AIは教育分野で大きな可能性を秘めています。どのように活用できるでしょうか?

>>:  第2回解析アルゴリズムコンテストが開始され、技術専門家があなたの参加を待っています

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

スマートシティの未来: AI、データ、都市変革

2008 年の金融危機後、都市化とサービス提供に対する新たなアプローチが世界中で定着し始めました。テ...

強力な人工知能まであとどれくらいでしょうか?まず、これらの5つの数学の問題を解くのに10年から20年かかります

[[272461]] 7月30日、成都ハイテクゾーンの景栄会で開催された2019年世界人工知能サミッ...

多くの機械学習戦略が失敗する理由

クラウド コンピューティング サービス プロバイダーの Rackspace Technology が...

産業AI戦略を成功させる3つの鍵

今日、工業製造業は産業用人工知能への依存度が高まっており、業務上の意思決定者はこれをデジタル変革戦略...

人工知能はセキュリティの優れた防御線である

2021年を迎え、私たちは新しい働き方や新しい労働環境に慣れてきました。多くの人は、デジタル通信手段...

Dr. ByteのAIは大活躍、ワンクリックでボーカルと伴奏を完璧に分離

[[424966]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

清華大学の孫茂松教授は、新しい微調整フレームワークCPTを提案し、精度を17.3%向上させた。

[[428133]]事前トレーニング済みモデルは、コンピューター ビジョンと言語の両方で顕著な結果...

2018年、中国とアメリカのインターネット大手によるAIチップ戦争で、BATはFANGに挑戦できるのか?

AI時代に注目すべき新たな変化は、テクノロジー大手がAIチップを独自に開発し始めたことだ。これは一...

この AI 商用リストをお見逃しなく: 生産上の問題はアプリケーションで解決できるかもしれません (続き)

[[220537]]リアム・ヘーネル編纂者:趙怡雲、江宝尚、銭天培新年を前に、温翁氏は音声認識から...

ゼロから学ぶPythonによるディープラーニング!

人工知能は現在、飛躍的に成長しています。たとえば、自動運転車は時速数百万マイルで走行し、IBM Wa...

情報フローシナリオにおけるAIGCの実践

1. パーソナライズされたタイトル生成パーソナライズされたタイトル生成とは、ユーザー コンテンツとパ...

...

...

機械学習、人工知能、ディープラーニングの関係は何ですか?ついに誰かが明らかにした

「機械学習」、「人工知能」、「ディープラーニング」という 3 つの用語は混同されることが多いですが、...

...