AI技術を「フロントエンドインタラクティブ技術」と「バックエンド人工知能技術」に分けます。フロントエンドのインタラクティブ技術には、音声認識、画像認識、自然言語処理が含まれ、バックエンドの人工知能技術は、ディープラーニングアルゴリズム、メモリ予測モデルアルゴリズムなどを含む人工知能のコアアルゴリズムです。 これらのフロントエンドおよびバックエンドの人工知能テクノロジーは、アプリケーションによって、音声認識、画像認識、自然言語処理、ユーザープロファイリングの 4 つのカテゴリに分類できます。では、AI テクノロジーは、これら 4 つの特定のアプリケーションの実装によって私たちの生活にどのような利便性をもたらすのでしょうか。また、どのような制限があるのでしょうか。一つずつ分解してみましょう: 1. 音声認識音声認識 音声認識には 2 つの技術的な方向性があります。1 つは音声認識、もう 1 つは音声合成です。 音声認識とは、私たちが自然に発する音を機械が言語記号に変換し、認識と理解のプロセスを通じて音声信号を応答テキストやコマンドに変換し、私たちと対話することを意味します。音声認識技術は電話営業にも応用できます。例えば、社内には経験のない新入社員が多く、受注できる可能性は非常に低いです。新人が優れた販売能力を身に付けられるよう、どのように支援できるでしょうか?以前は、経験を小冊子にまとめて新入社員に暗記させるというやり方でしたが、すぐに忘れてしまいます。しかし、高精度の音声認識機能があれば、顧客が何を尋ねているのかを識別し、画面上の新規顧客にその質問にどう答えるかを伝えることができます。 音声認識の 2 番目の方向は音声合成です。これは、機械がテキストを音声に変換し、個人のニーズに応じて音声をカスタマイズして読み上げることを意味します。これまでの音声は、速度が一定で抑揚のない機械音声でしたが、より自然な人間の音声が使用できるようになりました。音声合成は、好きな人の話し方をシミュレートできるため、人によって聞こえ方が異なります。運転中によく使う百度ナビゲーションのロビン・リーの声は、音声合成によるものです。 音声認識にディープラーニングが導入されて以来、認識率は急速に 95% まで向上しましたが、ASR (自動音声認識) を一部の人々にほとんどの場合に適用できるものから、いつでもすべての人に適用できるものに開発することは、まだ非現実的です。克服するのが難しい問題の 1 つは、意味上のエラーです。例えば、南京に住んでいる人なら誰でも「卡子門(カズメン)」という地名があることを知っていますが、百度ナビゲーションが「卡子門」を理解すると、単語を「kazi-men」に分割し、その結果、「卡子門(カズメン)」は「qiazimen(チャズメン)」と読みます。 2. 画像認識コンピュータビジョン 画像認識は、よくコンピューター ビジョン (CV) と呼ばれます。一般的に使用される分野: 印刷テキスト認識、顔認識、顔の特徴の位置決め、顔の比較と検証、顔の検索、画像ラベル付け、ID カードの光学式文字認識 (OCR)、名刺の OCR 認識など。 人間が世界を理解するために使用する情報のほとんどは視覚から得られます。同様に、コンピュータ ビジョンは機械が世界を理解するための基礎となっています。その究極の目標は、コンピュータが人間のように「世界を理解」できるようにすることです。現在、コンピューター ビジョンは顔認識、画像認識、拡張現実などに優れた応用がされていますが、いくつかの課題もあります。 Googleの自動運転車を例に挙げてみましょう。現段階では、機械視覚認識の技術的な道のりには、まだ完全に克服できない技術的困難が残っています。 アルゴリズムの話はさておき、画像キャプチャの精度は難しい問題です。最先端のカメラ機器でも、人間の目の詳細取得能力のレベルには達しません。最先端のハッセルブラッドカメラと最先端のレンズで、夜の街で短い露出時間で撮影した写真を見てください。人間の目で見た画像と比較すると、違いがわかります。これは、経済的に実現可能な低コストのカメラ機器は言うまでもありません。視覚認識自動運転システムは近視眼的です。 さらに、雨や埃などが降ると解像度に影響し、解決が難しいバグになってしまいます。レーダーと併用する場合、論理的判断の優先順位の問題があります。カメラとレーダーのどちらを信頼すべきでしょうか?それは誤報でしょうか?レーザーレーダーについても、車体自体に同様の論理的判断問題があれば、どのようなものが脅威で、どのようなものが脅威ではないのか。潜在的な脅威は、コンピューター ビジョンなどの単一のインテリジェンスによって解決できるものではありません。なぜなら、未来を予測する能力こそが、人間と機械の最大の違いだからです。 3. 自然言語処理(NLP)
ケンジロボットモンク 自然言語は人間の知恵の結晶です。自然言語処理 (NLP) は、人工知能における最も難しい問題の 1 つです。自然言語を理解するには、外界に関する広範な知識と、その知識に基づいて操作する能力が必要であるため、自然言語認識も AI 完全な問題であると考えられています。 たとえば、以前はデバイスを操作するためにキーボード、マウス、タッチスクリーンを使用していました。しかし今では、デバイスを操作するには、スマートスピーカーに「携帯電話を100元で充電してください」と言うだけです。この機能はアリババのTmall Genieで実現されていますが、実現するための前提条件は、Tmall Genieアプリに声紋が記録され、携帯電話番号と支払いパスワードがアプリに事前に設定されていることです。そうしないと、機械は私が誰であるか、誰の携帯電話に100元をチャージしたいかを理解できません。 第二に、自然言語処理は、従来の質問応答システム技術、つまり質問応答 (QA) に依存しています。 QA 技術は、自然言語処理における非常に重要な研究方向です。その原理は、まず入力された質問に対して構文解析を実行し、質問または指示の構造と意図を理解することです。たとえば、ユーザーが誰かの生まれた場所を質問した場合、マシンはまず文を解析し、答えは場所であるべきであり、その場所は誰かがそこで生まれるための条件を満たしているべきであることを理解する必要があります。 ユーザーが質問した意図を正確に理解し、それを機械が理解できる形に再構成できたら、答えを見つける必要があります。この目標を達成するために、QA システムの背後には巨大なデータベース (ナレッジ ベースとも呼ばれます) があります。このデータベースには、すべての指示に対応するすべての動作、またはすべての質問に対する回答が格納されます。システムがデータベースを検索して実行したいことや回答したいことを見つけると、回答をユーザーにフィードバックしたり、ユーザーの指示を直接実行したりできます。もちろん、データベースのサイズが本当に限られている場合、フォールバック方式は情報検索に基づいて回答を返すことです。つまり、ユーザーの入力からキーワードを抽出し、検索エンジンを使用して関連するコンテンツを返してから、ユーザーに返します。インターネットは包括的なので、結果は一般的に受け入れられます。 自然言語処理に関連する製品は数多くあります。代表的なものはチャットボットであり、その代表的なものとしては、Siri、Amazon Echo、Microsoft Cortana、Alibaba Tmall Genie、Xiaomi Little AI Speakerなどが挙げられ、これらは道具的なサービスロボットとなる傾向があります。もう一つのタイプは、Microsoft XiaoIce に代表されるエンターテインメントロボットです。最初のタイプのチャットボットは、Tmall Genie に「今日の天気はどうですか?」と尋ねたり、Xiao Ai に「寝室のランプを消して」などの指示を与えたりするなど、タスクを完了したり、事実に関する質問に答えたりすることに重点を置いています。 2 番目のタイプは、よりチャット指向で、事実に基づく質問への回答は必要ありません。スムーズな会話をして、人々を笑わせるだけで十分です。例: 北京の龍泉寺の仙人ロボット僧侶。 4. ユーザーポートレートミッション:インポッシブル - フォールアウト ユーザーポートレートとは、ユーザーの社会的属性、生活習慣、消費行動などの情報/データから抽象化されたラベル付けされたユーザーモデルです。ユーザーポートレートを構築する中心的なタスクは、データを使用して人々の行動や特徴を説明し、ユーザーに「ラベルを付ける」ことです。ラベルは、ユーザー情報の分析を通じて取得される非常に簡潔な機能識別子です。 ユーザーポートレートはビジネス分野で広く利用されています。 Baidu を例に挙げましょう。 Baidu は現在、約 10 億人のユーザーを認識しており、数千万のセグメント化されたタグを使用して、性別、年齢、地理的位置、金融分野における状況、旅行の趣味など、ユーザーを分類しています。これらが組み合わさってユーザーポートレートが形成されます。 Baidu はあなたがどんな人間で、どんなものが好きなのかを知っています。例えば、今年の夏に公開される映画『ミッション:インポッシブル/フォールアウト』では、宣伝の際に観客を3つのカテゴリーに分けた。1つは、どんなことがあってもこの映画を観る人たち、1つは、どんなことがあっても絶対に観ない人たち、そして3つ目は、映画館に行くかもしれない人たちだ。プロモーターは、Baidu Brain のユーザーポートレート機能を使用して、第 3 のグループの人々を特定し、このオーディエンスに対してターゲットを絞ったプロモーションを実行します。 ユーザープロファイリングにおける人工知能の最も重要な役割は、関連性を見つけてユーザーにラベルを付けることです。ユーザータグとは、人物の基本属性、行動傾向、興味の好みなどを表すデータ識別子です。人物を簡潔に説明し、分類できる関連性の高いキーワードです。例えば、良い人と悪い人、90年代と80年代に生まれた人、星座、ホワイトカラーなど。具体的なプロセスは、一般的に、複雑かつ些細なユーザー行動フロー(ログ)から一定期間にわたるユーザーの比較的安定した特性をマイニングすること、つまり、ユーザーにラベルを付けることです。 例えば、あなたが頻繁におむつを購入している場合、ECサイトはあなたの母子用品の購入履歴に基づいて、あなたを「子供がいる」とラベル付けすることができます。さらに、あなたの子供のおおよその年齢を判定し、「1~4歳の子供がいる」とラベル付けすることもできます。あなたに付けられたこれらのラベル群はすべてあなたのユーザーポートレートとなり、その人がどのような人物であるかを判断する方法とも言えます。しかし、今日の人工知能は相関関係を見つけることはできても、内部の論理を見つけることができないため、前提と結論を混同しやすくなります。たとえば、ビッグデータの統計によると、コーヒーを飲む人はコーヒーを飲まない人よりも長生きします。しかし、ビッグデータでは、コーヒーを飲むことが理由かどうかはわかりません。生活水準が高い人は、コーヒーを飲むお金と時間を持っているのかもしれません。つまり、長生きする人ほどコーヒーを飲むというのが現実なのです。 5. 人工知能アルゴリズムディープラーニングアルゴリズム 音声認識、画像認識、自然言語処理などのインタラクションに関わるフロントエンドの人工知能技術について説明した後、バックエンドの人工知能技術について説明します。バックエンド人工知能技術とは、ディープラーニングアルゴリズム、メモリ予測モデルアルゴリズムなど、人工知能のコアアルゴリズムを指します。 まず、ディープラーニングのアルゴリズムについてお話しましょう。 2016年は人工知能が爆発的に成長した年だったことは周知の事実です。まず、AlphaGoがイ・セドルに勝利し、年末までに名人が60連勝し、中国、日本、韓国の囲碁名人を席巻し、一時世論に衝撃を与えました。 Alpha Go を開発した DeepMind チームは、深層ニューラル ネットワークを意思決定に適用した結果である深層強化学習を使用しました。ディープラーニングは機械学習の新しい分野です。ディープラーニングの先駆者は、カナダのトロント大学のジェフリー・ヒントン教授であると一般に考えられています。彼は「神経科学者+コンピュータ科学者」です。彼は、脳が外界に関する情報をホログラフィックな方法で保存していると信じており、 1980年代からコンピュータシステムアーキテクチャを使用して人間の脳をシミュレートする研究を行ってきました。これが、今日ディープラーニングと呼ばれるものの原型です。 今日、私たちはディープラーニングのアルゴリズムを次のように理解することができます。ディープラーニングは、ニューラル ネットワークのレイヤーごとの計算を使用して最適なパラメーターを見つけ、それらのパラメーターを組み合わせて将来の決定を下します。出発点は、人間の脳内で分析学習を行うためのニューラル ネットワークを確立し、シミュレートすることです。ディープラーニングの学習プロセス全体を通じて、大量のデータをアルゴリズムに直接入力し、データに語らせ、システムがデータから自動的に学習することがほぼ可能です。入力から出力まで完全に自動化されたプロセスです。ディープラーニング アルゴリズムは現在、設計者が設定した目標を達成するためのツールとして設計されています。たとえば、AlphaGo の目標は囲碁のゲームに勝つことであり、車を運転したり、他の何かをしたりすることではありません。 AlphaGo は独自の目標を設定することはできません。別の目標を達成したい場合は、別のマシンを設計する必要があります。もちろん、人工知能への道は数多くありますが、ディープラーニング アルゴリズムは現在、最も優れたパフォーマンスを発揮する人工知能アルゴリズムです。しかし、ディープラーニングは最初から良いアイデアだったわけではありません。ディープラーニングの普及に貢献した中国人が 2 人います。
しかし、ディープラーニングが今日のレベルに達した、あるいは人間を超えたからといって、ディープラーニングが無敵だと考えないでください。ディープラーニングによって開発された人工知能システムには、そのプロセスを説明できないという明らかな欠陥があります。機械は、人間の言語を使用して、どのようにそれを実行したかを説明することができません。たとえば、Alpha Go は Lee Sedol に勝利しました。AlphaGo になぜその手を打ったのかと尋ねても、AlphaGo は答えることができません。言い換えれば、機械が何をするのかの動機や理由を私たちに知るすべはないのです。 人工知能アルゴリズムの限界をよりよく理解するためには、「認知的複雑性」という概念を導入する必要があります。認知的複雑性とは何ですか?それは「客観的な」世界を構築する能力を指します。認知の複雑性が高い人は、現実世界自体が白黒ではないため、相補的または相容れない概念を同時に使用して客観的な世界を理解するのが得意です。では、機械にとっての「認知コンピューティング」と「人工知能」の関係は何でしょうか?人工知能の将来は、一般的に、人間が機械を支配する、機械が人間を支配する、そして「人間と機械の共生」という3つの発展方向に分けられます。 「人間と機械の共生」を目指す人工知能がコグニティブコンピューティングです。 IBM はコグニティブ コンピューティングの分野で多くの経験を積み、コグニティブ コンピューティングの 3 つの機能、つまりコミュニケーション、意思決定、発見をまとめました。 (1)コミュニケーション 最初の機能はコミュニケーションであり、コグニティブ コンピューティングは構造化されていない問題を処理できます。 Siri を使用する人の多くは、コミュニケーション内容の正確さを保証できないため、Siri を娯楽機能としてのみ考えています。時には、言葉が複雑すぎて Siri がまったく応答できないこともあります。これは人工知能の比較的初期の状態としか考えられません。 認知コンピューティングは人間の認知を完全に模倣することができ、子供のようなものだと考えることができます。それはまるで、子供の周りに大人たちが集まって、その子供をからかっていて、ある大人は子供に 1+1=2 と言い、またある大人は 1+1=3 と言うようなものです。しかし、子どもが成長するにつれて、1+1=2が正しいと理解するようになります。これは非構造的な問題です。初期の人工知能は他者から教わったことしか学習できませんでしたが、認知コンピューティングは曖昧な情報や矛盾した情報も処理できます。 (2)意思決定 2 番目の能力は意思決定です。人工知能が複雑なロジックを分析して意思決定できることは誰もが知っています。認知コンピューティングはさらに一歩進んで、新しい情報に基づいて決定を調整することができます。さらに驚くべきことは、認知システムによって下される決定は偏りがないのに対し、人間にとって「偏りのない意思決定」はほとんど不可能だということです。たとえば、がんの治療は典型的な医療上の意思決定のシナリオです。 がんは、一方では病気が複雑すぎるために治療が難しく、他方では、医師が患者のがんの兆候を適時に検出できない場合、患者の治療が遅れたり、誤診につながったりする可能性があります。認知コンピューティングは、複雑な医療データを包括的に分析し、医師の言語の文脈で意味を解析し、最終的に推奨事項を作成することができます。 これにより、医師が医療記録を確認する時間が大幅に短縮され、患者と過ごす時間を増やすことができます。東京新聞は2016年8月、IBMが開発した認知コンピューティングロボット「ワトソン」が、大量の医学論文を解析し、判別が難しい白血病の種類をわずか10分で患者に診断し、東京大学医科学研究所に適切な治療方針を提案したと報じた。 (3)発見 3 番目の機能は発見です。認知コンピューティングは、新しいものや新しいつながりを発見し、人間の思考のギャップを埋めることができます。例えば、競争の激しい外食業界において、どうすればお客様に満足していただける新しい料理を生み出せるのでしょうか。 認知システムは、地域知識、文化知識、さまざまな食品の組み合わせ理論を統合して、ユーザーが想像もできない食品の組み合わせを発見できるように支援します。たとえば、ある日突然、煮込んだ肉のレシピでピザを作るとあなたの口に合うかもしれないと教えてくれるでしょう。試してみると、なかなか良いことがわかります!実際、IBMが開発した「シェフ・ワトソン」は2015年以来、3万5000以上の定番レシピを学習し、膨大な量の食材の組み合わせを分析し、化学、栄養などのデータを組み合わせることで、人間の想像を超える新しいレシピをシェフやグルメに提供してきました。 認知コンピューティングは、コミュニケーション、意思決定、発見の向上に役立ちます。しかし、人工知能ではできないことがまだたくさんあります。たとえば、抽象的能力、自己認識、美学、感情など。 VI. 要約人工知能が何ができて何ができないかについては、これまでたくさん議論してきました。実際、AI は魔法ではありません。AI は単なる数学、統計、そしてパターン認識のためのビッグデータの使用です。環境とオブジェクトの相関関係を識別して分析するインテリジェンスです。アルゴリズムは、人間の論理的および数学的思考を実現するために使用され、コンピュータ思考を形成し、それによって特殊なアルゴリズム システムと機械知能を導き出します。 実際のところ、すべての人工知能の問題は、ハードウェアの問題をソフトウェア化したものであり、自動化された知識を使用してすべての問題を解決します。例えば、写真撮影では、写真をより美しくするためにさまざまな光学レンズを使用していましたが、今では「アルゴリズム」でそれを行うことができます。たとえば、実験をするとき、以前はあらゆる種類のボトルや瓶をいじらなければなりませんでしたが、今ではコンピューター上で核爆発をシミュレートすることができます。 |
<<: 中国の大学はいかにして「新世代の人工知能」をリードできるのか?
>>: 中国科学院の専門家が人工知能の混乱を批判:AIチップなど存在しない
オリンピック数学を勉強したことがない彼に、システム アーキテクトになれるかと誰かが尋ねました。他にも...
2020年、突然の公衆衛生事件により、医療用ロボットに大きな注目が集まりました。医療用ロボットは、...
私たちは職場における技術革命の真っ只中にいます。 1か月ちょっと前に世界の人口の3分の1が隔離された...
Lattix は最近、インフラストラクチャ管理ソフトウェアのバージョン 5.0 をリリースしました。...
言語は思考にどのように影響しますか?人間は言語からどのように意味を引き出すのでしょうか?これら 2 ...
[51CTO.com クイック翻訳]比較するためのより良い座標系がないため、人間がよく犯す間...
背景近年、NLPの応用分野では大きな進歩がありました。Bert、GPT、GPT-3などの超大規模モデ...
最近の調査によると、企業は生成 AI がリアルタイムのデータ分析を実現する大きな可能性を秘めていると...
[[243873]]画像ソース @Visual Chinaインターネット上には、人体のさまざまな臓器...
ロボットは「製造業の至宝」とみなされており、ロボット産業の発展は国家のイノベーションと産業競争力の向...
人材管理に関して言えば、AI は、あらゆる業種のあらゆる企業ですでに日常的に導入されているツールです...