指先で操作できる人工知能（基礎編）

人工知能の概念

知能は知識と知性の総和です。知識はすべての知的行動の基礎であり、知能は知識を獲得し、それを問題解決に適用する能力です。知能には、知覚、記憶と思考、学習、行動という 4 つの主要な能力があります。人工知能（AI）とは、人間のような知能を備えたコンピュータを指します。コンピュータサイエンス、統計学、脳神経学、社会科学を統合した最先端の学際的な分野です。人間に代わって認識、認知、分析、意思決定などの複数の機能を実現できます。例えば、文章を話すと、機械はそれをテキストとして認識し、言葉の意味を理解し、分析や会話などを行うことができます。人工知能、宇宙技術、原子力技術は、20 世紀の 3 大科学技術の成果として知られています。

人工知能の発展

人工知能は 1950 年にマービン・ミンスキーによって正式に提唱され、「コンピュータの父」アラン・チューリングは次のように提唱しました。「機械が機械であると認識されることなく人間とコミュニケーションできる場合、その機械は知的である。」その後、コンピュータの性能、データベース、世論などの限界により、人工知能はそれ以上発展しませんでした。コンピュータの性能向上とニューラルネットワーク技術の段階的な発展により、人々は AI の応用においてより合理的になってきました。 2016年、GoogleのAlphaGoが韓国の囲碁プレイヤー、イ・セドルに勝利し、人類は人工知能からのプレッシャーを感じた。過去3年間で、人工知能は研究室から現実世界へと移行し、新たな時代に入った。

人工知能研究の基本内容

人工知能技術

人工知能研究の主な内容は、機械知覚と知識思考です。

機械知覚とは、機械（コンピュータ）が人間と同様の知覚能力、主に機械視覚と機械聴覚を持つようにすることです。主な技術分野としては、音声認識、画像認識などがあり、最近では、あるアプリのAI顔変換にこの技術が応用されています。

機械思考とは、知覚を通じて得られた外部情報と機械内部のさまざまな作業情報を意図的に処理することです。機械は複雑なアルゴリズムを使用して大量のデータを分析し、データ内のパターンを識別し、それに基づいて予測を行います。人間が学校で知識を学び、それを生活に応用するのと同じです。ただ、このプロセスの主体は機械です。機械アルゴリズムは人工知能分野の発展において重要な役割を果たします。

機械学習

処理時間と引き換えにストレージスペースを使用する機械的学習とは異なり、機械学習は、コンピューターに人間と同様の学習能力を与え、学習を通じて自動的に知識とスキルを獲得し、継続的に自己改善できるようにする方法を研究します。その中で、教師あり学習は最も一般的な方法で、教師が正解を導き、生徒がそれを受け取った後に自分で正解を訂正します。もう1つのタイプの学習は強化学習で、教師の指示がなくても学習システムが形成され、奨励学習または強化学習で対応するアクションが取られます。学習の最上位レベルは教師なし学習で、環境から直接情報を受け取った後に自己学習します。

従来の機械学習アルゴリズムでは、多くの場合、手動でパラメータを調整する必要がありますが、ディープラーニングでは人間の介入が不要になり、ビッグデータから何千ものパラメータを自動的に取得できます。ディープラーニングは、過去 10 年間の人工知能分野における大きな進歩であり、コンピューターインテリジェンスの大きな進歩を促進しました。大量のデータと計算能力を使用して、ディープニューラルネットワークをシミュレートします。本質的に、これらのネットワークは人間の脳の接続性を模倣して、データセットを分類し、それらの間の相関関係を見つけます。

人工知能: 人工知能; 機械学習: 機械学習; ディープラーニング: ディープラーニング

人工知能の応用シナリオ

私たちは携帯電話を手に取り、顔認識機能を使ってパスワードのロックを解除し、Siriを呼び出して曲を再生し、テスラが道路を自動運転で走行します。これらのシナリオでは、人工知能が私たちの生活に組み込まれています。人工知能は研究室から現実世界に入り込み、さまざまな産業に影響を及ぼしています。今後、人工知能はより多くの産業に広がり、想像もできない分野に人工知能が応用されるようになるでしょう。

AIビジョン

漕河涇開発区にある船型の建物は独特です。それは2014年に設立されたSenseTimeです。現在ではアジア最大の人工知能エンパワーメントプラットフォームとなっています。独自のディープラーニングプラットフォームとスーパーコンピューティングを通じて、産業化されたAIビジョンテクノロジーの生産を実現し、さまざまな業界やシーンでの応用を可能にしています。同社のコア技術には、顔と体の認識技術、画像認識（一般画像と専門画像）、大量のビデオの理解とマイニング、画像とビデオの処理強化、SLAM（位置決めとマッピング）と3Dビジョン、ロボットの制御とセンシング、医療画像分析、ディープラーニングプラットフォームなどがあります。簡単な例を挙げると、顔検出および追跡テクノロジーでは、一般的なシナリオであれば、組み込みデバイス、モバイルデバイス、およびパーソナルコンピューターでミリ秒レベルの顔検出を実現できます。この技術は、側面、遮蔽、ぼかし、薄暗い光、逆光、表情の変化、平面内での 360 度回転など、さまざまな実際の環境に適応でき、カラー、グレースケール、近赤外線など、さまざまな画像やビデオの種類をサポートします。

[[374702]]

上の写真は、上海漕河涇開発区にあるセンスタイムの特徴的なオフィスビルです。

音声認識と自然言語処理

ディープラーニングの幅広い応用により、音声認識の精度が大幅に向上しました。Siri、音声検索、Echoなどのサービスにより、異なる言語間のコミュニケーションが可能になりました。自然言語処理 (NLP) は、システムが人間の書き方や話し方を理解できるようにするコアテクノロジーです。音声認識テクノロジーは、自然言語処理の目と耳です。この 2 つを組み合わせることで、テキスト抽出、情報要約、音声からテキストへの変換など、複数のタスクを実現できます。たとえば、自然言語処理は、ビッグデータとユーザーの行動に基づいてユーザーの単語や文章を分析し、顧客の意図を正確に理解し、言語マッチング計算を実行して正確なマッチングを実現します。

インテリジェントロボット

インテリジェントロボット技術は医療分野で広く利用されています。現在の主な応用シナリオは、第一に、人間の神経信号を読み取ることができるウェアラブルロボット（別名「スマート外骨格」）、第二に、手術や医療機能を実行できるロボット（IBMが開発したダヴィンチ手術システムがその代表例です）です。ダヴィンチ手術システムでは、医師は遠隔操作端末を通じて手術台を操作できます。手術台は、患者に手術を行う役割を担う3本の機械アームを備えたロボットです。各機械アームは人間よりもはるかに柔軟で、人体に入り込んで手術を行うことができるカメラが装備されています。制御端末では、コンピューターが複数のカメラで撮影した2次元画像から人体の高精細な3次元画像を復元し、手術プロセス全体を監視できます。医療ロボットによる切開は非常に小さく、人間が一生かけて行うのが難しい手術も行うことができます。

上記は人工知能の応用分野のほんの一部です。将来的には、人工知能が社会のあらゆる産業に進出するでしょう。その時までに人間は置き換えられるのでしょうか？ 2001年に公開されたスティーブン・スピルバーグ監督の映画「人工知能」では、ロボットは知能を持つだけでなく、嫉妬や悲しみ、愛されたい欲求などの感情も持つようになります。ロボットはもはや道具ではありません。将来、テクノロジーが一定のレベルまで発達し、ロボットが感情をプログラムできるようになり、真に知的な人間になったとき、私たちはロボットとどのように付き合っていけばよいのでしょうか。現在の技術ではこれを実現するには 5 年、10 年、あるいはそれ以上の時間がかかりますが、その瞬間はすぐそこまで来ています。

<<: 完全な自動運転はまだ遠い未来です。なぜ AI 搭載の「自動運転」車を運転する必要があるのでしょうか?

>>: 江長建、世界初のサイボーグと対談 - JD Smart Community 2.0 全国ローンチカンファレンスライブプレビュー