「機械」が他より賢く、「技術」が他より劣っているという観察と思考

[[277716]]

9月21日、CCTV-1の「スーパースマート」番組では、杭州の霊隠寺に毎日訪れる観光客の数を予測する人工知能と人工知能の競争が放送された。競争の一方は「賢い頭脳」の人工知能計算であり、もう一方は霊隠寺管理スタッフの経験判断です。結果は、1)時間帯別（午前10時と午後3時）ではAIの計算誤差が30％を超え大きすぎたのに対し、経験に基づく誤差は3％程度だったため、「他より劣る」という審査員もいた。2)日別（午後6時の閉園まで）ではAIの計算誤差が5％未満だったため、「知能が優れている」と評価され、優勝となった。

報道によると、人工知能の計算アルゴリズムはクロスチェック済みで、その方法は3年間の公園訪問者の統計からランダムに1日を抜き取り、計算データを挿入するというもので、比較誤差は5％未満になるはずだという。競技期間中に発生した大きな計算誤差は、公園に入場する観光客のリアルタイムデータと計算アルゴリズムの時間差によるもので、人為的なミスであると説明された。

しかし、実際には、「人工知能」の研究や応用においては、「機械は人間よりも賢い」といった命題が、現状ではよくある課題（あるいは状況や認識）となっている。観察と考察は次のとおりです。

1) データとその関連性

霊隠寺の「超知能」アルゴリズムを例にとると、その基本データは3年間にわたる毎日公園に入る観光客数の統計から得られており、非常に正確であるはずです。しかし、主なデータソースは単一（チケット販売）であり、毎日公園に入場する訪問者の数は、天候、緊急事態または活動、月曜日から日曜日までの移動習慣など、その時の客観的な条件と環境によって必然的に影響を受けます。そのため、チケット販売数はあくまでも基準値（線形連続として近似できる）であり、3年間にわたって日々出現する客観的な要因は動的かつ離散的であり、参照データや定量化可能な分析が不足しています。つまり、データ分析が多次元データとの相関性を欠くと、アルゴリズムは「脆弱」となり、計算結果に（必然的に）大きなランダム誤差が生じるのを避けることが難しくなります。

2) データの前処理と検証

一般的に、「人工知能」は、1) 入力、2) 計算、3) 出力の 3 つの部分から構成されます。このうち「計算」にはモデリングやアルゴリズムが含まれ、入力は定量的なデータ、出力は計算結果となります。

一般的に、どのアルゴリズムでも、出力結果の精度を追求したり、期待される参照効果を達成したりするために、入力データの学習と継続的な深い最適化のサイクルを経る必要があります。

したがって、入力データの前処理はアルゴリズムに直接影響を及ぼし、計算アルゴリズムの検証と計算アルゴリズムの出力の信頼性の決定も入力データに直接関係しており、不可欠です。

明らかに、入力データの前処理は非常に重要であり、その要素には以下が含まれます (ただし、これらに限定されません)。

（１）データソースのシナリオ（環境）とデータ収集の方法（モード）

（２）データの分類、識別、質的・量的特性評価

（３）データの規則的、正常、出現的、ランダムな特性の区別

（４）データの時系列、ならびに対応する回帰分析、帰納分析、追跡分析および識別分析

（５）複数および多元データの相関と関連付け。

したがって、計算モデルとアルゴリズムは、入力データの特性と属性を調整および変更するためのインターフェースを提供し、アルゴリズムの複雑さの収束（入力データの次元削減など）と堅牢性と柔軟性の両方を確保する必要があります。

3) データ前処理の問題点と課題

ビッグデータ環境では、「既知」、「既知の未知」、「未知の未知」が存在する必要があります。例えば、霊隠寺の「スーパースマート」アルゴリズムでは、3年間毎日公園に入る観光客の数はわかっています。既知の未知数は、3年間毎日どのような客観的なイベント（外部環境要因）が発生したかです。未知の未知数は、これらの客観的なイベントが公園に入る観光客の数に与える影響の程度、確率、相関関係です。

したがって、課題は「既知の未知」をどのように発見するかであり、困難は「未知の未知」にどのように対処するかであり、特に、未来を予測および予言するときに、「既知の未知」と「未知の未知」をどのように想定するかです。

この点において、徹底的な研究は理論的な基礎に依拠しなければなりません。理論と具体的な実践が組み合わさって初めて、「人工知能」（または「スマート脳」）は発展を続け、「惰性」を緩和することができます。

「人工知能」はデジタル近代化の必然的な発展と応用の潮流であり、一般的な用語でもあります。ただし、「人工知能」にはさまざまな意味合いや目的、方法、モデル、形式があり、また、さまざまな応用シナリオでさまざまな問題や課題があることに注意する必要があります。例えば：

Google の AlphaGo は、プロの囲碁プレイヤーに勝利した初の人工知能ロボットであり、囲碁の世界チャンピオンに勝利した初の人工知能ロボットです。その主な動作原理は「ディープラーニング」(16 万回の人間のゲームから数百万回の囲碁ゲームを学習) であり、少なくとも 3 つの注目すべき機能があります。

（１）明確な境界、すなわちゲームのルール。ルールはたった2つと非常にシンプルですが、その複雑さは想像を絶するものです。可能性は全部で10170（10の170乗）通りあり、囲碁のあらゆる結果を列挙することは不可能です。 (視点: ルールは境界です。ルールが単純であればあるほど、状態の複雑さは増します。)

（２）騒音がない。ゲームの範囲は明確で、19 本の縦線と横線が盤面を 361 の交差点に分割し、黒と白の丸いチェスの駒があり、勝者には直接的で明確な目標はなく、完全に直感に基づいています。 (視点: 確実な環境要因と不確実な環境要因の両方が、ターゲットの位置決めの複雑さに直接影響します。)

（３）総合的に勝利する。誰が勝者かを定義するのに適した評価関数はほとんどありません。囲碁は建設的なゲームです。最初はチェス盤は空で、ゆっくりと 2 人のプレイヤーがチェス盤を埋めていきます。すべてのチェスの駒はゲームに「ドミノ効果」をもたらし、現在の状況を評価するには将来何が起こるかを評価する必要があります。 (視点: イベント前は数値ネットワークによる予測、イベント後は決定ネットワークによる帰納、イベント中は予測と帰納の組み合わせ)。

このことから、「人工知能」の場合、人工知能は十分な条件（つまり、アルゴリズムは人間によって設計および制御され、理論が基礎となっている）であり、アプリケーションシナリオは必要な条件（つまり、データの収集、分類、関連付け）であることがわかります。

<<: ファーウェイの孫茂陸氏：今後5年間で10億ドルを投資し、スマートエンタープライズサービスを構築する

>>: エンタープライズ電気システムにおける機械学習の 5 つのメリット