AIテスト：自動運転車のテストに関するケーススタディ

編集者注：最近、清華大学自動化学部システム工学研究所の李立准教授を筆頭著者として、林一倫、鄭南寧、王飛悦、劉月湖、曹東普、王坤峰、黄武玲らが、人工知能テストと無人運転車テストに関する英語論文「人工知能テスト：インテリジェント車両のケーススタディ」を発表し、人工知能応用分野における知能のテストと設計方法に焦点を当てています。記事は、知能テストと機械学習のプロセスは似ており、両者はコインの表裏のようなものだと考えており、「生涯にわたるテスト」は長期戦となるだろうとしている。記事の最後では、仮想と現実を組み合わせた並列テスト手法を提案します。

[[253601]]

以下は、李立准教授の許可を得て作成した、人工知能テストと無人運転車テスト入門の中国語版です。なお、論文の最後には英語版のダウンロードリンクを貼っておきますので、ぜひご覧ください。

1. 概要

この記事では、主に人工知能応用分野における知能テストについて述べ、シナリオベースおよびタスクベースのテストシステムについて説明し、知能テストにおけるシミュレーションベースのテストとそのテスト指標の設計方法を紹介し、スマートカーの典型的な人工知能分野における例を示します。

2. 自動運転と人工知能

人工知能（AI）は一般的に、機械が発揮する人間のような知能を指します。現在、人工知能は私たちの生活を大きく変えました。自動運転車から掃除ロボットまで、すべてが人工知能の応用分野です。私たちは、今後 20 年間で、人工知能が健康、教育、エンターテインメント、セキュリティなど、私たちの生活のさまざまな分野をさらに変えると確信しています。人工知能がもたらす利便性を享受する一方で、いくつかの疑問も生じます。人工知能マシンが、人間が設計したアイデアに従って正しく動作することをどのように保証すればよいのでしょうか?特定の極端な環境では、無人車両は制御を失い、事故を引き起こすでしょうか?キッチンロボットは家を火事にするでしょうか?上記を踏まえると、人工知能の信頼性に関する標準化されたテストと測定を早急に実施する必要があります。

上記の質問に答えるには、人工知能の定義について考える必要があります。Wikipedia の人工知能の定義: 機械によって実証される知能。これを拡張して、次の定義を示します。人工知能とは、(人間と同じタスクで) 知能 (人間と同様、同じ、または人間よりも優れている) を発揮する機械を指します。ミンスキー (1968) は、人工知能について同様の定義を与えました。「[AI] とは、[人間] が行う場合は知能が必要となるタスクを実行できる機械を作成する科学です。」ミンスキーの定義は、タスクを完了するために必要な知能 (原因指向) に重点を置いていますが、この記事の定義は、完了したタスクによって実証される知能 (結果指向) に重点を置いています。

また、知能をテストするために選択されたタスクも特定のものであることにも留意する必要があります。タスクが異なれば、知能のさまざまな側面がテストされます。たとえば、読み書きができない人は運転が上手かもしれませんが、盲目でも教育を受けた人は運転できないかもしれません。

チューリングテストは、現在までに知られている最も古い知能テストです。チューリングテストは、人工知能に関するチューリングの賢明な考えです。その中心となる考え方は、コンピューターが可能な限り人間に変装し、直接物理的に接触することなく人間の質問に答えることを要求するというものです。しかし、チューリングテストは自動運転車の知能テストに完全には適用できません。

現在、知能テストの応用分野はますます広がっていますが、知能をテストするにはどのような方法を使用すればよいのでしょうか?私たちが提案したタスクベースの知能テスト方法の利点は何ですか?次に、インテリジェントテストの難しさ、提案するテスト方法がこれらの難しさをどのように解決できるか、および「タスク」ベースのテストケースをより適切に設計する方法について説明します。

3. 自動運転インテリジェンスの設計とテスト

3.1. 知能テストのジレンマ

3.1.1. タスクの定義/説明

最初のジレンマは、知能テストのタスクをより適切に定義する方法です。

チューリングテストの最大の欠点は、タスクの説明です。今日の無人運転車の知能テストと、中国語の部屋などの初期のチューリングテストの間には大きな違いがあることを指摘しておく必要があります。まず、初期のチューリングテストでは、テストのタスクと正しいとみなされる回答が明確に定義されていなかったため、チューリングテストに合格しようとする一部のマシンは、直接的な回答を避けるために曖昧な方法を使用することがよくありました。今日の自動運転車のインテリジェントテストには、明確に定義されたタスクがあります。第二に、初期のチューリングテストでは、人間がテスト結果を判断する必要がありました。しかし、自動運転車の認識アルゴリズムがさまざまなシナリオでテストに合格したかどうかを確認するには、何万ものテストタスクが合格したかどうかを判断するために機械を使用する必要があります。

つまり、インテリジェントテストの最も基本的な基盤となる、一連の定量化可能なテストタスクを確立する必要があります。

3.1.2. タスクの検証

2 番目のジレンマは、テスト対象のインテリジェントマシンが遭遇するすべてのシナリオで一貫して動作することをどのように保証するかということです。したがって、タスクテストの列挙/カバレッジを確保する必要があります。

簡単に言えば、タスクはインテリジェントマシンテストへの入力と見なすことができます。タスクが完了すると、出力は「はい」になり、そうでない場合は、出力は「いいえ」になります。比較的単純な知能テストでは、すべての可能なタスクの組み合わせを列挙することで、すべての可能な交通シナリオを網羅することができます。車両がこれらすべてのシナリオをクリアできれば、その車両は十分にスマートになります。しかし、タスク空間の時空間連続性のため、列挙は不可能です。そのため、シナリオ生成の複雑さを軽減し、テストカバレッジを向上させながら、サンプリングの合理性を高めるために仮想サンプリングテストに依存する必要があり、これがテストの重要な技術になります。試験車両と他の車両の軌跡を記録することで、車両の知能レベル（運転性能）を定量的に特徴付けることができます。

3.1.3. シミュレーションテストの設計

限られた時間と資金の範囲内でタスクカバレッジ問題を可能な限り解決するために、現在の研究者はフィールドテストの欠点を補うためにシミュレーションテストをよく使用しています[4]。これに基づいて、研究者らは次のような派生的な問題についてさらに研究しました。

1) 仮想テストにおける仮想オブジェクトの動作の信頼性をどのように確保するか。

2) 仮想テストにおいて仮想オブジェクトのパフォーマンスの豊かさをどのように確保するか。

3) 仮想テストでシナリオとタスクのカバレッジを確保する方法。

4) 仮想テストで機械の判断の正確性を実現する方法。

たとえば、シミュレーションテストでは、現在無人車両の研究者は、現実世界で収集された 2D 画像データから物体の 3D プロパティを抽出し、それを 3D エンジンで再レンダリングして新しい 2D 仮想テストデータを生成する方法を検討しています。他の研究者は、生成的敵対ネットワークに基づいて、2D 測定画像データから直接新しい 2D 仮想テストデータを生成する方法を検討しました。

さらに、テスト基準の設定も研究者が議論するホットな話題の 1 つです。運転などの典型的な多目的問題の場合、さまざまなアルゴリズムの長所と短所を評価し、さまざまなユーザーの要件を満たすテスト標準を設計することは依然として非常に困難です。

3.1.4. テストインジケーターの設定

テスト指標を設定する方法はいくつかあります。1 つ目は、インテリジェントマシンに人間のような動作を実行するように要求することです。この方法では、まず、人がタスクを完了するときにどのようにパフォーマンスするかを決定し、次に、タスクを完了する際のインテリジェントマシンのパフォーマンスと人のパフォーマンスの差に基づいて判断を行う必要があります。

テスト指標を設定する 2 番目の方法は、インテリジェントマシンに最高のパフォーマンスを要求することです。たとえば、囲碁用の人工知能マシンを設計する場合、人間のプレイヤーのようにプレイするのではなく、常に勝てるマシンであることが求められます。この方法は、目標が比較的単純な場合に適しています。スマートカーのテストでは、目標はより複雑になることが多いです。囲碁で勝つという目標とは異なります。運転の安全性、速度、燃費など、他の複雑な要素も考慮する必要があります。異なる要素をターゲットにすると、まったく異なるデザインが生まれます。例えば、2016年と2017年の中国無人車両未来チャレンジでは、スマートカーが10の特定のシナリオタスクを完了するのにかかる時間が評価指標の1つとして使用されました。衝突、車線逸脱、赤信号無視が発生した場合、対応するポイントが減点されます。人々の感情を考慮すると、同じ事柄に対しても人それぞれに感情の違いがあることを考えると、テスト指標の設定はより困難になります。

3.2. スマートカーのインテリジェントテスト

ここでは、スマートカーの知能テストを例に挙げて、私たちの主張を説明します。

3.3.1. インテリジェントテストにおけるテストタスクの設定

従来の無人車両のインテリジェントテストは、主にシナリオテスト派と機能テスト派の 2 つの派に分かれています。

1) シナリオテスト

多くの場合、特定の時間と空間におけるテストシステムを指します。たとえば、交通シーンは一般に、多くの交通参加者と特定の道路環境から構成される交通システムを指します。試験車両が交通システムを通じて自律的に運転できる場合、その特定のシナリオを通じての運転試験と呼ばれます。たとえば、DARPA 2005 の無人車両チャレンジでは、212 キロメートルの砂漠の道路がテストシーンとして選択されました (実際、砂漠は 2004 年にもテストシーンとして選択されましたが、「全軍が全滅しました」。それに比べると、2005 年は輝かしい年でした) (Grand Challenge 2005)。 DARPA 2007 無人車両チャレンジでは、テストシーンとして 96 キロメートルの都市道路が選択されました (Urban Challenge 2007)。

2) 機能テスト

機能テストでは、無人運転の単一または複数の機能の実装に重点を置いています。人間の知能の機能分類に基づくと、運転知能は、情報認識、分析と意思決定、行動実行という 3 つの比較的一般的な能力カテゴリに分類できます。たとえば、経路計画は分析的意思決定の単一項目インテリジェンスに属します。この定義は、これらの個々の知能を実現するための方法と技術の共通性を強調しています。しかし、具体的な交通シナリオや無人運転テストタスクにリンクできないため、無人運転の知能レベルを測定するには不十分です。機能テストの暗黙の前提は、自動運転が特定の機能の 1 つまたは複数のテストに合格すると、将来その機能が必要になったときにスムーズに実行できるということです。この仮定は論理的に思えますが、過度に楽観的であることも判明しました。さらに、現在の機能テストには他にも問題があります。

単一機能のテストが多く、総合テストが少なく、複数の機能間の調整および連携機能をテストできません。
完全かつ公正でオープンなベンチマークセットが不足しています。

私たちは、自動運転車の知能は一般化された意味ネットワークの観点から定義できると主張します。

セマンティックネットワークは、人間の知識をネットワークの形で表現する方法であり、人工知能の分野で広く使用されています。セマンティックネットワークは、有向グラフを使用して複雑な概念とその関係を表現します。グラフの頂点は概念を表し、エッジはこれらの概念間の意味関係を表します。

自動運転インテリジェンスのための一般化されたセマンティックネットワークは、シナリオ、タスク、単一機能、および包括的機能の 4 種類のノードに分かれています。課題は、シナリオと機能を開拓し、接続することであり、これが自動運転インテリジェンス研究の中核となるはずです（下図を参照）。

*図1. 自動運転インテリジェンス定義の意味関係図

シーンという言葉はドラマに由来し、ある時間と空間（主に空間）内で起こるあるタスクアクション、または登場人物同士の関係性によって形成される特定の人間的出来事の断片を指します。システム研究では、シナリオは多くの場合、特定の空間と時間における特定のシステムとして定義されます。交通シーンとは、一般的に、多くの交通参加者と特定の道路環境から構成される特定の交通システムを指します。

タスクはもともと割り当てられた作業を指します。運転タスクは、追従、車線変更、駐車などの一般的な運転タスクを指す場合もあれば、特定の環境における特定の運転タスクを指す場合もあります。

試験車両が自動運転によって特定のタスクを完了できる場合、その特定のタスクの運転試験に合格したとみなされます。運転シナリオと比較すると、運転タスクはより具体的であり、時間と空間の範囲がより明確です。特定の運転シナリオには通常、複数の運転タスクが含まれます。過去 2 年間、China Intelligent Car Future Challenge はミッションテストの重要性に気づき、無人車両の特定の機能をテストするためのタスクライブラリを慎重に設計しました。

しかし、ここでまだ問題が残っています。テストタスクに合格しても、テスト対象のシステムが無人運転の知能と運転能力を備えていることを証明することはできません。運転能力とは、一般的に、特定の運転行動を完了する能力を指します。特定の運転タスクを完了するには、通常、テスト車両に複数の運転機能が必要です。シナリオやタスクとは異なり、それぞれの運転能力を定量的に評価できます。各種能力をさらに総合することで、無人車両全体の走行能力を定量的に評価することができます。

図 1 に示すセマンティックネットワークでは、シナリオ、タスク、および機能間の前方接続に沿って、運転シナリオから特定の運転機能を選別し、定量化可能な運転機能指標を細分化して標準化し、完全なテストシステムを確立できます。

機能、タスクからシナリオへの逆接続をたどることで、機能テストの要件に基づいて合理的な運転タスク、さらには運転シナリオを自動的に生成し、テスト用の運転環境の自動設計の問題を解決できます。運転シナリオが決定されると、自動運転インテリジェンスのシミュレーションテストと実際の路上テストのために、サポートする運転環境を仮想的に自動的に生成できます。

3.3.2. インテリジェントテストにおけるテストシナリオの生成

図 1 に基づくと、シナリオテストはセマンティックネットワークの左端に配置され、機能テストはセマンティックネットワークの右端に配置されます。私たちが提案した無人運転インテリジェントシステムは、実際には無人運転インテリジェントの既存の 2 つの定義を 1 つに統合し、相互に補完し合います。上記の定義に基づいて、さらに具体的なテストシナリオを生成できます。

テストシナリオを生成するときに最初に考慮すべき要素は、シナリオに含まれるタスクと、この一連のタスクが表示されて完了する必要がある時空間の場所をどのように決定するかです。下の図 2 は、非常に単純なシナリオで、テスト車両 A のいくつかの異なるタスクがタスク空間時間グラフにどのように配置されるかを示しています。テスト車両は、期限と期限スペースの前に各タスクを完了する必要があります。同時に、下の図 3 は抽象的なテストシナリオから具体的なテストインスタンスへの変換プロセスを示しています。

各シナリオのタスクの数と空間的および時間的な配置によって、テストシナリオの難易度が決まります。タスクデータが多くなるほど難しくなり、同時に処理する必要があるタスクが増えるほど難しくなります。

*図2. a) 典型的な市街地運転シナリオ、b) 割り当てられたタスクの時空間配置、c) 時間の経過に伴う対応する計算オーバーヘッド

*図3. 運転タスクを徐々に洗練させていくプロセスは、割り当てられたタスクの時空間配置を徐々に決定し、インスタンスを作成することを含む、タスク空間のサンプリングプロセスでもあります。

3.3.3. インテリジェント車両インテリジェンステストフレームワーク

従来の自動車テスト開発では、V 字型開発手法がよく使用されます。下の図に示すように、このアプローチでは、開発フェーズ中に、対応するレベルのテストケースを定義します。

*図4. 従来の自動車テストのV字型開発プロセス

Vモデルの最初の段階は全体要件確認段階であり、この段階では全体要件に対応するテストケースも事前に定義されます。第 2 段階と第 3 段階は、システムレベル (高レベル設計) とサブシステムレベル (低レベル設計) の設計と、対応するテストの作成です。これら 2 つの段階では、システムの機能が細分化および洗練され、ソフトウェア内のさまざまなクラスとクラス間の関係が定義されます。同時に、これら 2 つのステージで同じレベルのテストケースを記述する必要があります。 4 番目の段階はモジュール設計です。この段階では、サブシステムがさらに小さなモジュールに分解され、モジュールに対応するテストケースもこの段階で定義されます。

提案したテスト方法を V モデルに 1 つずつ一致させると、常に新しい例を学習し、1 つの例から推論を引き出し、タスクの説明を徐々に改善するという、次の Λ-V モデルが得られます。

*図5. Λ-Vモデルのテストフレームワーク

Vモデルは、従来の自動車研究開発など、高度に体系化され、導出可能なシステムエンジニアリングに適しています。ただし、具体的なプログラミングの前にすべてのテストケースを設計する必要があるため、より複雑な人工知能システムの開発にこのモデルを直接適用することは困難です。

私たちは、インテリジェントシステムを開発するプロセスにおいて、機械学習とテストは表裏一体であり、インテリジェントテストは機械学習と同様のプロセスを持つべきだと考えています。

(ア)

（ロ）

*図6. スマートカーのテストフレームワーク

並列学習の枠組みにおいて、最初に解決すべき問題は、学習のための新しいデータをどのように取得するかです。この段階を記述学習段階と呼びます。第 2 段階では、第 1 段階から特定のデータを抽出してターゲット学習を行い、「小さな知識」を取得します。この段階を特定データ学習段階と呼びます。第 3 段階は予測学習段階です。この段階では、最初の 2 つの段階で取得したデータと知識が 1 つずつ照合され、この接続も記録されます。最後に、第 3 段階では、すべての新しいデータが既存の接続に基づいて対応する「小さな知識」を見つけます。

同様に、図6(b)に示すように、スマートカーの知能テストにも同様のプロセスがあります。最初の段階は、新しいテストタスクを作成することです。このプロセスでは、シナリオ内のテストタスクが徐々に詳細な機能に細分化されます。第 2 段階では、第 1 段階で作成されたテストタスクの難しい部分を選択します (テストサンプリング)。最後のフェーズはテストの実行であり、最初の 2 つのフェーズで作成されたタスクにおけるスマートカーのパフォーマンスを観察します。この段階では、テスト結果から 2 種類の相関情報を取得する必要があります。1 つ目は、車両の知能と、設定したテスト環境でのパフォーマンスとの相関です。この相関は、新しいテストタスクをサンプリングするのに非常に役立ちます。2 つ目の相関は、テスト自体とテスト環境との相関です。さまざまなテスト環境からテストタスクをより適切に作成する方法を学ぶ必要があります。

私たちは、以下の考慮に基づいて上記のインテリジェントテストフレームワークを提案しました。

1) スマートカーをテストしなければ、その動作を予測することはできません。したがって、テスト前に、どのテストタスクがより難しいかを確認することはできません。したがって、テスト、サンプリング、実行、分析の継続的なサイクルを通じて、最良のテスト結果を達成する必要があります。

2) テスト自体は自己調整、自己循環のプロセスであり、テスト結果に基づいて車両の知能を判断する必要があります。

3) テストがスマートカーのすべての機能を網羅するものである場合、必要なリソースは膨大になります。したがって、このプロセスを短縮するためのより優れた方法とツールが必要です。

3.3. 並列テスト

3.3.1. 従来の仮想シミュレーション

現在、多くの研究者が、視覚領域における仮想シミュレーションに重点を置いています。もちろん、ドライバーの行動の重要性に気づき始めている人もいます。視野のシミュレーションでは、画像を挿入する方法がいくつかあります。1. 実際の 2D データを収集し、そのデータに基づいて 3D モデルを構築し、その 3D モデルを 2D 画像に投影してスマートカーの認識システムに挿入します。2. 敵対的ネットワークを使用して、挿入用の新しい 2D モデルを生成します。3. 上記の 2 つの方法に基づいて、できるだけ多くの画像を挿入します。

3.3.2. 並列テスト法

ここでは、インテリジェント車両向けの新しいタイプの仮想と現実を組み合わせた並列テスト方法を提案します。図 7 に示すように、車両インテリジェンステストは、テスト環境、テスト計画、テスト実行の 3 つのステップに分けられます。同様に、仮想世界でも 1 対 1 のマッピングテストプロセスを確立できます。

*図7. 並列テスト方法

1) まず、実際の環境に複数の交通要素（交差点、信号）を含むシーンを作成します。仮想空間では、シーンはさまざまなテスト目的に応じて、さまざまなタスク、機能グループ、および単一の機能に細分化できます。

2) この分解モデルに基づいて、さまざまな機能をターゲットを絞ってテストするための対応するテスト計画を確立できます。たとえば、交通標識認識と車線変更の 2 つの機能グループをテストするとします。交通標識認識の重要性はそれほど高くないことが簡単にわかりますが、車線変更をテストすると車両の信頼性が向上します。シナリオに含まれるタスクとタスクに含まれる機能グループを測定した後、実際の環境でテストするために車線変更をより多く含むタスクと、シミュレーション環境でテストするために交通標識の認識をより多く含むタスクを選択できます。

3) 実際の環境と仮想環境でテスト計画が策定されると、テスト結果の信頼性と機能の重要度に重み付けが行われ、計画に従って実行した後、対応する重み付けスコアを取得できます。同時に、実環境で取得したテストデータをシミュレーション環境に注入することで、シミュレーション環境を継続的に更新し、強化することができます。実環境と仮想環境のテストは非同期です。実環境で特定のテストを実行しながら、仮想環境で複数のテストを実行することができます。

伝送シミュレーションテスト環境と比較して、並列テストシステムには次の 2 つの違いがあります。

1. 並列仮想環境は、実環境と 1 対 1 でマッピングするだけでなく、状態の面でも実環境と相互作用します。実環境は仮想環境に影響を与え、仮想環境も実環境に影響を与え、自己強化システムを形成します。

2. 並列システムは自己学習システムであり、仮想環境のいくつかの重要な要素はデータ駆動型であるため、並列システムはランダムモデルに基づくシステムよりも自動化され、信頼性が高くなります。

3.3.3. 並列テストの実用化

江蘇省常熟市では、このような並行テストシステムが確立されており、2017年の中国スマートカー未来チャレンジに良いサポートを提供しました。図 8 に示すように、まず仮想環境で最も困難なテストタスクを見つけ、次に実際の環境でテストします。

[[253603]]

*図8. 並列テストの実際

4. 知能検査に関する議論

4.1. 倫理的問題

チューリングを含むほとんどの研究者は、人間は自身の経験に基づいて正しい判断を下すことができ、知能機械も人間と同じようにこれらの判断を下すはずだと考えています。したがって、私たちの研究は、知能機械が知能テストで人間と同じ判断を下すかどうかを判断することに簡略化されています。

しかし、場合によっては、人間でさえ何が正しいのかを判断するのが難しいことがあります。有名な鉄道問題がその一例です。あなたはブレーキが故障した列車の運転手で、目の前の線路には 5 人の人が縛られています。別の線路に切り替えることができますが、もう一方の線路には 1 人しか縛られていません。では、5 人を殺すことと、線路を変えて 1 人を殺すことのどちらを選びますか?この記事では、この問題についてはこれ以上議論しません。この問題に関して、人間にとっても「正しい」判断を下すのは難しいのに、知能機械にとってはなおさら難しいのではないでしょうか。したがって、この記事ではこれらの問題については議論しませんし、倫理的問題に関する知能テストも実施しません。

4.2. テスト結果の自動リアルタイム分析

チューリングテストと今日の多くの新しい知能テストの違いは、チューリングテストでは判断を人間が行うのに対し、新しい知能テストでは判断を機械が行うという点です。これを行う理由は、タスクが明確に定義されており、多くの場合、機械の助けなしに人間が正しい判断を下すことは困難だからです。

スマートカーのテストを例にとると、コストを節約するために、特定のテストルートに複数のテストタスクを設定することが多く、車両は停止せずに複数のテストタスクを完了する必要があります。

例えば、中国スマートカー未来チャレンジでは、Uターン、T字路の通過、交差点の通過、作業車両の回避、トンネル、一時停止標識の回避、歩行者の回避、右折、田舎道の回避、自転車の回避、工事現場、速度制限、駐車の14のテストタスクが設定されました。車両はこれらのミッションポイントを継続的に通過する必要があります。自動評価を可能にするには、V2X機器を使用して車両上のセンサーとデータセンターを接続し、車両データをデータセンターにアップロードして自動評価を完了する必要があります。

*図9. スマートカー競技の試験項目

青島慧拓智能機械有限公司と清華大学は共同で自動評価システムを開発し、今回のコンテストに成功裏に適用しました。図 10 に示すように、左側にはレース中の 5 台の車のリアルタイムの軌跡とリアルタイムの順位が表示され、右側の画面には審判車のデータ、競技車両のデータ、サイドラインカメラのデータを示すリアルタイムのビデオフィードバックデータが表示されます。これらのデータは、V2X または 4G を介してデータセンターに送り返されます。

2009年から2015年までの大会では、審判員が手動で採点していましたが、これは主観的で時間のかかる方法でした。 2017 年のコンテストでは、送り返されたデータを使用してほとんどのタスクを自動的に採点することができました。図 11 に示すように、ディープラーニングを使用して、車両がラインを越えたかどうかを視覚的に確認し、自動スコアリングを実現することもできます。

[[253604]]

*図10. スマートカー競争のリアルタイム評価

*図11. リアルタイムのワイヤ圧力検出

4.3. ドライバーインザループテスト

前述のように、私たちの最終的な目標は、知能テストの結果を人間に代わって機械が評価できるようにすることです。しかし、現段階では、この状況を完全に達成することは困難です。

まず、テストタスクの説明は人間の専門家によって完了する必要があります。すべてのタスクの説明は人間の言語で行われ、現在のところ、タスクをより適切に完了できるコンピュータ言語はありません。機械の知能レベルは設計者によって制限されることが多いため、最終的には、測定されたテスト結果に基づいて機械の知能レベルを向上させるために、常に人間の知恵を活用する必要があります。

第二に、人間の専門家は、自身の経験に基づいて機械が極端なテストタスクを設計するのをより適切に支援できます。

最後に、知能テストにおける最終的な意思決定者は人間であり、機械による判断は人間によって確認される必要がある場合が多いです。 2017年の中国スマートカー未来チャレンジと同様に、ビデオフィードバックシステムにより、人間の専門家がいつでもスマートカーのパフォーマンスを監視できます。これにより、人間と自動採点システムは、互いの判断に基づいて、自身の判断能力を向上させることができます。

4.4. テストを使って知能レベルを評価する

SAE は自動車の自動化レベルを、自動化なしから完全自動化まで 6 つのレベルに分類していますが、この分類システムでは完了する必要のあるタスクが明確に示されていません。現在では、採点システムにおけるテスト課題を明確にすることによってのみ、自動車の知能レベルをより適切に採点できると考える人が増えています。

インテリジェントマシンは特定の分野でますますインテリジェントになり、いくつかの分野では人間を超えています（囲碁の分野ではAlphaGo、射撃の分野ではTop Gunなど）。おそらく将来的には、機械が人間に取って代わり、知能レベルを究極的に定義できるようになるでしょう。

4.5. 解釈可能性のテスト

チューリングテストと同様に、私たちは現在、機械の内部動作メカニズムよりも、インテリジェント機械の外部パフォーマンスに注目しています。インテリジェントなマシンがすべてのテストタスクに合格した場合、その領域におけるそのマシンの知能が認められます。しかし、どのような外部パフォーマンスが最適であるかを知ることは困難です。

今日のインテリジェントマシンはますます複雑になっており、その内部アルゴリズム（複雑なディープラーニングアルゴリズムなど）を完全に理解することは困難であり、それは「ブラックボックス」のようなものです。さらに、私たちが従来の解釈可能性のロジックに基づいて作るマシンは、これまでのところ、「内側と外側の両方」を見つけることができた人はほとんどいません。

4.6インテリジェントマシンソフトウェア開発におけるインテリジェンステストの必要性

現在、ほとんどのAIプログラムがコンピューターでのプログラミングを通じて完了していることを考えると、AIを実装するソフトウェアをテストすることが特に重要であるため、これらのソフトウェアの完全なテストシステムを確立する必要があります。たとえば、テスト駆動型開発（TDD）は今日の業界で広く受け入れられています。TDDの最も基本的なアイデアは、最初に要件を対応するテストケースに分解し、次にソフトウェアを継続的に最適化してこれらのテストに合格することです。このR＆Dアプローチにより、ソフトウェアの品質を確保し、より読みやすくすることができます。

現在、この分野で最も不足しているのは、良好なテストとデバッグツールです。

4.7

前述のように、インテリジェンスをテストする方法はますますありますが、これらのテスト方法が実装されるまでには長い時間がかかります。この実装プロセスを「生涯テスト」と呼びます。 AIマシン全体の研究開発とテストを検討する必要があります。

今日の産業の世界では、複数の「低レベルの」シンプルなマシンを組み合わせて、「高レベルの」マシンを作る可能性が高くなります。 400年前には非常に小さなおもちゃしかできなかったと想像するのは難しいですが、今では非常に複雑なGPU、CPUなどがあります。同様に、AIの分野でも同じことが真実であると考えています。

4.8テストの商業化

現在のAI革命は私たちの生活を大いに変えており、多くの人間の仕事が近い将来に機械に置き換えられているか、または置き換えられます。同時に、AIの新しい分野は多くの新しい仕事を生み出しました。たとえば、インテリジェンステストは、深い学習モデルをトレーニングするためにビデオデータを調整するために多くの人が必要です。

5. 結論

この記事では、主にインテリジェンステストの難しさについて説明し、これに基づいて、インテリジェンステスト方法を提案しています。インテリジェンステストと機械学習のプロセスは類似しており、2つは同じコインの2つの側面のようなものです。また、仮想的な側面と実際の側面を組み合わせた並列テスト方法を提案しました。最初に仮想環境を説明し、最終的にこのプロセスを実行すると、さらに困難なテストを実行する必要があります。

しかし、「生涯にわたるテスト」は、現在、仮想的な要素と実際の要素を組み合わせた並行テストシステムを見つけることができません。

<<: 2018年末のAI分野におけるオープンソースフレームワークのまとめ

>>: AIoTは単なる発言ではない