小さなデータ、大きな展望！米国のシンクタンクの最新レポート：長い間無視されてきた小規模データ人工知能の可能性は計り知れない

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

2021年9月、米国安全保障・新興技術センター（CSET）は、「スモールデータが持つ大きなAIの可能性」と題する調査レポートを発表しました。このレポートは、長い間無視されてきた小規模データ人工知能の潜在能力は計り知れないということを指摘しています。

論文アドレス: https://cset.georgetown.edu/publication/small-datas-big-ai-potential/

従来の考え方では、最先端の人工知能の開発は大量のデータによって支えられており、ビッグデータは機械学習プロジェクトを成功に導く鍵であると長い間考えられてきました。しかし、AI≠ビッグデータ。この研究は、ルールを策定する際に、人工知能は膨大な量のデータに依存し、データは不可欠な戦略的リソースであり、取得されたデータの量によって国（または企業）の人工知能の進歩が決まるという永遠の真実を考慮すると、「道を誤る」ことになると指摘している。ビッグデータが重視される一方でスモールデータAIの存在が無視され、大規模なラベル付きデータセットやデータ収集を必要とせずその潜在能力を過小評価している現状を踏まえ、研究者らは「大規模と小規模のAI能力格差の縮小、個人データの収集の削減、データ不足分野の発展の促進、ダーティデータ問題の回避」という4つの側面から「スモールデータ」アプローチの重要性を説明した。

1.スモールデータ方式とは何ですか?

スモールデータ方式は、トレーニングに小さなデータセットのみを必要とする人工知能方式です。これは、ラベル付けされたデータがほとんどまたはまったく利用できない状況に適用でき、大規模な現実世界のデータセットを収集するために人に依存する必要性を軽減します。

ここで言及されている「スモールデータ」は明確なカテゴリではなく、正式かつ一般的に受け入れられている定義はありません。学術論文で小規模データとアプリケーションドメインの関連性について議論する場合、多くの場合、キロバイトやメガバイトと TB のデータなどのサンプルサイズが参照されます。多くのデータへの参照は、最終的には共通リソースになります。しかし、データはかけがえのないものであり、解決すべき問題に応じて、さまざまな分野の AI システムでは異なる種類のデータと手法が必要になります。

この記事では、主に意思決定者の視点から「スモールデータ」について説明します。政府関係者は、社会が機能するルールをより深く理解しており、気候監視データ、地質調査、国境管理、社会保障、有権者登録、車両および運転者の記録など、大量のデータにアクセスできるため、AI 分野で潜在的に強力なプレーヤーと見なされることがよくあります。人口の多さと強力なデータ収集能力は、人工知能における国の競争力にとって重要な要素であると考えられています。

アメリカ人の中には、政府がAI革命の恩恵を受けるには、大量のデータをデジタル化し、整理し、ラベル付けする能力が必要だと考える人もいる。これにはある程度の真実が含まれていますが、AI の進歩のすべてをこれらの状況に帰するのは不公平でしょう。人工知能の将来はビッグデータだけに関連するものではないため、政府がビッグデータインフラにさらなる投資をしなくても、人工知能の革新は生まれる可能性がある。

2. 「スモールデータ」手法の分類

「スモールデータ」手法は、大まかに a) 転移学習、b) データラベリング、c) 人工データ生成、d) ベイズ法、e) 強化学習の 5 つのカテゴリに分類できます。

転移学習は、まずデータが豊富な環境でタスクを実行し、次に学習した知識を利用可能なデータが不足しているタスクに「転移」することによって機能します。

たとえば、開発者が希少な鳥類を識別するためのアプリを作成したい場合、ラベルが付けられた鳥類の種類ごとの写真が数枚しかないことがあります。彼らは転移学習を使用して、まず、何千ものカテゴリにラベル付けされた何百万もの画像を持つ ImageNet などのより大規模で一般的な画像データベースで基本画像分類器をトレーニングします。分類器が犬と猫、花と果物、スズメとツバメを区別できるようになると、次はより珍しい鳥の小さなデータセットを分類器に「与える」ことができるようになります。その後、モデルは画像分類から得た知識を「転送」し、その知識を使用して、はるかに少ないデータから新しいタスク（希少な鳥の識別）を学習できます。

データラベリングは、ラベル付けされたデータが限られており、ラベル付けされていないデータが大量にある状況に適用できます。ラベルのないデータは、ラベルを自動的に生成する方法 (自動ラベル付け) や、ラベルが特に役立つデータポイントを識別する方法 (アクティブラーニング) を使用して処理できます。

たとえば、アクティブラーニングは皮膚がんの診断の研究に使用されています。画像分類モデルは最初に 100 枚の写真でトレーニングされ、がんの皮膚か健康な皮膚かの説明に基づいてラベル付けされました。その後、モデルはより大きな潜在的なトレーニング画像セットにアクセスし、そこからラベルを付けてトレーニングデータに追加する 100 枚の追加写真を選択します。

人工データ生成とは、新しいデータポイントやその他の関連技術を作成することによって、少量のデータからより多くの情報を抽出することです。

簡単な例として、コンピュータービジョンの研究者は、造船業から広告業までさまざまな業界で広く使用されているツールであるコンピューター支援設計 (CAD) ソフトウェアを使用して、日常的なオブジェクトのリアルな 3D 画像を生成し、その画像を使用して既存の画像データセットを強化できるようになりました。このアプローチは、関心のあるデータが単一のソース（この場合のクラウドソーシングされた CAD モデルなど）に存在する場合に、より実現可能になります。

追加データを生成する機能は、小さなデータセットを扱うときにのみ役立つわけではありません。独立したデータの詳細は機密情報である可能性があります (個人の健康記録など) が、研究者はデータの全体的な分布にのみ関心があります。ここで、人工的に合成されたデータの利点が現れます。データをランダムに変更してプライベートな痕跡を消去し、個人のプライバシーをより適切に保護できます。

ベイズ法は、統計と機械学習を通じて、問題の構造に関する情報 (「事前」情報) を問題解決に組み込む方法です。ほとんどの機械学習方法とはまったく対照的に、ベイズ法は問題について最小限の仮定を行う傾向があり、データが限られている状況に適していますが、問題に関する情報を効果的な数学的形式で記述できます。ベイズ法は、予測における不確実性について適切に調整された推定値を生成することに重点を置いています。

少量データを使用したベイズ推論の例として、ベイズ法は地球規模の地震活動を監視するために使用され、地殻変動や核条約の検出に重要な意味を持ちます。地震学からの事前知識を取り入れたモデルを開発することで、研究者は既存のデータを活用してモデルを改善することができます。ベイズ法は大規模なファミリーであり、小さなデータセットの処理に適した方法だけではありません。これに関する研究の中には、大規模なデータセットを使用するものもあります。

強化学習は、エージェント (コンピュータシステム) が試行錯誤を通じて環境との対話を学習する機械学習手法を指す広義の用語です。強化学習は、ゲームプレイシステム、ロボット、自動運転車のトレーニングによく使用されます。

たとえば、強化学習は、Pong のようなシンプルなアーケードゲームから StarCraft のような戦略ゲームまで、ビデオゲームのプレイ方法を学習する AI システムのトレーニングに使用されています。システムはゲームに関する知識がほとんどない状態からスタートしますが、試行錯誤と観察を通じて学習し、報酬信号が発生する理由を理解していきます。 (ビデオゲームの場合、報酬信号はプレイヤーのスコアの形をとることが多い。)

強化学習システムは通常、大量のデータから学習し、膨大なコンピューティングリソースを必要とするため、強化学習システムに含めることは直感に反するカテゴリのように思えるかもしれません。強化学習技術が含まれるのは、これらの技術で使用されるデータが、事前に収集されてラベル付けされるのではなく、システムがトレーニングされるときに（多くの場合はシミュレートされた環境で）生成されることが多いためです。強化学習の問題では、エージェントが環境と対話する能力が重要です。

図 1 は、これらのさまざまな領域がどのように相互接続しているかを示しています。各ドットは、上記のカテゴリのいずれかに属すると特定された研究クラスター（論文のグループ）を表します。 2 つの研究クラスターを結ぶ線の太さは、それらの間の引用リンクの接続度を表します。線がない場合は引用リンクがないことを意味します。図に示すように、クラスターは同じカテゴリのクラスターと最も密接に接続されていますが、異なるカテゴリのクラスター間の接続も多数あります。また、図から、「強化学習」によって識別されたクラスターは特に一貫したグループを形成しているのに対し、「人工データ」のクラスターはより分散していることもわかります。

図1に示すように、小規模データ研究クラスターネットワーク図

出典: CSET Combined Corpus of Scholarly Literature、2021 年 2 月 12 日現在。

3. 「スモールデータ」アプローチが重要なのはなぜですか?

1. 大規模組織と小規模組織間のAI能力格差を縮小する

AI アプリケーションにおける大規模データセットの価値は増大し続けており、さまざまな組織がデータを収集、保存、処理する能力に差があることが懸念されています。これにより、人工知能分野における「持てる者」（大手テクノロジー企業など）と「持たざる者」の間の格差も拡大した。少量データで転移学習、自動ラベリング、ベイズ法などを人工知能に適用できれば、データ面での小規模事業者の参入障壁が大幅に下がり、大規模事業者と小規模事業者の能力格差を縮めることができます。

2. 個人データの収集を減らす

ほとんどのアメリカ人は人工知能が個人のプライバシーを侵害するだろうと信じている。たとえば、大手テクノロジー企業は、AI アルゴリズムをトレーニングするために、個人を特定できる消費者データを収集する傾向が高まっています。特定のスモールデータアプローチでは、個人データの収集を減らしたり、新しいデータを人工的に生成したり (合成データ生成など)、シミュレーションを使用してアルゴリズムをトレーニングしたりできます。そのうちの 1 つは個人が生成したデータに依存せず、もう 1 つはデータを合成して機密性の高い個人識別属性を削除する機能を備えています。すべてのプライバシーの懸念が解決されるわけではありませんが、大量の現実世界のデータを収集する必要性を減らすことで機械学習の使用が容易になり、消費者データの大規模な収集、使用、開示に関する懸念が軽減されます。

3. データ不足地域の開発を促進する

利用可能なデータの爆発的な増加により、人工知能の新たな発展が促進されました。しかし、多くの差し迫った問題では、AI システムに取り込むことができるデータが不足しているか、まったく存在しません。たとえば、電子健康記録を持たない人々の病気のリスクを予測するアルゴリズムを構築したり、活火山が突然噴火する可能性を予測したりします。スモールデータメソッドは、欠落データや不足データを処理するための原則的な方法を提供します。ラベル付きデータとラベルなしデータの両方を活用し、関連する問題からの知識を転送できます。スモールデータは、関連分野の事前知識を頼りに少数のデータポイントでより多くのデータポイントを作成したり、シミュレーションを構築したり構造仮説をエンコードしたりして新しい分野での冒険を始めたりするためにも使用できます。

4. ダーティデータの問題を回避する

スモールデータアプローチは、「ダーティデータ」にうんざりしている大規模な組織にメリットをもたらします。データは常に存在していますが、それがクリーンで、きちんと構造化され、分析しやすいものになるまでには、まだ長い道のりがあります。たとえば、孤立したデータインフラストラクチャとレガシーシステムが原因で、米国国防総省には無数の「ダーティデータ」が存在し、それらを「浄化」するためには、データをクリーニング、ラベル付け、整理するために多くの人材と物的リソースが必要になります。小規模データ方式でのデータラベル付けでは、ラベルを自動的に生成することで、大量のラベルなしデータをより簡単に処理できます。転移学習、ベイズ法、または人工データアプローチは、それぞれ関連するデータセット、構造化モデル、および合成データに基づいて、クリーンアップする必要があるデータの量を削減することで、ダーティデータの問題の規模を大幅に削減できます。

AI に携わる意思決定者にとって、AI の開発においてデータが果たす役割と果たさない役割を明確に理解することは非常に重要です。上記の要因はすべての方法に当てはまるわけではありません。たとえば、強化学習には通常大量のデータが必要ですが、このデータはトレーニングプロセス中に生成され (たとえば、AI システムがロボットアームを動かしたり、仮想環境を移動したりする場合)、事前に収集されるわけではありません。

IV.研究の進捗

研究量の観点から見ると、5 つの「小規模データ」手法の曲線の変化は、過去 10 年間で異例の軌跡を描いています。図 2 に示すように、強化学習とベイズ法は、論文数が最も多い 2 つのカテゴリです。ベイジアンクラスターの論文数は過去 10 年間で着実に増加していますが、強化学習関連クラスターの論文数は 2015 年にようやく増加し始め、特に 2017 年から 2019 年にかけて急速に増加しました。なぜなら、深層強化学習は、2015 年に技術的な変革が起こるまで、ボトルネックの時期にありました。対照的に、人工データ生成とデータラベリングに関する研究論文が毎年まとまって発表される数は、過去 10 年間でごくわずかです。最後に、転移学習に関する論文の数は 2010 年には比較的少なかったのですが、2020 年までに大幅に増加しました。

図2. 2010年から2020年までの小規模データ出版の傾向

出典: CSET Combined Corpus of Scholarly Literature、2021 年 2 月 12 日現在。

出版物の絶対数は論文の質を示す指標ではありません。そのため、研究者は各カテゴリークラスター内の論文の質を測定するために、H 指数と年齢補正引用という 2 つの指標を使用しました。 H 指数は、論文の出版活動と総引用数を示す、一般的に使用される指標です。 H 指数の限界の 1 つは、論文の古さ (つまり、古い論文には引用を蓄積する時間が長いという事実) を考慮していないことです。 H 指数は、最も影響力があり、まだ引用を集めていない新しく出版された論文のクラスターを過小評価します。上記の問題を調整するために、図 3 では年齢補正された引用もプロットしています。 H 指数だけを見ると、強化学習とベイズ法はほぼ同等ですが、論文の時間制限を考慮すると、強化学習が際立っています。 5 つの「小規模データ」手法のうち、ベイズ法の累積的な影響はより高く、比較的最近の論文数と引用数の急増により強化学習がリードしているようです。

図3. 2010～2020年のカテゴリー別H指数と年齢補正引用数

出典: CSET Combined Corpus of Scholarly Literature、2021 年 2 月 1 日現在。

しかし、強化学習が過去 10 年間で最も急速に成長した分野であると想定するのは間違いです。各カテゴリーの成長を時系列で詳しく見ると、図 4 は、転移学習が 2011 年から 2020 年の間 (わずか 2 年間) に最も安定した成長を示し、その他のすべての年は最も急速な成長を示したことを明確に示しています。このグラフには、過去 5 年間の人工データ生成による成長も示されていますが、このカテゴリの論文の総数が少ないため、図 3 ではそれほど明らかではありません。しかし、2012年から2015年にかけては成長率の減少が最も顕著だったため、このカテゴリーの成長軌道に基づいて具体的な結論を導き出すことは困難です。

図4. 2011～2020年のカテゴリー別前年比成長率

出典: CSET Combined Corpus of Scholarly Literature、2021 年 2 月 12 日現在。

図 5 は、CSET が開発した予測モデルを使用して、別のカテゴリの「Al Review」論文をベンチマークとして、各カテゴリの 3 年間の成長予測を比較したものです。図に示されているように、転移学習は AI 研究全体よりも速い成長が予測される唯一のカテゴリであり、他のすべてのカテゴリをはるかに上回っており、過去数年間の継続的な成長傾向と一致しています。

図5. 2023年までのカテゴリー別成長予測

出典: CSET Combined Corpus of Scholarly Literature、2021 年 2 月 12 日現在。

注: 将来の成長指数は、CSET の研究クラスターの成長予測に基づいて計算されます。

5.国家競争力

世界トップ10カ国における各手法の研究進捗状況を見ると、スモールデータ手法の国家競争力を推測することができます。出版された論文の数や、年齢に合わせて調整された引用数などの単純な指標を使用することで、5 つの「小規模データ」アプローチにおける各国の相対的な位置を予備的に把握することができます。

AI研究の全体的な結果と一致して、「スモールデータ」クラスターに関する論文発表数では中国と米国がトップ2位であり、英国がそれに続いています。データラベリングや転移学習手法の分野における学術出版物の総数では中国が圧倒的な差でリードしている一方、ベイズ法、強化学習、人工データ生成では米国が優位に立っています。米国と中国を除き、小規模データ調査における上位10カ国はすべて米国の同盟国またはパートナー国であり、ロシアなどの国がリストに含まれていないことが顕著である。現在、学術界では研究の質と影響力を測定するために論文の引用がよく使用されています。中国は、すべての小規模データカテゴリにおける年調整引用数で第 2 位にランクされていますが、ベイズ法では 7 位に落ちています。

図6は国別の3年間の成長予測を示しています。中国における転移学習方法の成長は、米国や世界の他の地域に比べて大幅に高くなると予想されます。このテストが正確であれば、中国は転移学習においてより速く、より発展することになるだろう。

図6. 2023年までの米国、中国、その他の世界（ROW）のカテゴリー別成長予測

出典: CSET Combined Corpus of Scholarly Literature、2021 年 2 月 12 日現在。

VI.資金調達

研究者らは、小規模データアプローチに利用可能な資金提供データを分析し、研究クラスター内の資金提供を受けた論文のエンティティタイプの推定値を決定しました。上記の調査結果では、資金提供に関する情報が記載されている論文は全体の約 20 ～ 30% に過ぎません。

政府、企業、学術界、非営利団体など、あらゆるセクターにおいて、政府機関は研究の重要な資金提供者であることが多いです。世界的に見ると、政府資金は AI 全体よりも「スモールデータ」アプローチクラスターにかなり高い割合を占めています。図 7 に示すように、5 つのカテゴリすべてにおいて、AI 研究に対する全体的な資金の内訳と比較すると、政府資金の割合が非常に高くなっています。非営利団体は、小規模データ研究のために、AI 全般のその他の分野よりも少ない資金を受け取ることになります。ベイズ法の資金調達パターンは、一般的な AI と最も似ています。

図7. AI全般に関連するデータアプローチの資金源

出典: CSET Combined Corpus of Scholarly Literature、2021 年 2 月 12 日現在。

図 8 は政府関連の資金調達情報を国別にさらに詳しく示しています。調査結果によると、スモールデータへの政府資金の割合は全体的に増加傾向にあるが、全体として、スモールデータ研究への米国政府の資金提供の割合は人工知能への割合よりも低い。米国では、AI 研究全体よりも、個々の機関や企業が小規模データ研究に大きな割合を占める傾向があります。

図8. 中国、米国、その他の国々におけるAI関連のスモールデータアプローチに対する政府資金提供（ROW）

出典: CSET Combined Corpus of Scholarly Literature、2021 年 2 月 12 日現在。

VII.結論

a) 人工知能はビッグデータと同じではありません。

b) 転移学習に関する研究は急速に進んでおり、将来的には転移学習がより効果的に、より広く利用されるようになるでしょう。

c) 小規模データへのアプローチをめぐる米国と中国の間の競争は非常に熾烈です。米国は強化学習とベイズ法の分野で優位に立っており、一方中国は最も急成長している転移学習の分野でリードしており、その差は徐々に広がっている。

d) 現在、米国は人工知能分野全体の投資パターンに比べて小規模データ手法への投資の割合が少ないため、転移学習は米国政府が資金を増やすための有望な目標となる可能性があります。

<<: わずか 1/500 のデータで Atari ゲームをマスターしましょう!清華大学クロススクール研究所の助教授が小規模データRLモデルを提案し、AIコミュニティの波を引き起こした。

>>: ロボティックプロセスオートメーションとスマートデータセンターの未来