2022年スタンフォードAIインデックス発表：中国がAIジャーナルの出版と引用で1位、TFオープンソースライブラリが最も人気

人工知能の分野では、スタンフォード大学が開始したAIインデックスは、AIの動向と進歩を追跡する非営利プロジェクトです。AI業界の現状を包括的に研究し、データに基づくAIに関する広範なコミュニケーションと効果的な対話を促進することを目的としています。

先ほど、AI Index が 2022 年の年次レポートを正式に発表しました。

レポートのダウンロードアドレス: https://aiindex.stanford.edu/report/

2022年に発表されたレポートの要点は、以下の8点にまとめられます。

1. AI分野への民間投資が急増し、投資の集中度が高まった。

2021年のAIへの民間投資総額は約935億ドルで、2020年の民間投資総額の2倍以上となったが、新規投資を受けたAI企業の数は2019年の1,051社、2020年の762社から2021年には746社へと減少し続けた。 2020年には5億ドルを超える資金調達ラウンドが4回、2021年には15回ありました。

2. 米国と中国はAIにおける国境を越えた協力を主導している。

地政学的緊張が高まっているにもかかわらず、米国と中国は2010年から2021年にかけてAI出版物に関する国境を越えた協力の件数が最も多く、2010年以降5倍に増加しました。米国と中国の協力による出版物の数は、英国と中国の協力（2番目に多い）の2.7倍です。

3. 言語モデルはこれまで以上に高性能になりましたが、偏りも大きくなっています。

大規模言語モデルは技術的なベンチマークで新たな記録を打ち立てていますが、新しいデータによると、大規模なモデルはトレーニングデータからのバイアスを反映する可能性も高くなることが示唆されています。 2018 年に SOTA として検討された 1 億 1,700 万のパラメータモデルと比較すると、2021 年に開発された 2,800 億のパラメータモデルでは毒性が 29% 増加しました。時間の経過とともに、これらのシステムの機能は劇的に向上し、パフォーマンスの向上と潜在的なバイアスの増大の両方が明らかになりました。

4. AI倫理の台頭はあらゆるところで起こっています。

2014年以降、AIの公平性と透明性に関する研究は爆発的に増加し、倫理関連の会議における関連出版物は5倍に増加しました。アルゴリズムの公平性と偏見は、主に学術的な研究対象から、幅広い影響力を持つ主流の研究テーマへと移行しました。近年、業界とつながりのある研究者が倫理に焦点を当てた会議で発表する論文は前年比 71% 増加しています。

5. AI はより手頃な価格になり、より高性能になります。

2018 年以降、画像分類システムのトレーニングコストは 63.6% 減少しましたが、トレーニング時間は 94.4% 増加しました。推奨、オブジェクト検出、言語処理などの他の MLPerf タスクカテゴリでも、トレーニングコストの削減とトレーニング時間の短縮の傾向が現れており、AI テクノロジーのより広範な商用導入が促進されています。

6. データ、データ、そしてさらにデータ。

技術ベンチマーク全体でトップの結果を得るには、新しい SOTA 結果を達成するために追加のトレーニングデータを使用することがますます重要になっています。 2021 年現在、このレポートの 10 個の SOTA AI システムのうち 9 個は追加データを使用してトレーニングされています。この傾向は、大規模なデータセットにアクセスできる民間の機関投資家に暗黙的に有利に働きます。

7. AI に関する世界的な法律はかつてないほど増えています。

AI Indexが25カ国におけるAI立法記録を分析したところ、AIを盛り込んだ法律として可決された法案の数は2016年の1件から2021年には18件に増加したことがわかりました。 2021年にAI関連法案が最も多く可決されたのはスペイン、イギリス、アメリカで、平均3つの法案が可決されました。

8. ロボットアームは安価になっている

AI Indexの調査によると、ロボットアームの中央価格は過去6年間で4分の1に下がり、2016年のアーム1本あたり5万ドルから2021年には1万2845ドルに下がった。ロボット工学の研究はより身近で手頃な価格になりました。

構造的には、2022 AI インデックスレポートは次の 5 つの章に分かれています。

第1章研究開発
第2章技術的パフォーマンス
第3章: 技術的なAI倫理
第4章経済と教育
第5章: AIポリシーとガバナンス
付録

以下は、レポートの最初の 2 つの章の内容の簡単な解釈です。

研究開発

研究開発は人工知能の急速な発展を促進する上で欠かせない力です。毎年、学術界、産業界、政府、民間社会の幅広い専門家や組織が、多数の論文、雑誌記事、その他の AI 関連の出版物、AI カンファレンス、画像認識などの特定のサブトピックに関する会議を通じて、AI の研究開発に貢献しています。

このレポートの第 1 章では、複数のデータセットを使用して、2021 年の人工知能研究開発分野の主な傾向を分析します。この章ではまず、会議論文、ジャーナル記事、特許、知識ベースなどの AI 出版物について説明します。次に、レポートでは AI カンファレンスの出席状況を分析します。最後に、このレポートでは、研究開発プロセス中に使用される AI オープンソースソフトウェアライブラリを調査します。

AI出版物の概要

図1.1.1は、世界中のAI出版物の数を示しています。 2010年から2021年にかけて、AI関連の出版物の総数は2010年の162,444件から2021年には334,497件に倍増しました。

専門分野別: パターン認識と機械学習に関する出版物は 2015 年以降 2 倍以上に増加しています。コンピュータービジョン、データマイニング、自然言語処理など、ディープラーニングの影響を大きく受けた他の分野では、増加は小幅でした。

国境を越えたコラボレーション: 2010年から2021年にかけて、中国と米国はAI出版物に関する国境を越えたコラボレーションの数が最も多く、2010年以降5倍に増加しました。両国の協力により生み出された出版物の数は、中国と英国（第2位）の協力の2.7倍である。

AIジャーナル出版物

2010年から2015年にかけてはわずかな増加にとどまったものの、AIジャーナルの出版物の数は2015年以降2.5倍近く増加しました（図1.1.7）。

図1.1.10は、過去12年間の3大AI大国によるAIジャーナル出版物のシェアを示しています。中国は常にトップの座を維持しており、2021年には31.0%となり、EUと英国が19.1%、米国が13.7%でそれに続いた。

引用：AIジャーナル論文の引用における中国のシェアは徐々に増加している一方、EU、英国、米国のシェアは減少している。これら 3 つの地理的地域を合わせると、世界全体の 66% 以上を占めます。

AIカンファレンス出版物

AIカンファレンスの出版物の数は2019年にピークを迎え、2021年のピークから約19.4%減少しました（図1.1.12）。しかし、総数の減少にもかかわらず、AIカンファレンスの出版物は、2010年以降、世界のカンファレンスの出版物全体に占める割合を5パーセントポイント以上増加させています（図1.1.13）。

地域別では、2021年に中国が世界のAIカンファレンス出版物の最大シェアの27.6％を占め、2020年よりも大きなリードを築きました。EUと英国が19.0％でこれに続き、米国は16.9％で3位にランクされました（図1.1.15）。

引用: 2021年に最も多くのAIカンファレンス出版物を発表したのは中国ですが、図1.1.16は、AIカンファレンスの引用では米国が2021年に29.5%で他の主要国をリードし、EU + 英国 (23.3%) と中国 (15.3%) がそれに続いていることを示しています。

AI特許

図1.1.22は2010年から2021年までのAI特許出願件数を示しています。 2021年のAI特許出願件数は2015年に比べて30倍以上となり、年平均成長率は76.9%となった。

地域別では、中国は現在、世界の AI 特許の半分以上を申請しており、認可の約 6% を受け取っています。これは EU や英国とほぼ同じです。北米のほぼすべての特許は米国が申請しています。図1.1.24cは、AI特許出願数と認可数の増加と比較すると、中国の特許出願数（2021年には87,343件）が認可数（2021年には1,407件）を大幅に上回っていることを示しています。

AIオープンソースソフトウェアライブラリ

図 1.3.1 と 1.3.2 は、2015 年から 2021 年までの GitHub オープンソース AI ソフトウェアリポジトリのユーザー数を示しています。 TensorFlow は 2021 年現在でも最も人気があり、GitHub での累計スター数は約 161,000 個で、2020 年からわずかに増加しています。 TensorFlow は、2021 年に GitHub オープンソース AI ソフトウェアライブラリ OpenCV の約 3 倍の人気を誇り、Keras、PyTorch、Scikit-learn がそれに続きます。図 1.3.2 は、GitHub スターが 40,000 未満のライブラリの人気を示しています。リストのトップは FaceSwap で、続いて 100-Days-Of-ML-Code、AiLearning、BVLC/caffe となっています。

技術的パフォーマンス

今年の技術パフォーマンスの章には、コンピュータービジョン、言語、音声、推奨、強化学習、ハードウェア、ロボット工学のトレンドなど、AI のさまざまなサブフィールドにおける技術の進歩に関するこれまで以上に多くの分析が含まれています。

コンピュータビジョン: 画像

2021年末現在、トップクラスの画像分類システム Top-1 の精度は、10 分類あたり平均 1 つのエラーでしたが、2012 年末には、10 分類あたり平均 4 つのエラーでした。

図2.1.5は、STL-10データセットにおける生成モデルのパフォーマンスを記録しています。ソウル国立大学の研究者らが開発した最先端のSTL-10モデルは、FIDスコア7.7を達成し、2020年のSOTAの結果を大幅に上回りました。

顔検出: FRVT フェイスマスクテストから、次の 3 つの重要な傾向が読み取れます: (1) 顔認識システムは、マスクを着用した顔に対して依然として比較的良好なパフォーマンスを発揮します。(2) マスクを着用した顔は、マスクを着用していない顔よりもパフォーマンスが低下します。(3) 2019 年以降、その差は縮まっています。顔認識技術は何十年も前から存在していますが、近年の技術進歩は著しいものがあります。現在最も高性能な顔認識アルゴリズムの中には、難しいデータセットでもほぼ 100% の成功率を誇るものもあります。