AIが3Aの傑作をプレイ、OpenAIは調査されるか？ 2023年のAIパノラマレポートが10の予測を発表

State of Report は今年で 6 年目を迎え、人工知能分野の風向計となっています。業界および研究分野の人工知能の第一人者によって執筆されており、過去を総括するだけでなく、将来の発展についても多くの予測を行っています。

今年のレポートは、著名なテクノロジー企業や研究グループのデータを引用しながら、過去1年間のAI業界で最もホットな出来事を集約してハイライトしており、投資家のNathan Benaich、Alex Chalmers、Othmane Sebbouh、Corina Gurauによって執筆されました。このレポートでは、研究の進捗、業界の状況、既存のポリシー、セキュリティの問題、将来の予測という5つの側面から、最新のAI開発状況と将来の期待について詳細な分析を提供します。

完全なレポートをダウンロード: https://docs.google.com/presentation/d/156WpBF_rGvf4Ecg19oM1fyR51g4FAmHV3Zs0WLukrLQ/edit?usp=sharing

報告書によると、OpenAIのGPT-4はリリースから8か月が経過した現在でも最強の大規模言語モデル（LLM）であり、「従来のベンチマークと人間を評価するための試験の両方で他のすべての大規模モデルを上回っている」という。しかし、最先端のAIシステムがより強力で柔軟になるにつれて、それらを比較することがますます困難になると報告書は指摘している。

同時に、報告書は、2023年までにAI企業が最先端の研究をオープンに共有する文化は終わると主張している。報告書によると、OpenAIはGPT-4システムのアーキテクチャに関する「いかなる有用な情報」の共有も拒否し、GoogleとAnthropicも自社のモデルについて同様の決定を下した。「コストが上昇し、セキュリティに関する懸念が高まる中、伝統的にオープンなテクノロジー企業は最先端の研究について不透明な文化を受け入れてきた」

報告書の主な結論は次のとおりです。

1. 研究の進捗

GPT-4 が登場し、独自のテクノロジーと最適ではないオープンソースの代替手段との間の機能のギャップを実証するとともに、人間のフィードバックによる強化学習の威力を検証しました。
LLaMa-1/2 のサポートにより、より小さなモデル、より優れたデータセット、より長いコンテキストを使用して、独自のモデルを複製または上回ろうとする人がますます増えています。
人間が生成したデータが AI の拡大傾向をどれだけ長く維持できるかは不明であり (2025 年までに LLM によってデータが枯渇すると予測する人もいます)、合成データの追加がどのような影響を与えるかは不明です。次は企業内のビデオとデータかもしれません。
LLM と拡散モデリングは、分子生物学と創薬における新たなブレークスルーを可能にし、生命科学コミュニティに力を与え続けています。
マルチモーダル性が新たな領域となり、さまざまなインテリジェントエージェントの人気が大幅に高まりました。

2. 業界の状況

Nvidia は、各国、新興企業、大手テクノロジー企業、研究者からの GPU に対する膨大な需要により、1 兆ドルクラブに加わりました。
大手チップサプライヤーは輸出規制の影響を受けない代替製品を開発しました。
ChatGPT が主導する GenAI のアプリケーションは、イメージング、ビデオ、コーディング、音声、CoPilots などの分野で画期的な進歩を遂げ、180 億ドルのベンチャー投資と企業投資を促進しました。

3. 既存の政策

世界は明確な規制陣営に分かれているが、グローバルガバナンスの進展は遅く、最大規模の AI ラボがそのギャップを埋めている。
AIは選挙や雇用など、さまざまなデリケートな分野に影響を及ぼすと予想されていますが、大きな影響はまだ見られません。

4. セキュリティの問題

実存的リスクに関する議論が初めて主流となり、明らかに激化しています。
多くの高性能モデルは簡単に「ジェイルブレイク」されます。RLHF の課題に対処するために、研究者は自己調整や人間の好みによる事前トレーニングなどの代替手段を模索しています。
モデルのパフォーマンスが向上するにつれて、SOTA モデルを一貫して評価することがますます困難になります。

報告書の具体的な内容は以下のとおりです。

研究の進捗

レポートの最初の部分では、2023 年以降の AI テクノロジーのブレークスルーとその機能をまとめています。

OpenAI は GPT-4 を発表し、独自仕様のモデルと最適ではないオープンソースモデル間の機能のギャップを実証し、人間向けに設計された従来の AI ベンチマークと試験で他のすべての大規模言語モデルに勝利しました。

ChatGPT などの大規模モデルの成功は、人間によるフィードバックによる強化学習 (RLHF) の威力を証明しています。業界では、RLHF に代わるスケーラブルなソリューションも積極的に模索しています。たとえば、Anthropic は AI フィードバックに基づく強化学習を提案しました。

しかし、大手模型メーカーは技術的に閉鎖的になりつつあります。 OpenAIはGPT-4に関する技術レポートを公開したが、AI研究者にとって有用な情報は明らかにされておらず、AI研究の産業化を示すものとなっている。 Google の PaLM-2 技術レポートについても同様であり、Anthropic は Claude 技術レポートを公開しないことを選択しました。

Meta がオープンソースの大規模モデル Llama と Llama2 をリリースし、モデルの重みなどの技術的な詳細を一般に公開することを選択したことで、オープンで競争力のある大規模言語モデルのコンペが開始され、オープンソースと独自の大規模モデルの対立が形成されました。特にLlama2は商用利用も可能で、2023年9月にはダウンロード数が3,200万件に到達しました。

人気度で言えば、ChatGPT は X (オリジナルの Twitter) で 5,430 件の言及があり、最も多く言及されました。次はGPT-4とLLaMAです。独自のクローズドソースモデルが最も注目を集めていますが、オープンソースで商用利用が可能な LLM への関心が高まっています。

業界では、Llama と Llama2 を基盤として、より小さなモデル、より優れたデータセット、より長いコンテキストを開発することで、独自のモデルに匹敵するかそれを超えるパフォーマンスの実現を目指し続けています。

非常に特化され、慎重に作成されたデータセットを使用して小規模な言語モデルをトレーニングすると、そのパフォーマンスは 50 倍の規模のモデルに匹敵します。コンテキストの長さは、AI コミュニティにおいて新たなパラメータメトリックとなり、ますます重要になっている研究トピックになります。

大規模言語モデルのトレーニングパラメータとデータの数が増え続けるにつれて、人間が生成したデータはいつか枯渇してしまうのではないかと人々は考え始めています。このデータが AI の拡張をどれだけ長く持続させるかは不明です。

研究機関Epoch AIは、現在のデータ消費量と生産性が変わらないと仮定すると、低品質の言語データは2030年から2050年までに、高品質の言語データは2026年までに、視覚データは2030年から2060年までに枯渇すると予測しています。

この場合、AI によって生成されたコンテンツを使用して、利用可能なトレーニングデータのプールを拡張できます。まだ明らかでない点がいくつかあります。合成データはますます有用になってきていますが、場合によってはデータを生成するとモデルが忘れてしまうという証拠があります。

テキストと画像の生成モデルがより強力になるにつれて、AI によって生成されたコンテンツと著作権で保護されたソースからのコンテンツを識別することがますます困難になります。

LLM と拡散モデルは、分子生物学と創薬に新たな進歩をもたらしました。たとえば、画像生成モデルや言語生成モデルの成功にヒントを得て、拡散モデルではさまざまな機能性タンパク質をゼロから設計できるようになり、生命科学にさらなる可能性をもたらします。

さらに、言語モデルを使用して、タンパク質構造の進化のルールを学習したり、細胞ベースの実験なしで複数の遺伝子を摂動させた場合の結果を予測したり、すべての単一アミノ酸の変化の結果を予測したりすることもできます。

Google の Med-PaLM 2 は、MedQA テストセットでエキスパートレベルに到達した最初の大規模モデルとなり、次のステップはマルチモダリティへの移行となります。

科学のための AI が徐々に登場しており、その中でも医学は最も急速に発展していますが、数学が最も注目を集めています。

業界の状況

レポートの第 2 部では、AI 関連業界の発展動向をまとめています。

AI、特に大規模モデルの発展は、今がハードウェア業界に参入する好機であることを意味します。GPUに対する膨大な需要により、Nvidiaの利益は急増し、同社は1T（兆）の市場価値クラブに加わりました。

Nvidia の拡大を続ける A100 および H100 GPU クラスターは、AI 研究論文に記載されている他のすべての同様のチップを合わせたよりも 19 倍多くのチップを使用します。

Nvidia は新しいチップを発売し続けています。一方で、同社の古い GPU も驚くべき寿命を示しています。 2017 年にリリースされた V100 は、2022 年の AI 研究論文で最も人気のある GPU です。

Nvidia は GPU 市場の王者ですが、Cerebras など多くの挑戦者にも直面しています。

生成 AI は急速に成長しており、OpenAI の ChatGPT は最も急速に成長しているインターネット製品の 1 つとなっています。

しかし、ChatGPT、Runway、Character.ai などの GenAI アプリは、YouTube、Instagram、TikTok、WhatsApp など、現在最も人気のあるアプリと比較すると、平均維持率と 1 日のアクティブユーザー数が低くなっています。

消費者向けソフトウェア以外では、GenAI が物理 AI の進歩を加速できる兆候があります。例えば、自動運転の分野では、Wayve は現実的な運転シナリオを生成するための大規模な AI モデルである GAIA-1 を発表しました。

さらに、GoogleとDeepMindはGoogle DeepMindに合併し、Googleの「Attention is all you need」論文の著者全員が辞職して独自のビジネスを立ち上げました。

OpenAI や Anthropic などの AI 企業は、大きなモデル技術の波のバックボーンになりつつあります。 GenAI 企業は、すべてのスタートアップ企業よりも 33% 多くのシード資金を調達し、すべてのスタートアップ企業よりも 130% 多くの資金を調達しました。

既存のポリシー

報告書の第 3 部では、人工知能分野における政策立案について紹介しています。

驚くことではないが、数十億ドルの投資と機能の大幅な向上により、AI は政策立案者の最重要課題となっている。世界は、規制が緩いものから厳しいものまで、いくつかの規制アプローチに取り組んでいます。

グローバルガバナンスに関する潜在的な提案はすでに現れている。英国 AI 安全サミットは、この考えを具体化するためのきっかけとなるかもしれません。

秘密の質問

レポートのパート IV では、AI 分野で最も議論されているセキュリティの問題をまとめています。

これまでのAIの現状に関する報告書では、大規模な研究室が安全性の問題を無視していると警告されていた。 2023年には、AIのリスク、特に「絶滅リスク」や壊滅的リスクについての議論が集中し、これらのトピックに関する議論がしばしば見出しを飾りました。

もちろん、Keras の作者であり、Google AI 研究者の François Chollet 氏や、チューリング賞受賞者で Meta の主任 AI 科学者である Yann LeCun 氏など、誰もがそれほど悲観的というわけではありません。ショレット氏は「人類絶滅のリスクをもたらすAIモデルや技術は存在しない…たとえスケーリング法則に基づいてモデルの能力を将来に外挿したとしても」と述べた。しかし、ベンチャーキャピタリストのマーク・アンドリーセン氏は「検証可能な仮説とは何か？誰がそれを反証できるのか？」と疑問を呈した。

政策立案者たちがこれに警戒し、潜在的なリスクについての知識を蓄積するために懸命に取り組んでいることは容易に想像できる。英国は最先端のAIに特化したタスクフォースを設立して対策を主導し、米国は議会による調査を開始した。

このような環境において、大規模な研究室も積極的な対策を講じています。例えば、DeepMindやAnthropicは、モデルのセキュリティリスクを評価するためのセキュリティツールをリリースしています。一方で、悪用されるリスクが高いオープンソースモデルにも注目が集まっており、大規模なオープンソースモデルをリリースするMetaなどの企業も積極的な対策を講じています。