スタンフォード大学が主流モデルのトップ10の透明性を公開！ラマ2が1位、GPT-4は透明性がない、ルカン氏が批判：収益性は完全に理解されている

GPT-4やLlamaなどの基本モデル（FM）が次々と誕生し、現在の生成AIのエンジンとなっています。

これらの FM の社会的影響力は増大しているものの、透明性は低下しています。

GPT-4の正式発表後、OpenAIは公開した技術レポートの中で重要な情報について一切言及しなかった。これには、Google PaLM やその他のクローズドソースモデルも含まれます。

誰もが心の中に多くの疑問を抱かずにはいられません。

モデルはどのようにトレーニングされますか?どのように展開しますか?トレーニングデータはどこから来るのでしょうか?

これらの AI システムの構築の背後でデータの注釈とフィードバックを提供する人々は誰でしょうか?彼らにはいくら支払われるのですか?

上記の問題などに加え、透明性は企業にとっても社会にとっても非常に重要です。

現在、スタンフォード大学、MIT、プリンストン大学のチームが「基本モデル透明性指数」を提案し、現在の主流の10モデルの透明性を評価しました。

アドレス: https://crfm.stanford.edu/fmti/

結果によると、10 個のモデルの中で最も透明性が高かったのは Llama 2 で、スコアは 54% でした。 GPT-4 と PaLM 2 はどちらも遅れています。

研究者たちは、透明性は実に幅広い概念であることを認めている。

スタンフォードは、モデルの構築方法、動作方法、使用方法に関連する 100 の指標に基づいてモデルを評価します。

意外にも、この採点システムは、HuggingFace の共同設立者である LeCun 氏を含む多くの研究者から批判されています。

スタンフォード大学の AI モデルの公開ランキングは、モデルの能力を示すものかもしれません。民間企業に企業秘密の開示を求めるという考えは甘い。

HuggingFaceの共同設立者は、これはマンハッタン計画ではないと述べ、スタートアップ企業が利益を上げるために株式を公開しないことを選択するのは全く理解できることだと語った。

そして、オープンソース化を望む企業を制限するために、偽りの「セキュリティ上の言い訳」の下で規制を推進しない限りは。

このレポートがモデルの透明性をどのように評価しているかを詳しく見てみましょう。

生成 AI モデルには早急に透明性が必要です。

現在、基盤となるモデルの社会的影響は高まっていますが、透明性は低下しています。

この傾向が続くと、基盤となるモデルがソーシャルメディアプラットフォームやその他の以前のテクノロジーと同じくらい不透明になり、同じ過ちを繰り返すことになるかもしれません。

特定の観点から見ると、生成 AI は、生産性を向上させることができる一方で、個人的な目的で同意のないディープフェイク画像やビデオを作成することによって、他者に危害を加えるために使用される可能性もある諸刃の剣です。

開発者はそのような使用を禁止するポリシーを持っています。たとえば、OpenAI のポリシーでは、モデルを使用して他人に無許可の法的、財務的、または医学的アドバイスを生成することなど、さまざまな使用を禁止しています。

しかし、これらのポリシーは適切に施行されなければ実質的な効果を発揮できず、プラットフォーム側では施行に関して透明性が欠けているため、効果的かどうかはわかりません。

巧妙な悪意のある行為者はオープンソースツールを使用して他人に危害を加えるコンテンツを生成する可能性があるため、ポリシーは決して包括的な解決策にはなりません。

ベースモデル透明性指数

2023 年基礎モデルの透明性指数は、スタンフォード大学の基礎モデル研究センター (CRFM) と人間中心 AI 研究所 (HAI)、MIT メディアラボ、プリンストン大学情報技術センターの 8 人の AI 研究者によって作成されました。

論文アドレス: https://arxiv.org/pdf/2310.12941.pdf

チームの共通の目標は、基礎となるモデルの透明性を高めることです。

評価指標には、技術的な側面 (データ、計算、モデルトレーニングプロセスの詳細) だけでなく、基礎となるモデルのトレーニングの社会的側面 (労働力、環境、実際の使用ポリシーへの影響) も含まれます。

さらに、開発者がデータ作業を行う労働者の賃金、モデルの開発に使用されるコンピューティングリソース、使用ポリシーをどのように実施しているかなど、他の指標も評価する必要があります。

これらの指標は、モデルカード、データシート、評価方法、基盤となるモデルがより広範なサプライチェーンと連携する方法など、AI システムの透明性を高めることを目的とした過去の介入に基づいて構築され、統合されています。

透明性レポートの統計と調査結果

指標の定義

透明性レポートでは、基礎となるモデルの開発者の透明性を総合的に特徴付けるために 100 の指標が定義されています。指標は主に次の 3 つの領域に分けられます。

1. アップストリーム: アップストリームメトリックは、基盤モデルの構築に使用されるコンピューティングリソース、データ、労働力など、基盤モデルの構築に関係する要素とプロセスを指定します。

2. モデル: モデルメトリックは、モデルのアーキテクチャ、機能、リスクなど、基礎となるモデルのプロパティと機能を指定します。

3. ダウンストリーム: ダウンストリームメトリックは、モデルがユーザーに与える影響、モデルの更新、モデルの使用を管理するポリシーなど、基礎となるモデルがどのように配布および使用されるかを指定します。

ベースモデルプロバイダー10社のスコア（セクター別）

この指数は、10 大ベースモデル開発会社とその主力モデルを指数の 100 の指標に照らして評価し、改善すべき分野を総合的に特定します。

主な調査結果

計算の結果、10 モデルの平均スコアはわずか 37 ポイント (100 点満点) で、最高スコアのモデルでも 50 ポイントをわずかに超える程度でした。

主要な基盤モデル開発者が適切な透明性を提供していないという事実は、AI 業界における根本的な透明性の欠如を明らかにしています。

しかし、1 つのモデルは 82 の指標を満たしており、他の開発者が採用したプラクティスを実装できれば改善の余地があることが示唆されています。

オープンソースベースモデルが先頭に立つ必要があり、3 つのオープンソースベースモデルのうち 2 つ (Llama 2、BLOOMZ、Stable Diffusion 2) が最高スコアを獲得しており、どちらもモデルの重みをダウンロードできます。

Stability AIはオープンソースベースモデル開発会社としては3位で、OpenAIに次ぐ第4位です。

その他の調査結果

モデルにスコアを付けた後、研究チームは関連企業に積極的に連絡を取り、回答と反論を求めました。

次の図は、開発者の異議に対処した後の各モデルの最終スコアを示し、メトリックをサブドメインにグループ化しています。サブドメインにより、より詳細で直感的な分析が可能になります。

1. データ、労働力、コンピューティングは開発者にとって盲点です。

開発者は、基盤となるモデルを構築するために必要なリソースについて、最も透明性が低くなっています。これは、データ、労働、コンピューティングのサブ領域でのパフォーマンスが低いためです。すべての開発者の合計スコアは、データ、労働、コンピューティングの合計スコアのわずか 20%、17%、17% を占めます。

2. 開発者は、ユーザーデータの保護とモデルの基本機能についてより透明性を高めます。

開発者は、ユーザーデータ保護 (67%)、基盤となるモデルの開発方法に関する重要な詳細 (63%)、モデルの機能 (62%) と制限 (60%) に関連する指標で高いスコアを獲得しました。

これは、開発者がユーザーデータや製品の基盤となる機能をどのように処理するかについて、一定レベルの基本的な透明性を反映しています。

3. 開発者にとって最も透明性のあるサブドメインであっても、改善の余地はあります。

モデルの制限を透明に提示したり、第三者がモデルの機能を評価できるようにしている開発者はごくわずかです。

各開発者はモデルの入力および出力スキーマを説明しましたが、モデルコンポーネントを公開したのは 3 人の開発者のみで、モデルサイズを公開したのは 2 人の開発者のみでした。

オープンソースまたはクローズドソースモデル

今日の AI における最も論争を呼んでいる政策論争の 1 つは、AI モデルをオープンソースにすべきか、クローズドソースにすべきかということです。

AI のリリースポリシーはバイナリではありませんが、この分析の目的では、重みが広くダウンロード可能なモデルはオープンとしてマークされます。

以下のリストにある 3 人の開発者 (Meta、Hugging Face、Stability AI) は、モデルの重みをダウンロードできるオープンソースの基本モデル (それぞれ Llama 2、BLOOMZ、Stable Diffusion2) を開発しました。

他の 7 人の開発者はクローズドソースの基本モデルを構築しましたが、モデルの重みは公開ダウンロードできず、モデルには API 経由でアクセスする必要があります。

オープンソースモデル（MetaのLlama-2、Hugging FaceのBLOOMZ、Stability AIのStable Diffusion 2）がリードしている

オープンソースモデルが先頭に立っています。

3 つのオープンソースモデルのうち 2 つ (Meta の Llama 2 と Hugging Face の BLOOMZ) は、最高のクローズドソースモデルと同等以上のスコアを獲得し、Stability AI の Stable Diffusion 2 は OpenAI の GPT-4 に僅差で続きました。

この不一致は、主に、モデルの構築に使用されるデータ、労力、コンピューティングなどの上流の問題に関して、クローズドソース開発者の透明性が欠如していることに起因しています（下の図を参照）。

オープンソースモデルとクローズドソースモデルの違いは、モデルの開発に使用されるデータ、労力、計算の詳細などの上流のメトリックによって決まります。

総合スコアでは、オープンソースベースモデル開発者がリードしています。オープンソースモデル開発者とクローズドソースモデル開発者の違いは、データやコンピューティングなど、モデルの構築に必要なリソースに関する指標に特に顕著に表れています。近年、クローズドソースモデルの開発者の多くは、モデルのトレーニングに使用する方法についてますます秘密主義になっています。

分析の方法と結論について詳しく知りたい場合は、次のリンクを参照してください。

一部のネットユーザーはまだこの作品に賛同している。

モデルの透明性を促進するこの取り組みは有意義だと考える人もいます。これは本当に素晴らしいことであり、大きな前進です。

一部のネットユーザーもこの作品は素晴らしいと述べ、最高割合がわずか54％であるという事実をどう見ているかを作者に尋ねた。

著者らは、全体的なスコアはいくぶんがっかりするほど低いが、1つのモデルは100項目中82項目を満たしており、現在の制限は実行可能であると回答した。

<<: 「ビッグモデル＋」アプリケーションを実装した場合、ビッグモデルの微調整によって、効果、コスト、制御性のバランスをどのように取ることができるでしょうか？

>>: