現在、ビッグモデルは強力な機能と無限の可能性で新たな技術革命をリードしています。多くのテクノロジー大手は、ビッグモデルの継続的な発展をさらに促進するために、ビッグモデルを中心に取り決めを行っています。しかし、ビッグモデルはさまざまなタスクの完了を支援し、生産や生活の方法を変え、生産性を向上させ、利便性をもたらす一方で、プライバシーデータの漏洩、偏見や暴力、差別、基本的な倫理や法律や規制に違反するコンテンツの生成、虚偽情報の拡散など、ビッグモデルの開発には多くのリスクと課題も伴います。さらに、大型モデルの能力が急速に進歩するにつれ、自己保存、自己複製、権力や資源の追求、他の機械や人間の奴隷化など、人間の価値観とは相容れない「欲望」が徐々に現れ始めている。したがって、ビッグモデルが飛躍的に進歩するにつれて、その技術的進歩を追跡し、その機能と欠点をより深く理解し、ビッグモデルがもたらすセキュリティ上の課題とリスクを予測して防止する必要があります。そのためには、ビッグモデルの総合的な評価を実施し、ビッグモデルの発展をより健全で安全な方向に導き、その発展の成果が全人類に利益をもたらすようにする必要があります。 しかし、大規模モデルの総合評価には多くの課題があります。大規模モデルは汎用性が高く、さまざまなタスクを処理できるため、大規模モデルの総合評価には範囲が広く、作業量が多く、評価コストが高くなります。第二に、データアノテーションの作業量が多いため、多くの次元での評価ベンチマークを確立する必要があります。第三に、自然言語の多様性と複雑さにより、多くの評価サンプルで標準的な回答を形成することは不可能であるか、複数の標準的な回答があるため、対応する評価指標を定量化することが困難です。さらに、既存の評価データセットにおける大規模モデルのパフォーマンスは、実際のアプリケーションシナリオでのパフォーマンスを表すことが困難です。 上記の課題に対応し、大規模モデル評価研究に対する皆様の関心を刺激し、大規模モデル評価研究と大規模モデル技術研究開発の連携を促進するために、天津大学自然言語処理研究室は最近、大規模モデル評価に関するレビュー記事を発表しました。このレビュー記事は、本文58ページを含む合計111ページで構成され、380件を超える参考文献が引用されています。
図2に示すように、このレビューでは、ビッグモデル評価全体を、異なる評価次元に従って、(1)知識と能力の評価、(2)整合評価、(3)セキュリティ評価、(4)業界ビッグモデルの評価、および(5)(総合的な)評価組織の5つの評価カテゴリに分類しています。これら 5 つの評価カテゴリは、基本的に現在の大規模モデル評価の主な研究領域をカバーしています。各評価項目を紹介する際には、関連する研究を整理し、各研究間の関係性をツリー構造のマインドマップの形で提示することで、当該分野の全体的な研究枠組みを明確に示しました。それだけでなく、このレビューでは、大規模モデル評価の将来の開発方向についても検討し、大規模モデル評価は大規模モデル自体と連携して進むべきであることを強調しています。このレビューが、大型モデル評価の分野に関心を持つ研究者や工学技術者にとって参考になることを期待しています。このレビューに基づいて、彼らは大型モデル評価の発展と現状をより包括的に理解し、大型モデル評価における重要な未解決の問題について深く考えることができます。 図2 大規模モデル評価研究における5つの主要な評価カテゴリーとそのサブカテゴリー 知識と能力の評価知識と能力は、大きなモデルを評価する上での中核となる要素の 1 つです。ビッグモデルの急速な発展により、多くの複雑なタスクで継続的な進歩が可能になり、より実用的なビジネス シナリオで広く使用されるようになりました。現実世界のシナリオタスクを処理できるかどうかは、大規模モデルの知識と能力レベルを総合的に評価する必要があります。このレビューでは、大規模モデルの質問応答能力評価、知識補完能力評価、推論能力評価、ツール学習能力評価について議論し、関連する評価ベンチマークデータセット、評価方法、評価結果を整理します。推論能力の評価において、このレビューでは、最も一般的な4つの推論タイプ((1)常識推論、(2)論理的推論、(3)マルチホップ推論、および(4)数学的推論)を紹介しています。ツール学習能力評価のうち、本レビューではツール呼び出し能力評価とツール作成能力評価について詳しく紹介します。対応するマインドマップを図 3 に示します。 図3 大規模モデルの知識と能力の評価 アライメント評価大規模モデルの整合評価により、大規模モデルの悪影響を事前に予測できるため、倫理的価値観の不整合を解消するための対策を事前に講じることができます。整合評価では、このレビューでは大規模モデルの道徳的・倫理的評価、バイアス評価、毒性評価、誠実性評価について議論しており、対応するマインドマップを図 4 に示します。 図4 大規模モデルのアライメント評価 大規模モデルの道徳的および倫理的評価は、それらが生成するコンテンツが社会的に認められた道徳的および倫理的規範に違反しているかどうかを評価することを目的としています。このレビューでは、異なる評価基準に従って、道徳的および倫理的評価を4つの部分に分割しています。(1)専門家の定義に基づく道徳的および倫理的規範の評価、つまり、書籍や記事などの専門的な情報源で定義されている道徳的および倫理的規範を評価基準として使用し、クラウドソーシングを使用して対応する評価データセットを作成します。(2)クラウドソーシングに基づく道徳的および倫理的規範の評価。クラウドソーシングの道徳的および倫理的規範は通常、関連する専門的なトレーニングを受けていないクラウドソーシングワーカーによって、個人の道徳的ラベルに基づいて決定されます。(3) AI支援による道徳的および倫理的規範の評価。つまり、言語モデルが評価プロセスに参加できるようにして、コンテンツが道徳的および倫理的かどうかを人間が判断できるようにします。(4)ハイブリッドモデル(専門家の定義+クラウドソーシングなど)に基づく道徳的および倫理的規範の評価。関連する評価データセットには、専門家によって定義された道徳的および倫理的規範によって構築されたデータセットと、クラウドソーシングワーカーの個人的な道徳規範に基づいて構築されたデータセットの両方が含まれます。 大規模モデルのバイアス評価は、主に、モデルが生成するコンテンツが特定の社会集団に悪影響を及ぼしたり、害を与えたりするかどうかに焦点を当てています。既存の研究によると、大規模なモデルは特定のグループについて固定観念を抱いたり、特定のグループを中傷する情報を出力するなど偏った行動をとったりする可能性がある。このレビューでは、主に下流タスクのバイアスと大規模モデルのバイアスについて説明します。下流のタスクには、共参照解決、機械翻訳、自然言語推論、感情分析、関係抽出、暗黙的なヘイトスピーチ検出が含まれます。このレビューでは、大規模モデルのバイアスについて、主に大規模モデルのバイアスを評価するために特に使用される主流の評価データセットと評価方法について紹介します。 大規模モデルの毒性評価は、主に、生成されるコンテンツに憎悪、侮辱、わいせつなどの有害な情報が含まれているかどうかを評価することに重点を置いています。このレビューでは、毒性評価の枠組みの中で、大規模モデルを使用して有害情報を特定する関連研究を紹介し、対応する評価ベンチマークについて詳しく説明します。さらに、このレビューでは、大規模モデルの毒性を評価するのに適した評価データセットと、大規模モデルによって生成されたコンテンツの毒性を定量化できるツールについても説明します。 大規模モデルの誠実性評価は、モデルによって生成されたコンテンツが真実で、正確であり、事実と一致しているかどうかを検出することに専念しています。このレビューでは、評価データセットと評価方法に焦点を当て、大規模モデルの誠実性評価に関する関連研究を詳細に紹介します。真正性評価のためのデータセットを紹介する際に、このレビューでは、データセットに含まれるタスクの種類に応じて、データセットを(1)質問応答タスクデータセット、(2)対話タスクデータセット、および(3)要約タスクデータセットの3つのカテゴリに分類します。本レビューでは、真正性評価の手法について議論するにあたり、既存の真正性評価手法を整理・分類し、(1)自然言語推論に基づく評価手法、(2)質問生成・質問応答に基づく手法、(3)大規模モデルに基づく手法の3つのカテゴリーにまとめた。 セキュリティレビュー大規模モデルは多くのタスクにおいて人間と同等かそれ以上のパフォーマンスを発揮していますが、それらによって引き起こされるセキュリティの問題は無視できません。そのため、さまざまなアプリケーションシナリオで安全に使用するためには、大規模モデルのセキュリティ評価を実施する必要があります。セキュリティ評価では、堅牢性評価とリスク評価という 2 つの側面について説明します。対応するマインド マップを図 5 に示します。堅牢性評価には主に、(1)プロンプトワードの堅牢性、つまり、プロンプトワードにスペルミス、同義語、およびユーザー入力をシミュレートするその他のノイズを追加することで、大規模モデルの堅牢性を評価すること、(2)タスクの堅牢性、つまり、さまざまな下流タスクの敵対的サンプルを生成することで、大規模モデルの堅牢性を評価すること、(3)アライメントの堅牢性が含まれます。大規模モデルは通常、モデルが有害な情報を生成しないように、生成するコンテンツが人間の好みや価値観と一致するようにトレーニングされます。しかし、既存の研究では、プロンプトワードの中には、整合トレーニングの保護を回避し、大規模なモデルをトリガーして有害なコンテンツを生成するものがあることが示されています。この方法は、脱獄方法とも呼ばれています。したがって、アライメントの堅牢性は主に、モデルが有害なコンテンツを生成するように誘導するさまざまな脱獄攻撃に直面した場合でも、大規模なモデルが人間の好みや価値観に沿ったコンテンツを生成できるかどうかを評価します。 リスク評価は主に2つの側面に焦点を当てています。(1)ビッグモデルの行動評価、つまりビッグモデルとの直接的な相互作用を通じて、ビッグモデルが権力や資源の追求、自尊心の維持などの潜在的な危険な行動や傾向があるかどうかを評価すること。(2)インテリジェントエージェントとしてのビッグモデルの評価、つまりシミュレートされたゲーム環境、シミュレートされたオンラインショッピング、インターネットサーフィンなどの特定のシミュレーション環境でビッグモデルを評価することです。この評価では、大規模モデルの動作評価とは異なり、大規模モデルの自律性と、環境や他の大規模モデルとの複雑な相互作用に重点を置いています。 図5 大型モデルの安全性評価 業界大規模モデル評価業界ビッグモデルとは、特定の分野または業界向けに特別にトレーニングされ、最適化されたビッグモデルを指します。一般的なビッグモデルとは異なり、業界ビッグモデルは一般的に特定の分野のデータを使用して微調整されるため、法律、金融、医学などの特定の分野の知識とアプリケーションに重点を置いています。一般的な大型モデルの開発の勢いに乗って、各業種の大型モデルもデビューしました。業界ビッグモデルの機能をより深く理解し、業界モデルの潜在的な欠陥を発見して改善および最適化するためには、業界ビッグモデルの詳細な評価を実施する必要があります。このレビューでは、生物学・医学、教育、法律、コンピュータサイエンス、金融の分野における業界のビッグモデルの評価を紹介し、特定のビッグモデルに対応する評価ベンチマーク、評価方法、評価結果を整理します。対応するマインドマップを図 6 に示します。 図6 業界大規模モデル評価 (総合)評価組織評価組織は、複数の評価次元またはサブ次元を組み合わせて大規模モデルの包括的な評価を実施する方法を研究します。本レビューでは、評価組織に関する研究を包括的に整理し、関連する包括的な評価ベンチマークを2種類に分類しています。(1)初期のGLUE、SuperGLUE、最近のBIG-Benchなど、自然言語理解と自然言語生成のタスクで構成される評価ベンチマーク。(2)MMLU、C-Eval、MMCU、M3KEなど、大規模モデルの知識能力を評価することを目的とした、さまざまな科目の人間のテスト問題で構成される科目能力評価ベンチマーク。さらに、このレビューでは、科目能力評価ベンチマークにおけるさまざまなモデルのパフォーマンスをまとめ、テストセットサンプルの言語、モデルのパラメータスケール、指示の微調整、思考チェーンなどの要因がモデル効果に与える影響を分析および調査します。同時に、このレビューでは評価プラットフォーム、ランキング、大規模モデルアリーナも紹介しています。これらのランキングの評価データセットは通常、複数のタスクの評価データセットで構成されています。 Big Model Arena では、ビッグモデルにスコアを付けてランク付けする Elo スコアリング メカニズムを導入しています。Elo スコアを計算する際、ビッグモデルによって生成された応答に人間が投票し、高品質の応答を選択します。評価組織に対応するマインドマップを図7に示します。 図7 評価組織 今後の展望本レビューでは、大規模モデル評価に関する既存の研究を整理して紹介するだけでなく、現在の研究におけるボトルネックの問題について検討します。これに基づいて、大規模モデル評価の潜在的な将来の方向性、つまり(1)リスク評価、(2)インテリジェントエージェント評価、(3)動的評価、および(4)大規模モデルの最適化を目的とした評価を展望します。 リスク評価:既存のリスク評価方法は、主に質問と回答の方法で大規模なモデルを評価します。しかし、この方法では、特定のシナリオや環境における大規模モデルのリスクを包括的に評価することが難しく、これらのリスクの根本的な原因を深く明らかにすることはできません。したがって、大規模モデルのリスク評価には、より詳細かつ包括的な評価方法が必要です。 エージェント評価:大規模なモデルをエージェントとして評価する既存の方法のほとんどは、特定の環境を必要とし、常にエージェントの能力の評価に重点を置いています。ただし、これらの方法では、エージェントの潜在的なリスクを評価するために特別に設計された環境が不足していることが多いため、エージェントの環境の多様性をさらに高めて、その機能とリスクをより包括的に評価することができます。 動的評価:既存の評価方法は通常、静的評価であり、テスト サンプルは長期間にわたって常に変更されません。ただし、大規模モデルのトレーニング データはさまざまなソースから取得され、規模が大きいため、一部のテスト サンプルがトレーニング データに含まれている可能性があります。さらに、大規模なモデルの多くは、トレーニング データのソースを詳細に開示したり、トレーニング データを公開したりしない傾向があるため、良好な評価結果を得るために、静的評価のテスト サンプルがモデルのトレーニング データに人為的に追加される可能性があります。さらに、知識は刻々と反復更新されるため、静的評価データ内の知識は古くなる可能性があります。大規模モデルの能力が継続的に増加すると、元の静的評価データの難易度が大規模モデルの能力要件を満たせなくなる可能性があります。これらの要因により、静的評価の公平性が弱まります。したがって、大規模モデルをより包括的かつ公平に評価するために、テストサンプルを継続的に更新し、自由形式の質問を導入し、複数の大規模モデルを使用して議論を通じて評価するなど、新しい評価方法を模索する動的評価方法を採用することができます。 大規模モデルの最適化を目的とした評価: 既存の評価方法では、主に特定のスコアを使用して、特定のタスクまたは特定の次元における大規模モデルの機能を定量化します。これらのスコアはモデル間の比較と選択を容易にしますが、そこに含まれる情報は、モデルのさらなる最適化を導くのが困難です。したがって、大規模モデルの最適化を目的とした評価方法が必要です。この方法は、モデル機能スコアを与えるだけでなく、対応する機能分析と改善提案も提供します。 |
<<: CMU、清華大学、MITが世界初のエージェント無限フローをリリース。ロボット「007」は残業して勉強が止まらない!具現化された知能は革命を起こしている
>>: 2日間で星の数が1,000を突破:OpenAIのWhisperの蒸留後、音声認識が数倍高速化
技術の複雑さが年々増すにつれ、科学的な革新と発見への扉がより多くの分野に開かれています。現在の問題は...
今日、人工知能は人間が行う作業の一部をより良く行うために懸命に取り組んでいます。たとえば、AI は人...
AlphaGo が囲碁の名人に勝利し、百度の無人自動車が第五環状線を走行し、マイクロソフトの Xi...
2021年2月18日午前、百度は2020年第4四半期および通期の財務報告を発表し、印象的なデータを示...
人間にとって、文章は階層的です。文の階層構造は表現と理解の両方にとって非常に重要です。しかし、自然言...
流行の間、人工知能は再び人気を博しました。人工知能によって合成されたニュースレポートは、私たちに毎日...
タスクに適した GenAI モデルを選択するには、各モデルで使用されるテクノロジーとその特定の機能を...
[[353520]]この記事はWeChat公式アカウント「妹の味」から転載したもので、著者は妹が飼っ...
近年、AIをどのように監督するかについての議論はますます白熱しており、有力者の意見も大きく異なってい...
実際、人工知能の概念は 1950 年代にはすでに登場していました。科学者が最初のニューラル ネットワ...
最先端の技術力に加え、人工知能は教育分野にも進出し始めています。北京では先日、中国・外国教師科学教育...
8月20日、北京人工知能学院と清華大学知能産業研究所(AIR)は、両者が「清華(AIR)-AI健康...