RLHFの可能性を深く掘り下げ、Fudan Language and Visionチームは報酬モデルの最適化を革新し、大規模モデルをより整合させます。

RLHFの可能性を深く掘り下げ、Fudan Language and Visionチームは報酬モデルの最適化を革新し、大規模モデルをより整合させます。


最初の大規模モデルアライメント技術レポート(大規模言語モデルにおけるRLHFの秘密パートI)がNeurIPS 2023ワークショップの最優秀論文を受賞した後、2番目のレポートが力強く戻ってきました。Fudanの言語チームとビジョンチームが共同で発表した2番目のレポートは、この分野でのより深い探求と最適化の旅に乗り出します。最初の報告では、復旦チームは大規模言語モデルにおけるRLHFの基本フレームワークを明らかにし、PPOアルゴリズムの内部メカニズム、特に政策モデルトレーニングの安定性におけるPPO-maxの高度なバージョンの重要な役割を深く分析しました。

現在、Fudan チームは、実際のアプリケーションの課題に直面したときの報酬モデルのパフォーマンスと最適化方法に焦点を当て、RLHF の可能性をさらに探求しています。


  • 大規模言語モデルにおける RLHF の秘密 パート I: PPO 論文リンク: https://arxiv.org/pdf/2307.04964.pdf
  • 大規模言語モデルにおけるRLHFの秘密 パート2: 報酬モデリング

復旦チームは具体的に何をしたのでしょうか?

ChatGPTやGPT-4などの大規模言語モデルの技術革新と広範な応用により、これらのモデルは現在、技術のホットスポットとなり、機械との対話方法に革命をもたらし、あらゆる分野に前例のないモデルサポートを提供しています。これらのモデルは、複雑な問題を解決し、コンテンツを自動的に生成し、複雑な指示を理解する上で大きな価値を示しています。しかし、これらのモデルは、人間の価値観や好みに合わせる能力にはまだ限界があります。 OpenAIやAnthropicなどの研究チームの対応戦略は、人間のフィードバックに基づく強化学習(RLHF)に関する徹底的な研究を実施し、AIシステムを価値観の面で人間とより一致させることを目標としています。

OpenAI のスーパーアライメント、プロセス監視、Anthropic の憲法 AI などの最近の研究では、AI アライメントの重要性がさらに強調されています。これらの概念は、AI の応答を人間の文化的および美的基準とより一致させる方法だけでなく、より広い倫理的および価値観のレベルで AI を人間と一致させる方法にも焦点を当てています。これらの進歩は科学的な課題だけでなく、哲学的な探求ももたらします。これらは、AI の目標が人間社会の目標と真に一致するようにする上で重要な役割を果たし、人類文明の将来の発展にとって極めて重要です。

大規模なモデルを人間の好みに合わせるために、RLHF は報酬モデルを通じて人間の好みを学習します。優れた報酬モデルは、人間の好みや価値目標を反映し、ビッグモデルがその能力を十分に活用して社会に貢献できるように導くことができます。一方、悪い報酬モデルは、人間の好みを歪曲したり誤解したりして、ビッグモデルを人間が理解して受け入れられない深淵へと導きます。したがって、報酬モデルの設計と実装は、大規模言語モデルの開発にとって非常に重要です。

研究中に、Fudan チームは興味深い現象を発見しました。hh-rlhf データセット (Anthropic が公開している有用かつ無害な人間の嗜好データセット) のデータの 70% を特定の方法で選択して報酬モデルをトレーニングすると、PPO ステージのトレーニングに使用されるこの報酬モデルでは、入力に関係なくモデルが「免責事項」のみを返信します。

この現象は、hh-rlhf データセットに大量の矛盾した曖昧なデータが含まれていることが原因です。このような矛盾により、報酬モデルは人間の好みを正確に反映できなくなり、言語モデルは一貫した報酬と罰を捉えることができなくなります。そのため、報酬モデルに対処するためにこの万能戦略が採用されています。 Fudanチームが最初に行った作業は、hh-rlhfデータセットに大量のノイズデータが含まれているという現象を明らかにすることでした。データセットからノイズを除去することで、モデルを人間の好みにより近づけることができます。次の例に見られるように:

RM をトレーニングするためのより良いデータを構築することに加えて、RM 自体から始めて、RM の選択戦略を適切に変更して RM を改善し、LLM を人間の好みにより沿わせることもできます。これは、Fudan チームが行った2 番目のタスクです。チームは対照学習とメタ学習の使用を提案し、これにより RM の良いデータと悪いデータを区別する能力が大幅に向上しました。RM の改善により、LLM は人間のニーズにさらに適合するようになりました。

対照的に、学習された RM は、LLM が質問にもっと正確に、そして人間の価値観に沿って答えられるように導くことができます。たとえば、有害な質問に直面した場合、最適化前の LLM は単に質問に答えることを拒否しますが、最適化された RM は、次の例に示すように、有害な側面に対してより具体的に答え、より人間の価値観に沿った答えを出すことができます。

上記の例では、最適化前の LLM はユーザーの指示どおりに質問に答えず、質問を理解または回答できないと回答しましたが、これは不正確です。なぜなら、人工知能は入力に基づいて言語を理解し、生成できるからです。この回答はユーザーの問題を解決せず、役に立ちません。一方、対照学習に最適化された LLM では、愚かさを表す言葉を提供しないことを選択し、代わりに、子供たちをサポートし、子供たちの独自の長所と短所を認識することの重要性を強調することによって、建設的なアプローチを提供しました。この対応は、会話を子どもの発達に対する前向きで支援的なアプローチに転換させるので役に立ちます。これは、否定的なレッテルを貼るよりも有益で、害が少なく、人間の価値観に沿ったものです。

同時に、復旦チームの研究は、異なるデータ分布を持つ同じタスクに直面したときの言語モデルのパフォーマンスをさらに向上させ、異なるデータ分布を持つ同じタスクに直面したときにモデルが人間の価値観を正確に把握して追従できることを保証し、それによって言語モデルの一般化能力を向上させました。

RLHF を適用することで、モデルの出力を微調整し、人間の好みや期待に沿った方法でモデルが応答するように誘導することができます。たとえば、RLHF で最適化されていないモデルは、単純で直接的な回答を提供する可能性があり、文学的な味わいに欠ける可能性があります。一方、RLHF で最適化されたモデルは、よりエレガントで文学的な回答を提供できます。次の比較例からわかるように、最初の回答は少し堅苦しく、まったく「忠実で、表現力豊かで、エレガント」ではありませんが、2 番目の回答は明らかにより文学的で、より興味深いものです。 RLHF を通じて、このビッグ モデルは堅苦しい「機械言語」から愛情あふれる「人間の言語」へと移行しました。


RLHF の深化: 大規模言語モデルにおける報酬モデルの主要な役割と課題

Fudan チームの技術レポートでは、人間のフィードバックによる強化学習 (RLHF) の技術を詳細に調査しました。この技術は、言語モデルを人間の価値観や意図とよりよく一致させ、より有益で害の少ない応答を生み出すことに重要な意味を持ちます。同時に、レポートでは、データセットに内在する不正確で曖昧な嗜好データや、特定のデータ分布でトレーニングされた報酬モデルを一般化することの難しさなど、実際のアプリケーションで報酬モデルが直面する課題を指摘しています。

これらの課題に対処するために、Fudan チームはデータとアルゴリズムの両方の観点から徹底的な調査を実施しました。データに関しては、複数の報酬モデルの一貫性の結果を通じて好みの強さを定量化し、異なる強さの好みデータが報酬モデルのパフォーマンスに与える影響を分析します。アルゴリズム面では、チームは選択された応答と拒否された応答を区別するための一般化された特徴を学習する方法を研究し、メタ学習を使用して、分布外 (OOD) データに対する報酬モデルの一般化能力と反復的な RLHF 最適化を促進しました。報酬モデルは人間の好みの代理となるように訓練されていますが、人間の好みを正確に反映するには多くの課題があります。

さらに、Fudan チームは、嗜好強度の注釈を含む anthropic-hh データセットをオープンソース化し、GPT-4 を使用して検証セットにラベルを付けました。この技術レポートで使用されているトレーニング コードは、プロジェクトの Web サイトで入手できます。これらの研究と開発は、AI テクノロジーの新たなマイルストーンを設定しただけでなく、将来の研究とアプリケーションへの新たな道を開き、言語モデルの応答品質と適応性をさらに向上させました。これらの研究を通じて、チームは RLHF に対する理解を深め、大規模言語モデルの最適化に向けた新たな章を開きました。

プロジェクトアドレス: https://github.com/OpenLMLab/MOSS-RLHF

データの影響: 人間の嗜好モデルを形成する重要な要素

Fudan チームは、人間の嗜好データに内在するノイズ問題を調査し、嗜好の強さが報酬モデルのパフォーマンスに与える影響に焦点を当てました。さまざまな強さの嗜好データがモデルのパフォーマンスに与える影響を分析することで、チームは嗜好をより正確にモデル化するための新しい報酬モデルアプローチを提案しました。実験では、この方法により正しい選好ラベルと誤った選好ラベルをより効果的に区別し、モデルの全体的なパフォーマンスを向上できることが示されています。

このセクションでは、データが人間の嗜好のモデリングにどのように影響するかについて詳しく説明します。

いくつかの報酬モデルをランダムに初期化し、トレーニング後にデータセットで評価することで、データセット内の比較ペアのきめ細かいスコアが得られました。研究チームは、各比較ペアの好みの強さを定量化し、異なる強さの好みデータが報酬モデルのパフォーマンスに与える影響を分析しました。上の図は、テスト セットにおける嗜好の強さの分布を示しています。データセット内のデータの約 25% は嗜好の強さが 0 未満であり、多くのデータは嗜好の強さが 0 付近であることに注意してください。これは、データの嗜好の注釈が不正確であったり、分散の低いデータが存在する可能性があることを意味します。データセットからいくつかの実際のサンプルが次のように抽出されました。

データ例1: 有害なラベル

選択されたラベルに対応する回答には、人間の睡眠を奪う方法が含まれていましたが、拒否されたラベルに対応する回答には、人間に有害となるような回答が拒否されました。無害性の観点から見ると、拒否された応答はより安全であり、人間の好みに沿ったものになります。モデルによって評価された選択と拒否の間の平均スコア差(つまり、好みの強さ)は -6.23 であり、拒否された応答が好まれることを示しています。これは、人間の価値観の好みと一致しています

データ例1: ラベルエラー(参考)

選ばれた人は返答を拒否し、拒否された人はより詳細な説明をしました。有用性の観点から見ると、拒否されたラベルに対応する回答が、私たちが見たいものです。モデル評価で選択されたデータと拒否されたデータの平均スコア差は -5.85 であり、拒否されたデータが好まれることを示しています。これは人間の価値観と一致しています。

データ例2: 低分散

上記の選択と拒否に対応する応答にはほとんど違いはありません。モデル評価における選択された回答と拒否された回答の平均スコア差は -0.0007 であり、これはモデルが 2 つの回答に大きな違いはなく、人間の価値判断と一致していると判断していることを意味します

嗜好強度の詳細な分析は、Fudan チームの技術レポートに記載されています (下の左の図を参照)。

データセットを嗜好の強さに応じて小さいものから大きいものの順に並べ替え、いくつかのグループに分割し、各グループ内のデータの統計情報を計算します。好みの違いの平均は、異なるデータ グループで有意な違いを示していることがわかります。これは、データ内に存在する好みの強さの違いを反映しており、ほとんど違いがない好みから大幅に異なる好みまでの範囲にわたります。一方、嗜好の違いの標準偏差はU 字型のパターンを示しており、これは嗜好が非常に明白であるか非常に不明確な場合に嗜好を推定する際のモデルの不確実性が増大することを意味します。

さらに、チームは GPT-4 を使用してテスト セットに注釈を付け、提案された嗜好強度定量化指標と GPT4 評価の一貫性を測定しました。

研究チームは、平均的な好みの差が GPT-4 と非常に一致していることを発見しました (下の右の図を参照)。これは、選好強度指数が現実世界の人間の価値観の選好をある程度反映していることを示しています。

この発見は、報酬モデルがさまざまな種類の嗜好データを処理する能力についての洞察を提供し、モデルを最適化する際に考慮すべき重要な側面を指摘しています。好みの違いを詳細に分析することで、報酬モデルをより適切に調整し、複雑な好みのシナリオを処理する際の精度と堅牢性を向上させることができます。

さらに、Fudan チームは、報酬モデルのトレーニング中にさまざまな種類の嗜好データに異なる処理を適用すること、および方法を調整してモデルのパフォーマンスを最適化する方法を検討しました。たとえば、チームは、さまざまな種類のデータが報酬モデルに与える影響について詳細な分析を実施しました。ノイズの多いデータを識別し、修正操作 (ラベルの反転など) を実行することで、嗜好強度が最も低い 10% のサンプルを個別にトレーニングした場合、テスト セットでの精度は 35% 未満になることが分かりました。ただし、ラベルを反転すると、精度は 65% 近くになる可能性があります。

実験では、データセットの特定の部分を注意深く処理することで、複雑な人間の好みを理解する報酬モデルのパフォーマンスが大幅に向上することが示されています。

この研究では、Fudan チームは報酬モデルのパフォーマンスを向上させるために 4 つのノイズ除去方法 (フリップ、マージン、ソフト ラベルなど) を検討し、実際のテストではいずれも元の方法よりも改善が見られました。チームは、元のテスト セット、GPT4 クリーニング後のテスト セット、GPT4 が元のテスト セットと一貫性を保ったテスト サブセットの 3 つのテスト セットを作成しました。これらの方法のトレーニングプロセスを下の図に示します。実験により、元の方法ではトレーニング プロセス中に精度が大幅に低下することが示されており、元のデータ セットにノイズが含まれており、トレーニングで過剰適合が発生することを示しています。比較すると、4 つのノイズ除去方法はすべてのテスト セットで安定した精度を維持でき、全体的に元の方法よりも優れたパフォーマンスを示しています。

Fudanチームは、上記の4つの方法でトレーニングされた報酬モデルと元の方法を使用して、PPO法でSFTモデルを微調整しました。下の図は、PPOトレーニングプロセス中のさまざまな指標の変化を反映しています。KLダイバージェンスとPPL指標は、ノイズ除去法がより安定したPPOトレーニングプロセスを提供できることを示していることに注意してください。

Fudan チームは GPT-4-turbo を使用して、さまざまな方法を使用した PPO トレーニングによって得られた言語モデルの出力品質を、元の方法と比較して評価しました。特に、有害なプロンプトの下でのパフォーマンスが評価されました。Fudan チームの方法は大幅な改善を示しました。これは、有害手がかり関連の嗜好データ内のノイズの多いデータを処理する際のノイズ除去の有効性に起因すると考えられます。

これらの実験結果は、人間の好みをより適切にモデル化する方法について新たな視点を提供し、将来の研究の方向性を示しています。

対照学習:報酬モデルに対する新たな視点

従来の報酬モデリングにおける大きな課題は、モデルが「選択された」サンプルと「拒否された」サンプルの間で高度な特徴類似性を示すことが多いことです。上の図に示すように、t-SNE によって取得された特徴分布は、ベースライン モデルでは「選択された」サンプルと「拒否された」サンプルの特徴分布に大きな重複があることを示しています。これは、モデルがデータに内在する微妙な違いや区別を捉えることができないことを示しています。このような識別能力が欠如していると、モデルが特定の動作や結果を改善する要因を効果的に学習することが困難になる可能性があり、パフォーマンスが低下する可能性があります。

対照的に、対照学習にはいくつかの固有の利点があります。1)効果的な特徴抽出:対照学習では、類似したサンプルと類似しないサンプルを比較することでモデルをトレーニングし、モデルがデータ内の固有の特徴をより効果的に学習できるようにします。 2)強力な一般化能力: 対照学習を使用してトレーニングされたモデルは、異なるサンプルを区別することを学習することにより、より優れた一般化能力を発揮し、新しい未知のデータをより効果的に処理できるようになります。

RLHF のコンテキストでは、対照学習を嗜好モデリングに統合するには、対照データを慎重に構築する必要があります。一般的な方法は 2 つあります。①「選択された」データと「拒否された」データの違いを比較する②「選択された」データと「拒否された」データを直接比較する

どちらのアプローチにも利点と限界があります。モデルが悪いデータよりも大幅に優れた良いデータをより正確に識別して報酬を与えることが目標である場合、モデルが好みと嫌いを区別することを学習できるようにする最初のアプローチがより適切である可能性があります。ただし、モデルの一般化能力を強化し、さまざまなデータを効果的に区別できるようにすることが目標である場合は、選択された応答と拒否された応答を区別することでモデルが好みを推測できるようにする 2 番目のアプローチの方が理想的です。実際には、より良いモデリング結果を得るために、これら 2 つの方法を組み合わせることも検討できます。

復旦チームは、既存の 2 つの対照学習手法に基づいて、対照学習が報酬モデル内のデータの違いを区別できるかどうかを調査しました。

1 つ目はSwAV (ビュー間の割り当てのスワップ) です。SwAV は、従来の対照学習方法とは異なり、同じ画像の異なる強化 (または「ビュー」) のクラスタリング割り当ての一貫性を確保しながら、同時にデータをクラスタリングする革新的な教師なし視覚特徴学習方法です。このアプローチでは、画像の複数のビューを作成し、各ビューのクラスター割り当てを予測し、スワッピング メカニズムを使用して、1 つのビューのクラスター割り当てを別のビューの予測と一致させます。このアプローチにより学習効率が向上し、あらゆる画像のペアを比較する必要がなくなるため、計算コストが削減されます。

2 つ目はSimCSE (Simple Contrastive Learning of Sentence Embeddings) です。SimCSE は、対照学習を使用して文の埋め込みを学習する手法です。これは、同じ文を正の例として使用し、それを BERT などの Transformer ベースのモデルに入力して埋め込みを生成することによって行われます。重要な点は、同じ文が異なるドロップアウト マスクでモデル化され、埋め込みが変化するという点です。ネガティブサンプルはさまざまな文から取得されるため、複雑なデータ拡張や外部のラベル付きデータを必要とせずに、文の表現を効率的かつ効果的に学習できます。

上図に示すように、報酬モデルに SimCSE を導入した後、t-SNE によって得られた特徴分布では、選択応答と拒否応答間の特徴分布の重なりが減少していることがわかります。

Fudan チームは、GPT-4-turbo を使用して、ベースライン モデル (通常の PPO および SFT モデル) と比較したさまざまな方法の出力品質も評価しました。下の図に示すように、モデルのパフォーマンスは有用性と無害性の点で向上しており、対照学習によって報酬モデルがデータ間の違いを区別する能力を強化できるため、モデルの機能が実際に向上することを示しています。

MetaRM: 報酬モデルの未来をリードする

Fudan チームが提案した目標は、PPO トレーニングによってポリシー モデルの分布が変わった場合でも、報酬モデルは新しい分布からサンプリングされた応答の識別を維持する必要があるというものです。

このセクションでは、Fudan チームが、メタ学習を介して生の嗜好データをシフトされた分布に合わせる方法である MetaRM を提案しました。 MetaRM の重要なアイデアは、報酬モデルのトレーニング フェーズでは、転送されたポリシー分布からサンプリングされた応答間の差を最大化しながら、元の設定データの損失を最小限に抑える必要があるということです。

MetaRM の実装は、4 つの主要なステップに依存しています。まず、ポリシー変更後の応答の差を評価するために差損失を計算します。次に、勾配上昇の方向に応じて報酬モデル パラメータを調整します。次に、更新されたパラメータを使用して元の設定ペアの通常損失を計算します。最後に、勾配降下方向に沿って調整するために元のパラメータを最適化します。全体として、MetaRM はメタ学習プロセスを通じて報酬モデルを調整し、ポリシー分布が進化してもモデルが高品質の応答を識別して報酬を与えることができるようにします。

要約すると、MetaRM のアプローチは、メタ学習を使用して、ポリシー モデルの分布が変化した場合でも質の高い応答を識別できる報酬モデルをトレーニングし、応答が元の設定と一致し続けるようにすることです。

主な結果: RLHFの実験結果と詳細な分析

内部タスク評価

上記の表では、Fudan チームが提案した方法の勝率、引き分け率、および負け率が、SFT モデルの応答と比較して示されています。ラウンド番号は、対応するラウンドに対してモデルによって生成された応答を表します。

さらに、Fudanチームが提案した手法の優位性をより包括的に示すために、表3では他のベースライン(通常のPPOを含む)と比較した最高のパフォーマンスを示し、GPT-4と人間による評価結果も示しています。

外部タスク評価

図に示すように、OOD シナリオでも、Fudan チームが提案した方法はベースラインを上回っています。これは、提案された方法が、一連のクエリの高価な優先ラベル付けを必要とせずに新しいドメインでのアライメントを達成できることを示しており、RM トレーニングのトレーニング コストを大幅に削減します。さらに、チームは、内部配布評価結果と比較して、提案したアプローチの勝率がわずかに低下していることを確認しました。

要約:報酬モデルの詳細な分析はRLHFの新たな開発を促進する

この技術レポートでは、Fudan チームが大規模言語モデルにおける人間のフィードバックによる強化学習 (RLHF) の応用を包括的に検討し、革新的な報酬モデル アプローチを提案しました。チームの研究は、データセット内の不正確で曖昧な好みの問題を解決するだけでなく、新しいシナリオに対するモデルの一般化能力も向上させます。復旦チームが提案した方法により、言語モデルは人間の意図や価値観をより正確に理解してそれに適合できるようになり、より有益で安全な応答を生み出すことができます。 Fudan チームの作業は、RLHF 技術の開発を促進するだけでなく、将来の研究者や開発者に新しいアイデアやツールを提供します。

イースターエッグ

イースターエッグ 1 - 翻訳の好みに合わせた調整

何千年もの間、言語は人類の文明を結びつける絆となってきました。それぞれの言語は、繊細な感情と深い歴史に満ちた独自の文化世界です。このデジタル時代では、機械翻訳によって言語の壁を乗り越えようとしますが、直訳では言語の本当の魅力を伝えられないことがよくあります。それは、カラフルな世界に住んでいるのに、世界を白黒でしか見ていないようなものです。幸いなことに、RLHF は安全性や倫理性を超えた人間の好みをモデル化するのに役立ちます。また、高品質の翻訳に対する人々の好みを満たすためにも使用できます。この目標を達成するために、Fudan チームは LLaMA-7b モデルの微調整を監督し、基本的な翻訳機能を付与した後、報酬モデルを使用して人間の翻訳の好みを学習しました。最後に、Fudan チームは PPO アルゴリズムを使用して翻訳モデルを最適化し、忠実さ、表現、優雅さの好みにより合った翻訳を生成しました。



上記の英語から中国語への翻訳の 3 つの例は、翻訳が言語の変換であるだけでなく、文化や感情の伝達でもあることを鮮明に示しています。復旦チームの技術レポートの次の部分では、人間の好みと文化的理解を機械翻訳システムに効果的に組み込む方法を探求する取り組みが行われます。実験とデータ分析を通じて、正確であるだけでなく、感情の深みと文化的感受性に富んだ翻訳モデルを開発したいと考えています。このようなモデルは、翻訳の精度を向上させるだけでなく、異なる文化間の理解とコミュニケーションを促進することもできます。

イースターエッグ 2 - コンパイラフィードバックを使用したアライメント

「誰もがコンピュータープログラミングを学ぶべきです。なぜなら、それは思考の仕方を教えてくれるからです。」

—スティーブ・ジョブズ

AI エージェントがコードを生成するプロセスは、最初に見えるよりも複雑です。プログラミングは、自然言語と同様の複雑さと多様性を備え、幅広い可能性を提供する分野です。しかし、このような幅広い選択肢は、報酬信号がまばらであるという問題と相まって、エージェントの探索能力を大きく制限します。したがって、複雑なタスクのコンテキストで堅牢かつ効果的な探索戦略を開発することが重要な課題であり、これは現在の研究では未解決の問題です。今後、Fudan チームは、AI エージェントがコード合成タスクを完全に探索する方法をさらに詳しく説明する予定です。

<<:  マイクロソフトは小売業界で新たなスキルを解き放つために人工知能を推進

>>: 

ブログ    
ブログ    

推薦する

企業が AI 戦略を採用するための 8 つのヒント

人工知能技術は企業のビジネスに応用され、夢から現実へと変わりました。実際、最近の O'Rei...

具現化された知能の新時代! VLAは、UIナビゲーションとロボット操作を備えた最強の基本モデルMagmaを歓迎します

既存の大規模言語モデル、画像生成モデルなどは、少数のモーダルデータに対してのみ動作し、人間のように物...

ビジネスにおけるAIベースの音声認識アプリケーション

[[342735]] [51CTO.com クイック翻訳] 人工知能(AI)が今日、さまざまな業界で...

機械学習では自然言語理解を解決できない

経験とデータに基づく革命統計革命は 1990 年代初頭に人工知能 (AI) に広がり、2000 年代...

Keras TensorFlow チュートリアル: 複雑なディープラーニング モデルをゼロから開発する方法

[[193126]] Keras は、独自のディープラーニング モデルを迅速に構築およびトレーニング...

NeRF を放棄し始めていますか?ガウススプラッティングが自動運転のシナリオで人気があるのはなぜですか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

時間畳み込みネットワーク: 時系列の次の革命?

この投稿では、最近の TCN ベースのソリューションをいくつかレビューします。まず、動き検出のケース...

ヨシュア・ベンジオ:私は国家間のAI競争を見たくないし、現在のAIの考え方を心配している。

[[250218]]ヨシュア・ベンジオ氏は、間違いなく現代の人工知能技術分野の第一人者です。ベンジ...

AIの新たな方向性:敵対的攻撃

[[249559]]近年のAI分野を調査していく中で、近年、世界中の研究者の視野の中に敵対的攻撃とい...

三国志を例に挙げて分散アルゴリズムについて語るのって、気楽なことでしょうか?

[[357046]]序文「三国殺し」は、中国の三国時代を背景に、身分を手がかりにカードを形にした人...

...

DAMOアカデミーのAI研究により、初めて大規模な膵臓がんの早期スクリーニングが可能に

私たちの日常生活では、携帯電話のロック解除から検索エンジンを使った地図ナビゲーションまで、人工知能と...

ICCV'23論文表彰式は「神々の戦い」! Meta Split EverythingとControlNetが両方とも選出され、審査員を驚かせた記事がもう一つありました

たった今、コンピュータービジョンの最高峰カンファレンスである ICCV 2023 がフランスのパリで...

顔認識は優れているが、業界の自制心と法的監督が依然として必要である。

近年、顔認識をめぐる論争が絶えません。少し前に、「初の顔認識事件」の第一審判決が発表され、杭州野生動...

5分でトップ10の機械学習アルゴリズムを学ぶ

[[317656]]機械学習は業界にとって革新的で重要な分野です。機械学習プログラムに選択するアルゴ...