編纂者:ヤン・ジェン 制作:51CTO テクノロジースタック(WeChat ID:blog) 過去 2 週間は、新しい AI アップデートがリリースされて大変でした。私たちは、最近公開された上位 6 つのフレームワークとモデルをまとめることにしました。 1. ActAnywhere: テーマを考慮したビデオ背景生成写真 Adobe Research とスタンフォード大学は、映画業界や視覚効果において、ビデオの背景を前景の被写体の動きに合わせるという課題に対処する生成モデル、Act Anywhere を発表しました。このモデルは、大規模なビデオ伝播モデルを活用して、通常は労働集約的なプロセスを自動化します。 一連の前景と被写体のセグメンテーションと、目的のシーンを表す条件付きフレームを入力として受け取り、一貫した前景と背景の相互作用を持つリアルなビデオを生成します。 大規模な人間のシーンのインタラクション ビデオ データセットでトレーニングした後、データは、Act Anywhere がベースラインと比較して優れたパフォーマンスを発揮し、さまざまな分布外サンプル (人間以外の対象を含む) を処理できることを実証していることを示しています。 2. ガラ写真 Metaは、Facebook、Instagram、WhatsAppなどのさまざまなプラットフォーム上のアバターの改善に取り組んできました。そこで、Meta の Codec Avatars Lab は、ソウル国立大学と共同で、単層の衣服を着た 3D 人間のメッシュを完全なレイヤーの 3D アセットに変換し、さまざまなポーズの多様な衣服を着た人間のアバターを作成できるようにする GALA フレームワークを立ち上げました。 衣服を着た人間を単層のジオメトリとして扱う既存の方法とは異なり、GALA は人間の髪型、衣服、アクセサリーの構成に基づいて下流のアプリケーションを強化します。メッシュを個別のレイヤーに分解することは、オクルージョンのために困難であり、分解が成功したとしても、ポーズや体の形が現実とは異なる場合があります。 この問題を克服するために、研究者らは、形状と外観の事前モデルとして、事前にトレーニングされた 2D 拡散モデルを使用しました。このプロセスは、マルチビュー 2D セグメンテーションからの 3D サーフェス セグメンテーションを使用して入力メッシュをセグメント化し、新しいポーズ ガイド付きスコア蒸留サンプリング (SDS) 損失を使用してポーズおよび標準空間で欠落しているジオメトリを合成し、同じ SDS 損失をテクスチャが完全な外観に適用することから構成されます。その結果、ポーズと体型が標準化された共有標準空間内の多層 3D アセットが作成され、新しいアイデンティティとポーズを簡単に構成できるようになります。 3. ルミエール写真 合成動画でリアルで多様性があり、一貫性のある動きを作成するという課題に対処するため、Google は、ワイツマン研究所、テルアビブ大学、テクニオン - イスラエル工科大学が共同で開発したテキストから動画への変換モデルである Lumiere を提案しています。トレーニングには、長距離キーフレームと時間的超解像度を使用する既存のモデルとは異なり、ビデオの全期間を一度に生成する時空間 U-Net アーキテクチャが含まれます。 空間処理と時間処理を組み合わせ、事前にトレーニングされたテキストから画像へのモデルを活用することで、システムはフルフレームレートの低解像度ビデオを直接生成します。画像からビデオへの変換やスタイル生成など、テキストからビデオへの変換タスクに優れています。このモデルは最先端のテキストからビデオへの変換結果を示しており、画像からビデオへの変換、ビデオの修復、様式化された生成などのタスクに適用できます。 ただし、現時点では複数のショットやシーンの遷移を含むビデオを処理できないため、これらの領域についてはさらなる研究が必要です。いくつかの制限はあるものの、このプロジェクトは、ユーザーが創造的かつ柔軟にビジュアルコンテンツを生成できるようにすることに重点を置いています。 4. メタプロンプトもう 1 つの興味深い研究論文では、OpenAI とスタンフォード大学が協力して、タスクに依存しない方法で言語モデル (LM) のパフォーマンスを向上できる効果的なスキャフォールディング手法であるメタキューを提案しました。これは、複数の独立したクエリを管理できる多機能コンダクターに変換することによって行われます。メタプロンプトはタスクに依存せず、詳細な指示なしでユーザー操作を簡素化します。 GPT-4 の実験では、メタプロンプトが従来の方法よりも優れていることが示されています。Game of 24、Checkmate-in-One、Python プログラミングパズルなどのタスクでは、メタプロンプトは標準プロンプトよりも 17.1%、動的プロンプトよりも 17.3%、マルチパーソンプロンプト (MP) よりも 15.2% 優れています。 メタキューは明確な指示を使用して、LM が複雑なタスクをより小さなサブタスクに分解するようにガイドします。その後、サブタスクは同じ LM の特殊なインスタンスによって処理され、それぞれがカスタマイズされた指示に従います。 LM は導体として機能し、スムーズな通信と出力の効果的な統合を保証します。また、批判的思考と検証プロセスを使用して結果を改良します。この共同キューにより、単一の LM がコーディネーターと専門家グループの両方の役割を果たすことができるため、さまざまなタスクのパフォーマンスが向上します。 5. 自己報酬型言語モデル写真 Meta と NYU の最近の研究論文では、人間のパフォーマンスによって制限され、トレーニング中に改善されない可能性がある、人間の好みから派生した報酬モデルに依存しない自己報酬型言語モデルが紹介されています。これらのモデルは、出力を評価およびトレーニングすることで自分自身を調整し、言語モデル自体を使用して、審査員へのプロンプトとして LLM を通じて報酬を生成します。 このアプローチには反復的なトレーニングが含まれ、モデルは LLM を審査員からのプロンプトとして使用して自身の出力に報酬を割り当て、それによって好みに基づいた指示データを生成します。結果は、このトレーニングにより、モデルの指示に従う能力が向上し、反復を通じて報酬モデリングが改善されることを示しています。 6. 必要なのは Gaussian Adaptive Attention (GAAM) だけです。写真 この研究では、特に変動の大きいデータに対してモデルのパフォーマンスとコンテキスト表現を改善するために、マルチヘッド ガウス適応型注意メカニズム (GAAM) とガウス適応型トランスフォーマー (GAT) を導入します。 GAAM は学習可能な平均と分散をアテンション メカニズムに組み込み、マルチヘッド フレームワーク内に構築します。この設定により、GAAM は任意の確率分布を共同で表現できるようになり、必要に応じて機能の重要性を継続的に調整できるようになります。 この研究では、モデルの解釈可能性を高めるために重要度係数 (IF) も導入されました。 GAAM (新しい確率的注意フレームワーク) と GAT は、音声、テキスト、視覚的モダリティにわたる情報のコンパイルを容易にするために提案されています。特徴空間内の主要要素を識別することにより、モデルのパフォーマンスの点で最先端の注意技術を上回ります。 この論文は、ジェームズ・シルバーラッド・ブラウン人工知能センター、カーネギーメロン大学、スタンフォード大学、アマゾンによって発表されました。 |
<<: Big Vsが推奨するAI論文の引用数は倍増するでしょうか?過去5年間の2人のTwitterブロガーのツイートの影響が明らかに
「Qwen-72Bモデルは11月30日に発売されます。」数日前、Xプラットフォームのネットユーザー...
背景LinkedHashMap は HashMap を継承し、内部的に removeEldestEn...
職場にソフトウェア ロボットや人工知能 (AI) が導入されると考えると、一部の労働者は不安を感じる...
元のタイトル: 機械学習を始める方法!動画紹介: https://v.qq.com/iframe/p...
Chat GPTのリリース以来、AIはプログラミングをはじめ、さまざまな分野で素晴らしい製品を生み出...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
Apple Carはまた失敗するのでしょうか?最近、著名なアナリストのミンチー・クオ氏が自身のツイッ...
衣服のデザインから将来のファッショントレンドの発見、パーソナルスタイリストになること、そして消費者の...
この数か月の「影響」を経て、誰もが半導体不足の事実を十分に認識したと思います。2020年12月以来、...
[[220982]]人工知能とロボットはどちらも破壊的であり、人類社会の発展の新たな時代を導くでし...
ビッグデータと人工知能は、企業が新しい方法で顧客体験を向上させるのに役立ちます。 AIとビッグデータ...