過去 2 週間で AI の進路を変える可能性が最も高い 6 つのリリース!

過去 2 週間で AI の進路を変える可能性が最も高い 6 つのリリース!

編纂者:ヤン・ジェン

制作:51CTO テクノロジースタック(WeChat ID:blog)

過去 2 週間は、新しい AI アップデートがリリースされて大変でした。私たちは、最近公開された上位 6 つのフレームワークとモデルをまとめることにしました。

1. ActAnywhere: テーマを考慮したビデオ背景生成

写真

Adobe Research とスタンフォード大学は、映画業界や視覚効果において、ビデオの背景を前景の被写体の動きに合わせるという課題に対処する生成モデル、Act Anywhere を発表しました。このモデルは、大規模なビデオ伝播モデルを活用して、通常は労働集約的なプロセスを自動化します。

一連の前景と被写体のセグメンテーションと、目的のシーンを表す条件付きフレームを入力として受け取り、一貫した前景と背景の相互作用を持つリアルなビデオを生成します。

大規模な人間のシーンのインタラクション ビデオ データセットでトレーニングした後、データは、Act Anywhere がベースラインと比較して優れたパフォーマンスを発揮し、さまざまな分布外サンプル (人間以外の対象を含む) を処理できることを実証していることを示しています。

2. ガラ

写真

Metaは、Facebook、Instagram、WhatsAppなどのさまざまなプラットフォーム上のアバターの改善に取り組んできました。そこで、Meta の Codec Avatars Lab は、ソウル国立大学と共同で、単層の衣服を着た 3D 人間のメッシュを完全なレイヤーの 3D アセットに変換し、さまざまなポーズの多様な衣服を着た人間のアバターを作成できるようにする GALA フレームワークを立ち上げました。

衣服を着た人間を単層のジオメトリとして扱う既存の方法とは異なり、GALA は人間の髪型、衣服、アクセサリーの構成に基づいて下流のアプリケーションを強化します。メッシュを個別のレイヤーに分解することは、オクルージョンのために困難であり、分解が成功したとしても、ポーズや体の形が現実とは異なる場合があります。

この問題を克服するために、研究者らは、形状と外観の事前モデルとして、事前にトレーニングされた 2D 拡散モデルを使用しました。このプロセスは、マルチビュー 2D セグメンテーションからの 3D サーフェス セグメンテーションを使用して入力メッシュをセグメント化し、新しいポーズ ガイド付きスコア蒸留サンプリング (SDS) 損失を使用してポーズおよび標準空間で欠落しているジオメトリを合成し、同じ SDS 損失をテクスチャが完全な外観に適用することから構成されます。その結果、ポーズと体型が標準化された共有標準空間内の多層 3D アセットが作成され、新しいアイデンティティとポーズを簡単に構成できるようになります。

3. ルミエール

写真

合成動画でリアルで多様性があり、一貫性のある動きを作成するという課題に対処するため、Google は、ワイツマン研究所、テルアビブ大学、テクニオン - イスラエル工科大学が共同で開発したテキストから動画への変換モデルである Lumiere を提案しています。トレーニングには、長距離キーフレームと時間的超解像度を使用する既存のモデルとは異なり、ビデオの全期間を一度に生成する時空間 U-Net アーキテクチャが含まれます。

空間処理と時間処理を組み合わせ、事前にトレーニングされたテキストから画像へのモデルを活用することで、システムはフルフレームレートの低解像度ビデオを直接生成します。画像からビデオへの変換やスタイル生成など、テキストからビデオへの変換タスクに優れています。このモデルは最先端のテキストからビデオへの変換結果を示しており、画像からビデオへの変換、ビデオの修復、様式化された生成などのタスクに適用できます。

ただし、現時点では複数のショットやシーンの遷移を含むビデオを処理できないため、これらの領域についてはさらなる研究が必要です。いくつかの制限はあるものの、このプロジェクトは、ユーザーが創造的かつ柔軟にビジュアルコンテンツを生成できるようにすることに重点を置いています。

4. メタプロンプト

もう 1 つの興味深い研究論文では、OpenAI とスタンフォード大学が協力して、タスクに依存しない方法で言語モデル (LM) のパフォーマンスを向上できる効果的なスキャフォールディング手法であるメタキューを提案しました。これは、複数の独立したクエリを管理できる多機能コンダクターに変換することによって行われます。メタプロンプトはタスクに依存せず、詳細な指示なしでユーザー操作を簡素化します。

GPT-4 の実験では、メタプロンプトが従来の方法よりも優れていることが示されています。Game of 24、Checkmate-in-One、Python プログラミングパズルなどのタスクでは、メタプロンプトは標準プロンプトよりも 17.1%、動的プロンプトよりも 17.3%、マルチパーソンプロンプト (MP) よりも 15.2% 優れています。

メタキューは明確な指示を使用して、LM が複雑なタスクをより小さなサブタスクに分解するようにガイドします。その後、サブタスクは同じ LM の特殊なインスタンスによって処理され、それぞれがカスタマイズされた指示に従います。 LM は導体として機能し、スムーズな通信と出力の効果的な統合を保証します。また、批判的思考と検証プロセスを使用して結果を改良します。この共同キューにより、単一の LM がコーディネーターと専門家グループの両方の役割を果たすことができるため、さまざまなタスクのパフォーマンスが向上します。

5. 自己報酬型言語モデル

写真

Meta と NYU の最近の研究論文では、人間のパフォーマンスによって制限され、トレーニング中に改善されない可能性がある、人間の好みから派生した報酬モデルに依存しない自己報酬型言語モデルが紹介されています。これらのモデルは、出力を評価およびトレーニングすることで自分自身を調整し、言語モデル自体を使用して、審査員へのプロンプトとして LLM を通じて報酬を生成します。

このアプローチには反復的なトレーニングが含まれ、モデルは LLM を審査員からのプロンプトとして使用して自身の出力に報酬を割り当て、それによって好みに基づいた指示データを生成します。結果は、このトレーニングにより、モデルの指示に従う能力が向上し、反復を通じて報酬モデリングが改善されることを示しています。

6. 必要なのは Gaussian Adaptive Attention (GAAM) だけです。

写真

この研究では、特に変動の大きいデータに対してモデルのパフォーマンスとコンテキスト表現を改善するために、マルチヘッド ガウス適応型注意メカニズム (GAAM) とガウス適応型トランスフォーマー (GAT) を導入します。 GAAM は学習可能な平均と分散をアテンション メカニズムに組み込み、マルチヘッド フレームワーク内に構築します。この設定により、GAAM は任意の確率分布を共同で表現できるようになり、必要に応じて機能の重要性を継続的に調整できるようになります。

この研究では、モデルの解釈可能性を高めるために重要度係数 (IF) も導入されました。 GAAM (新しい確率的注意フレームワーク) と GAT は、音声、テキスト、視覚的モダリティにわたる情報のコンパイルを容易にするために提案されています。特徴空間内の主要要素を識別することにより、モデルのパフォーマンスの点で最先端の注意技術を上回ります。

この論文は、ジェームズ・シルバーラッド・ブラウン人工知能センター、カーネギーメロン大学、スタンフォード大学、アマゾンによって発表されました。

<<:  Big Vsが推奨するAI論文の引用数は倍増するでしょうか?過去5年間の2人のTwitterブロガーのツイートの影響が明らかに

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

GPT-4Vはキーボードとマウスを使ってインターネットを閲覧することを学習し、人間は投稿したりゲームをしたりしているのを観察した。

ついに、GPT-4V がコンピューターを自動的に操作することを学習する日が来ました。マウスとキーボー...

...

農業革命:農業ロボットの台頭

近年、農業ロボットの登場により農業業界は大きな変化を遂げています。これらの最先端の機械は、作物の栽培...

ChatGPTに勝つ? OpenChat が 105.7% のパフォーマンスでスタンフォード AlpacaEval オープンソース リストのトップに

一夜にして、新しいオープンソースモデル「OpenLLM」がChatGPTを打ち負かしたというニュース...

ウクライナ、写真を通じて殺害されたロシア兵の家族を発見?顔認識が初めて軍事紛争で大規模に使用され、大きな論争を巻き起こしている

報道によると、ウクライナが使用している顔データベースは、米国に本社を置くテクノロジー企業の「Clea...

銀行業務における人工知能と機械学習の利用拡大

[[432637]]銀行ガバナンスリーダーシップネットワーク(BGLN)は最近、銀行が人工知能(AI...

Musk xAI初の研究成果公開!創立メンバーのヤン・ゲとヤオクラスの卒業生が共同で創設した

マスク氏のxAI、初の公開研究成果がここに!共著者の一人は、xAI の創設メンバーであり Shing...

トランスフォーマーの簡易版がここにあります、ネットユーザー:今年の論文

Transformer アーキテクチャは、ディープラーニング分野における最近の多くの成功の原動力であ...

効率的な多次元空間ポイントインデックスアルゴリズム - Geohash と Google S2

[[201793]]導入毎晩残業して家に帰るときは、Didiやシェア自転車を使うこともあります。ア...

...

...

未来を決定づけるトップ10の人工知能技術

人工知能 (AI) は単なるテクノロジーの流行語ではありません。私たちの生活や仕事のやり方を急速に変...

インテリジェント チャットボットを自分で開発するための完全ガイド (完全なソース コード付き)

1. はじめに人工知能の時代において、独自のインテリジェントな質問応答ロボットを開発することは、一...

陳丹奇と清華大学特別賞受賞学生が新たな成果を発表:Google BERTが提案したトレーニングルールを破る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

政府データ保護におけるAIの役割

1. 背景米国政府機関は機密データを保護し、潜在的な脅威に対応する任務を負っています。現在、リモート...