ここ2日間、アメリカ人女性歌手テイラー・スウィフトが中国語を話す短い動画が、さまざまなソーシャルプラットフォームで人気となっている。中には600万回以上再生されているものもあります。 ビデオの中で、テイラー・スウィフトは自信に満ちた表情で流暢で本格的な中国語を話している。初期の吹き替え映画のヒロインたちのアクセントはほとんどなく、唇の動きも原作と一致している。 画像出典: Weibo @会火 まだビデオを見ていない方のために、まずは簡単に見てみましょう。 ビデオ作成者: johnhuu は英語を教えています どうですか、魔法のようじゃないですか? テイラー・スウィフトだけでなく、レイチェル・ブロズナハン、トランプ、エマ・ワトソン、ミスター・ビーンも本格的な中国語をマスターしていることがわかります。さらに、スケッチ俳優の蔡明は土槽会議で「流暢な英語を披露した」。 著者は、ビデオ制作には、本物の音声翻訳の習得、音声の複製、唇の形の置き換えという 3 つの重要な要素があり、それぞれのステップをうまく実行する必要があると述べています。しかし、具体的にどのようなモデルが使用されたかは明らかにしなかった。 この動画が人気を博した後、新たな試みを始める人が増え、動画の背後で使用されている AI 生成ツール「HeyGen」についても知るようになりました。 Twitterユーザーの@Gorden_Sunも、テイラー・スウィフトが中国語を話している動画を作成した。今回は彼女の唇の動きが完璧で、タイミングと口の形がまさにその瞬間に一致していた。 「音質は実はかなり似ている」とコメントした人もいました。 作者によると、動画内の翻訳はHeyGenによって自動的に行われ、品質はあまり良くないかもしれないとのこと。動画をアップロードして、翻訳する言語を選択するだけでよいとのこと。 動画の字幕は作者自身が追加しており、HeyGenにはこの機能はありません。さらに、ビデオの登場人物は感情的な回復がまだ欠けています。 ただし、HeyGen は無料で試すことができますが、長い待ち時間が必要です。技術に精通している人は、音声テキスト変換の whisper、テキスト翻訳の GPT、サウンドの複製とオーディオ生成の so-vits-svc、オーディオと一致するリップシンクビデオを生成する GeneFace++ などのオープンソースの代替手段を探すこともできます。 中国語と英語の交流に加えて、海外では英語を日本語に翻訳する試みも行われており、結果も非常に良好です。同氏によると、このビデオもHeyGenを使用して作成されたという。 さらに驚くべきことに、HeyGen を使用して最大 6 つの異なる言語を話すビデオを作成した人もいます。 「HeyGenはコンテンツ制作の分野に破壊的変化をもたらすだろう」とコメントする人もいた。 それで、HeyGenの起源は何でしょうか?実は、この動画は2か月以上前に話題になっていたことが判明した。 HeyGen: Midjourneyと同じくらい優れたAIビデオジェネレーター当時、HeyGenは超リアルなデジタルヒューマンを生成しており、その制作に自ら参加したのは創設者のJoshua Xu氏でした。キャラクターの表情や動き、表情などが鮮やかに映し出されます。 HeyGen のこのビデオは大きな話題を呼んでいますが、エフェクトにはまだ欠陥があるため、誰もが改良版を期待しています。 HeyGenの創設者ジョシュア・シューのAI生成デジタルヒューマンは瞬きが多すぎる HeyGenの背後にある会社はShiyun Technologyと呼ばれ、2020年に設立されました。彼らは当初、AI デジタルヒューマン生成に専念しており、創設者の Joshua Xu 氏は Snapchat で機械学習を担当する主任エンジニアでした。 徐之尚氏はかつてブログ投稿で、2022年7月に製品が発売されてから178日後、同社のARR(年間経常収益)が100万米ドルに達したと書いた。 HeyGen は、より安価で時間を節約できるビデオ作成方法をユーザーに提供します。これにより、従来のビデオ制作における高コスト、長いサイクル、人員の煩雑さ、高い機材要件などの問題が解決されます。 |
<<: あなたの GPU は Llama 2 のような大規模なモデルを実行できますか?このオープンソースプロジェクトを試してみてください
>>: 来年のIT投資の見通しは有望です。成長率はGDPの3倍です。 CIOの75%がAIへの支出を増やす
これはおそらく、マルチラベル分類のための最も実用的なヒントです。ご存知のとおり、バイナリ分類タスクは...
AI には、CRM に関連する手動プロセスから組織を解放し、顧客エンゲージメント、販売分析情報、ソー...
著者 | 崔昊レビュー | Chonglouまとめこの記事では、大規模な言語モデルと AI ビデオ生...
【51CTO.comオリジナル記事】 [[286886]]最近、北京グローバル金融センターで北科不...
大規模なモデルの場合、ローカライズされたエンコード タスクに優れています。しかし、タスクが複数の相互...
モバイルインターネットの発展に伴い、企業の生産・運営プロセスで生成されるデータは、これまでにない爆発...
ビジネスが発展し、テクノロジーが成熟するにつれて、企業はデータの大幅な増加に直面しています。ビッグデ...
Nathan Shipley は、サンフランシスコを拠点とするテクノロジー ディレクター、クリエイテ...
写真ChatGPT は非常に人気が高まり、人間の働き方や考え方さえも変え始めています。それを十分に理...
ヒント エンジニアリング技術は、大規模な言語モデルが検索強化型生成システムで代名詞などの複雑なコア参...
マイクロソフトの共同創業者ポール・アレン氏が設立したアレンAI研究所は最近、Satlasと呼ばれる新...
貪欲アルゴリズム (または貪欲アルゴリズム) とは、問題を解決するときに、その時点で適切と思われる選...
ビデオ監視はAI導入の注目分野だが、新型コロナウイルス感染症のパンデミックにより、公衆衛生への対応を...