古典作品「星の王子さま」には、蛇が象を飲み込む絵を描いた少年が、大人たちにその絵を見せて怖いかと尋ねる場面があります。しかし、大人たちは皆、「帽子がそんなに怖いの?」と言いました。 しかし、想像力豊かな子供たちにとって、これは帽子ではなく、象を消化しているニシキヘビです。 読者の誰もがこの作品に感動したと思います。これが芸術創造の真髄です。子どもたちにとって、たとえ数本のシンプルな線であっても、最も純粋で愛らしい想像力を表現します。 たとえば、いくつかの簡単な落書きで SF の奇妙な世界を表現できないのはなぜでしょうか? AI の「ブラシ」の助けを借りれば、インスピレーションから作品の完成までわずか数秒しかかかりません。 たとえば、何気なく描いた波線も美しいメロディーになることがあります。 これらの魔法のような「AIマジック」はすべて、「Tencent AIプログラミングファーストレッスン」と呼ばれる小さなプログラムから生まれています。 テンセント AI プログラミング 初級レッスン テンセント AI プログラミング レッスン 1 ミニプログラム 子どもたちの「AI 初級講座」2022年以降、生成AIの人気は継続しており、安定拡散、GPT-4、PaLM 2に代表される大規模モデルが人気のキーワードとなり、テキスト生成、画像生成、アニメーション制作、動画生成などの分野で実用的な製品を生み出し、人々のライフスタイルを大きく変えました。 将来はAIがさらなる価値を生み出す時代になることは想像に難くありません。この時代は、若者の AI 認知と計算思考に新たな要件を提示していますが、これらの「ハイエンド」テクノロジーは、まだ子供たちには遠いものです。 若者の科学技術への興味を高め、AI分野の発展に対する理解を深めるためには、最先端の技術を分かりやすく伝えるにはどうすればよいのでしょうか。 テンセントと中国宋慶齢基金会は、脚本化された「遊びながら学ぶ」アプローチを通じて、「AIプログラミング初級講座」という公益プロジェクトを共同で立ち上げ、基礎知識のない全国の若者にAIとプログラミングの啓蒙ミニプログラムプラットフォームを提供しました。オンラインコンテンツの最初のバッチは、中国の航空宇宙と未来の交通という国家の2つの主要な科学技術のトピックと、独創的で興味深い探求ストーリーを組み合わせ、若者が1時間で計算思考、AIの基本原理、人間とコンピューターのコラボレーションの概念などを予備的に理解できるようにします。 新学期の初めに、「テンセントAIプログラミング初級レッスン」が正式に開始されました。テンセントミュージック天琴実験室の技術サポートを受けて、ミニプログラムは「AI創作」セクションを立ち上げました。このセクションは「AI作曲」と「AI絵画」の2つの機能に分かれており、子供たちに最新のAI技術の魅力を体験してもらいたいと考えています。 今年10歳になるJingyiさん(仮名)は、「テンセントAIプログラミング初級レッスン」の最初の「ユーザー」の一人です。数日間試してみて、彼女が最も興味を持ったのは「AI作成」機能の実装原理でした。 「なぜ異なるラインで異なる曲が作れるのか?」 「曲線はどうやって音楽になるのか?」 「AIはどうやって私が描きたいものを推測したのか?」 これらの質問は確かに興味深いですが、この宝物アプリの背後にはどのような AI テクノロジーがあるのでしょうか?次に見てみましょう。 公、商、焦、鄭、禹の一族から始まる魔法の旅AIによる音楽生成については、ほとんどの人がよく知っています。 Googleは今年1月、テキストや画像から高忠実度の音楽を生成できる「MusicLM」をリリースした。その後、Meta はさまざまなオーディオを生成できる PyTorch ライブラリ「AudioCraft」をオープンソース化しました。ユーザーが入力したテキストに基づいて、高品質で忠実度の高いオーディオを生成できます。メロディックな音楽だけでなく、選択した楽器を生成することもできます。この一連の方法には、テキスト/画像から直接オーディオを生成するという特徴が 1 つあります。 「AI作曲」機能の開発中、天琴研究室はまず上記の方法を試し、評価しました。研究者らは、テキストからオーディオへの既存の大規模な音楽生成モデルは確かに大きな進歩を遂げているが、大規模な商用利用の前に解決しなければならない課題がまだあることを発見した。それは、サンプリング レートが低いという問題である。 「音楽の標準的なサンプリングレートは44.1kHzまたは48kHzで、音声のサンプリングレートは16kHzです。現在、ほとんどの方法では24kHzまたは32kHzの音楽しか生成できず、音質を改善する必要がある」と天琴研究室のAI作曲チームの技術者であるZe Wen氏は述べた。 「AI作曲」機能の開発を担当するQQ Musicのチームメンバーは、バンドのギタリストや音楽プロデューサーなど、全員が音楽制作の経験者です。これらの経験により、生成される音楽の品質に対する要求が高まり、重要なインスピレーションももたらされました。彼らは突然、音楽の一貫性と高品質を確保するために、人間の創造プロセスに非常によく似た生成方法を採用できるのではないかと考えました。 最終的に、彼らは「象徴的な音楽生成」技術の道を採用することを決定しました。 「自然言語処理の観点から見ると、楽譜は一種の言語とみなすことができます。違いは、楽譜に含まれる情報密度がテキストよりも高いことです。メロディー、ビート、楽器、ジャンルなども含まれています。」と天琴研究室のAI作曲技術者であるZhexu氏は述べた。 最前線の製品チームとのコミュニケーションを経て、技術チームも重要な洞察を得ました。それは、一般的な「ハミングして曲を識別する」ことと比較して、 「線を描いて音楽を作曲する」ことは、10代の若者にとってより斬新な生成方法であり、AIへの興味を喚起できるということです。 このコンセプトに基づき、技術チームは「曲線」を入力として使い、楽譜をオーディオに変換して出力する、クリエイティブな「AI作曲」機能を開発しました。具体的には:
この時点で、完全な楽曲が完成します。 天琴研究室のAI作曲部門責任者イーサン氏は、象徴的な音楽生成技術の価値は、娯楽や教育向けのCエンド製品をはるかに超えていると述べた。さらに期待できるのは、それがミュージシャンにとって効率的な創作ツールになることだ。テキストから音声への直接変換は「ブラックボックス」のようなものであり、「記号による音楽生成」は完全な音楽理論システムによってサポートされています。生成された結果は編集可能で、ミュージシャンは生成された楽譜で二次創作を行うことができます。 技術実装の価値に対するこの考慮は、天琴研究所の技術探求において一貫しています。テンセントミュージック傘下の最初のオーディオおよびビデオラボとして、同社は AI の革新的なテクノロジーを自社製品に真に統合し、ユーザーに高度にパーソナライズされ、差別化された音楽エンターテインメント体験を提供したいと考えています。 現在、天琴研究室のAI音楽生成における技術的蓄積は、作曲、ミキシング、編曲、作詞、歌唱など、音楽創作のあらゆる側面をカバーしています。 「作曲、ミキシング、アレンジ」機能を提供するワンストップ音楽生成技術「Qinyue」や、 AIアシスト歌詞プラットフォーム「MiCi」などを展開。さらに、テンセントミュージックのAIコンパニオン「小琴」と「小天」という2つのバーチャルヒューマン製品が、歌のインテリジェントな歌唱に使用されています。 例えば、今回の『AIプログラミング初級』のテーマソング「魔法文字」は、テンセント、QQミュージック、テンセントミュージック天琴実験室が共同で制作したもので、作曲から歌唱までの全工程をAIが完成させた。その中で、「Qinle」のワンストップ音楽生成技術が作曲、ミキシング、アレンジを完成させ、「Mi Ci」が面白くて魔法のような歌詞の作成に協力し、仮想人物「Xiao Qin」が最終的な解釈を担当しました。 AI時代では誰もが「魔法の筆馬良」音楽の意味と同様に、絵画も感情を表現する方法です。 現在、テキストプロンプトを通じて画像を生成する Stable Diffusion や Midjourney など、絵画生成における AI の応用は比較的成熟しています。しかし、それを使用したことがある人なら誰でも、プロンプトをどのように設計するかも大きな難しさであり、生成された結果が必ずしも「人々が望むもの」ではない可能性があることを知っています。 問題は、AI が子供たちの創造的なアイデアを捉えることができるかどうかです。 天琴ラボのAIペイントチームのメンバーは、「AIペイント」機能のユーザーグループである6〜12歳の子供たちにとって、テキスト形式で画像を生成するには依然として一定の限界があり、特にテキストのみを使用して生成の詳細を制御することは難しく、画像に詳細な編集を加えることは不可能であることを認識しました。 そこで彼らは、想像力と創造力をもっと発揮できる方法、つまり線画を絵画に変える方法に目を向けました。 「AIプログラミング初級」の「AIペインティング」では、非常に複雑なプロンプトを入力する必要がある従来の「文勝図」とは異なり、ユーザーはいくつかの簡単なストロークを描くだけで「スケッチ」を「素晴らしい作品」に変えることができます。 このアプローチでは、拡散モデルの強力な生成機能だけでなく、正確な条件付き制御スキームも必要です。 「AIペインティング」機能が短期間で成功裏にリリースできたのは、主に天琴研究所の画像生成分野における技術的蓄積のおかげです。 天琴実験室は2022年から生成AI技術を展開し、ライブ放送ギフト、歌詞ポスター、歌の背景画像、AIGCプレーヤー、歌のカバー画像など、さまざまな機能をQQミュージックとKugouに適用し始めました。生成される画像のスタイル/コンテンツを正確に制御することは、常に Tianqin Lab の研究の焦点でした。 例えば、「AIソングカバー」はAI技術と音楽理解の融合による大きな成果であり、QQミュージックライブラリにある大量の白紙のカバー曲を自動生成します。ミュージシャンや作品への注目度を高めるだけでなく、さらに重要なことに、新作の制作コストを削減するオプションを提供します。 さらに、天琴ラボはAI音楽ビジュアル生成技術MUSE(Music Envision)も発表した。その「歌から画像へ」機能はそのハイライトの一つで、ユーザーが曲や詩を選択すると、AI技術を使って歌詞ポスターや歌詞アニメーションビデオなどのビジュアルコンテンツを含め、曲の雰囲気を視覚化することができる。 この「芸術的構想」と「具体性」の変容は、この「AI絵画」にも反映されています。 「子どもの絵はもっとフリーハンドかもしれません。この場合、私たちは特に子どもの落書きと最終製品をマッチングトレーニングに使用し、モデルの関連機能をカスタマイズして、最終的な生成効果を向上させます」と、天琴ラボのAI絵画部門責任者ベン氏は語った。 「私たちは、正確な描写と物体認識のバランスを見つけました。一方では、スケッチの線にガイド役を持たせ、他方では、モデルに一定の自由度を与えながら、シンプルな線で内容自体を識別します。」 これらの成果と経験は、テンセントミュージックの社内業務に活用されるだけでなく、業界全体に力を与えています。 多くの AI アプリケーションは多数のユーザーを対象としているため、大規模なモデルでは推論コストが非常に高くなります。この問題に対処するため、Tianqin Lab はMUSE Light 大規模モデル推論加速エンジンを立ち上げ、lyraSD、lyraChatGLM、lyraBELLE という 3 つのオープンソース大規模モデルの加速バージョンを HuggingFace で公開しました。実用的な結果は業界をリードするものであり、技術従事者や科学研究者が B サイドで時間とコストを節約するのに役立ちます。 「AIプログラミング初級レッスン」の研究開発実践において、 MUSE Lightは推論コストを90%以上削減し、画像生成を10倍加速し、ユーザーエクスペリエンスを効果的に向上させました。 さらに、研究チームは「スケッチから画像を生成する技術は良い結果を達成したが、他の人が同じことを試したい場合、より適切なモデルを見つけるために初期段階で多くの時間を要するだろう」と指摘した。 この悩みを解決するために、天琴ラボはこれまでの技術実践経験をAI図面作成プラットフォーム「MUSE UI」に集約しました。このプラットフォームは、MUSE Light大規模モデル推論加速などの業界をリードする数々の革新的技術を統合し、「ワンクリック描画」「モデルスクエア」「画像検索モデル」「動的画像生成」「ワンクリックカスタマイズ描画加速サービス」「マルチシーン描画アプリケーション」などの多数の機能を提供します。 MUSE UI を使用すると、デザイナー、イラストレーター、その他の専門家は時間を節約し、効率を最大化できます。 MUSE UI プラットフォームは、社内のビジネス慣行でテストされた後、近い将来に業界全体に公開される予定です。 すべてがAIによって生成できるようになるとき過去 2 年間、生成 AI に関連する技術革新とアプリケーションは常にホットな話題となってきました。 AIが生成した音楽や映像作品の芸術的価値は、コンテンツ制作の観点から評価すると依然として議論の余地がある。しかし、私たちが期待できることは、技術の継続的な発展により、現段階の多くの問題が克服され、AI 生成コンテンツのレベルが必然的に飛躍的に向上するということです。 生産性向上の観点から見ると、生成AIはコンテンツ制作の敷居を継続的に下げ、効率を継続的に向上させており、これはあらゆる分野にとって大きな変化です。たとえば、AI を使用してマーケティング コピーを生成すると、手作業で作成する場合に比べてコストがわずか数十分の 1 に抑えられ、コンテンツもより多様になります。 確かなのは、将来の社会生産分業では人間と機械の協働モデルがより重視され、人々の計算思考能力の育成もより重要になるということです。私たちはこの変化に適応し、新しい時代における自らの立場を見つけ、テクノロジーがもたらす美しさをより深く体験しなければなりません。 このような状況において、科学教育の概念も進化する必要があります。今日の若者にとって、AI の基盤となる技術にあまり注意を払う必要はなく、コードを 1 行ずつ書く必要もありません。それよりも重要なのは、まず「促す」方法を学ぶことです。 「AIプログラミングのはじめてのレッスン」の若いユーザーにとって、これは「AIのはじめてのレッスン」であり、インテリジェント時代の新しい人材になるための出発点となるかもしれません。 |
>>: Bard と ChatGPT: 2 つの言語モデルの頂点対決
Companies and Markets の評価レポートでは、世界の音声認識市場は今後さらに多様...
[[186484]]昨年から半年以上機械学習を勉強してきましたが、そろそろ総括したいと思います。これ...
人工知能 (AI)、ロボット工学、自動化の融合により、生産性、効率性、革新の新しい時代が到来していま...
モデル融合は、特に判別モデルにおいて、これまで頻繁に使用されてきました。これは、常に着実に改善できる...
写真を撮り、テキストコマンドを入力すると、携帯電話が自動的に写真の編集を開始しますか?この魔法のよう...
建設業界は長い間、伝統的な手作業のプロセスで知られてきましたが、テクノロジーの進歩により急速に変化し...
以前から大きく騒がれ、メディアもその信憑性を証明する手がかりを繰り返し探していた「テスラの自社開発A...
大型模型の分野におけるトランスフォーマーの地位は揺るぎない。しかし、モデルのサイズが拡大し、処理する...
世界で最も権威のあるIT市場調査・コンサルティング会社であるガートナーは8月29日、新技術の2019...
AI の急速な発展は多くの人々の学習意欲をかき立てていますが、初心者にとっては大量の手動プログラミン...
経路探索アルゴリズムは、コンピュータグラフィックスや人工知能の分野で一般的に使用されるアルゴリズムの...
なぜ機械学習が必要なのでしょうか?機械学習は、人間が直接プログラムできない複雑な問題を解決できるため...