Google AI の 7 つの「型破りな」遊び方。どれも一日中遊べる

AI は真面目な仕事しかできないなんて誰が言ったのでしょうか?

Google は最近、顔を見ながら生計を立てるのを手伝ったり、歌うように話させたりといった変わったタスクを実行できる面白い AI をいくつかリリースしました。

これらは、Google AI を操作する 7 つの「型破りな」方法です。

一日中遊べますよ〜

ゲーム1: ダンスしながらピアノを弾く

普通の人がピアノを弾くときは、ピアノの前に座って鍵盤を押したり、ギターやアコーディオンを演奏姿勢で持って演奏したりします。

しかし、Google の「Body Synth」というプロジェクトは違います。このプロジェクトでは、コンピューターの前に座り、手を鍵盤として、足を弦として使い、踊ったり歌ったりして自分自身を演奏することができます。

まずは効果を見てみましょう。Quantum Bitがお届けするGoogle AI楽器ソロ「Chords」をお楽しみください。

原理は非常に簡単です。カメラをオンにすると、人間の姿勢認識が自動的に起動します。手足と頭は異なるトーンに対応します。

体の特定の部分の動きを検知すると、それに応じた音を発することができます。

私の言葉を繰り返してください。

1~2~3~4~5~6~7~

嬉しいです〜

デフォルトの C メジャーキーを例にとると、頭を振ると「so」という音が出ます。

左手を動かすとミになります。

右手を動かしてやってみてください。

右足を動かすとベースの音が聞こえます。

左足を動かすとベースになります。

カメラに背を向けた状態でも使用可能です。

さらに、トーンのトーンも設定できます。

または、音声コントロールスイッチをオンにすることもできます。デフォルトの音色はギターです。「ストリングス」と叫ぶとオーケストラになります。「ドラムス」と叫ぶとドラムビートになります。

ゲームプレイ 2-5: 外見で生計を立てる

「手足でピアノを弾く」だけでなく、「顔で生計を立てる」こともできます。

もちろん、本当に顔だけで生計を立てられるというわけではありませんが、顔を使って一連の作業を完了させることはできます（生計を立てること）。

たとえば、サウンドキャンバスツールを使用すると、顔を使って描いたり書いたりすることができます。

Sound Canvas を開いた後、デフォルト設定ではキーボードとマウスを使用して描画します。

これはあまりにも低レベルであり、Windows 98 に付属するペイントプログラムのレベルに近いです。

したがって、最初にトラッキングを変更し、ボディを選択してから、カメラを開いて顔で描画する必要があります。

この時、顔の向きが画面上の筆の位置になります。頭をゆっくり動かし、少し回転させながら画面に線を描いていきます。

たとえば、「量子ビット」という 3 つの単語を書きます。

人間は顔の用途を発見すると、新しい道具を開発し始めました。

書くことに加えて、ピアノを弾くこともできます。

キーボードはピアノを演奏するのに使われます。操作は顔で文字を書くのと似ています。顔の向きが画面上の小さな点の位置になります。小さな点を操作して画面上のキーを押すと、対応する音が鳴ります。

前回の「ダンスとピアノ演奏」と同様に、キーボードの音色やトーンも選択できます。5 音だけでは足りない場合は、最大 15 のキーに設定できます。2 オクターブあれば、多くの音楽を演奏するのに十分です。

もちろん、2オクターブだとキーが狭かったり、フェイスが大きすぎて操作しづらいので、マウス操作に戻したりもできますが…

慣れてきたら、Clarion Lite もプレイできます。これは、顔でピアノを弾くというプロジェクトですが、いくつかの異なるトリックがあります。

画面上の各色の領域はこの音色に対応しており、小さな点を顔でその上に置き、頭を振ることでトリガーされ、音楽が表示されます。

しかし、音楽を演奏するには、ある程度の音楽の知識が必要です。初心者でもすぐにできる操作はあるのでしょうか？

問題ありません。Google は、「顔を DJ として使う」という Sampler プロジェクトも用意しています。このプロジェクトには、ドラム、ギター、ホルン、ハープシコードの 4 つの短い音楽が含まれています。顔を使って小さな点をコントロールし、その上に動かすだけで、自動的に再生が始まります。

さて、次回の公演はQuantum位による「顔で生計を立てる音楽家」をお楽しみ下さい。

（途中に聞き覚えのある曲がありますので、聞いたことがある方はコメント欄をご覧ください）

ゲームプレイ6: 歌うのと同じように話す

私の同僚に雷軍のファンがいますが、Miのファンではありません。彼は単にビリビリの鬼獣セクションで有名な歌手、雷不思のファンです。

簡単に言えば、Guichu はチューニングを通じて文章を歌にすることです。Bilibili のユーザーは全員才能のある人ですが、一般の人にとってこの操作はまだ困難です。

このWord Synthを試してみてはいかがでしょうか〜

いくつかの単語を入力し、好みに合わせてメロディーを微調整し、さまざまなサウンドとトーンの組み合わせを試して、本当に不気味なボーカルを構築してみてください。

試してみましたが、再生できるビデオは 3 つだけだったので、GIF ファイルとオーディオファイルを使用しました。

QuantumBits の RUOK 00:00 00:08

このプロジェクトの背後では、Google Cloud のテキスト読み上げ API が主に使用されており、DeepMind が開発した WaveNet を利用して聞こえる音を合成しています。

ゲーム7: 音で描く

これは実際には音楽を視覚化するツールです。

いわゆる音楽には、人間の声とさまざまな楽器が含まれます。マイクをオンにしてハミングしたり、内蔵サウンドを呼び出して効果を確認したりできます。

すべての入力サウンドは、ヒルベルトスコープやスペクトログラムなどのさまざまなモードで表示でき、サウンドの詳細なテクスチャとメロディの形状を表示できます。

聴覚障害のあるミュージシャンによると、このツールは、耳が聞こえないときやはっきりと聞こえないときに、より上手に歌うことを学ぶのにも役立つそうです。

真剣に暴露する

しかし、Google は、ただ 1 日遊ぶためだけのものではない、非常に多くの素晴らしい機能を考案しました。

上記はすべて、インターネットと AI テクノロジーを通じて、より多くの人が創造性を発揮できるようにする方法を模索することを目的とした Creatability というプロジェクトの一環です。

ニューヨーク大学のクレア・カーニー・ボルペは、アートセラピストとしての仕事を通じて、あらゆる階層の人々と出会ってきましたが、創造のプロセスに参加することで誰もが恩恵を受けることができると信じています。

たとえば、絵を描いたり音楽を作ったりすることで、自閉症の中学生を支援したり、さまざまな技術的手段を活用して、目の不自由な人がディナーパーティーの計画やデザインを完成するためのツールを構築したりしています。

彼女は同じ目的を念頭に、Google チームやアクセシビリティコミュニティのパートナーと協力して Creatability プロジェクトを作成しました。

このプロジェクトの助けを借りれば、聴覚障害があっても音楽制作に参加することができます。身体の不自由な方でも、指や頭を画面に向かって動かすことで、音楽の魅力を感じることができます。

Google のプロモーションビデオでは、身体に障害のある人たちの笑顔が本当に輝いています。

このプロジェクトを支える AI の力は主に、機械学習技術をブラウザに実装できるようにする Google の TensorFlow.js などのツールです。

教師、学生、研究者、アーティストなど、どなたでも参加できます。実際に使ってみることも、このテクノロジーを使って独自に作成したプロジェクトを開発して提出することもできます。

もちろん、それにアクセスするには科学的な方法が必要であることが前提です〜

<<: 生死に関わる問題：病院のICU病棟で人工知能は何ができるのか？

>>: 人工知能はアプリのない世界をもたらすのでしょうか？

ブログ

Google AI の 7 つの「型破りな」遊び方。どれも一日中遊べる

Amazon SageMaker について

第9回Haomo AI DAYが予定通り開催。顧偉豪氏がビッグモデルで自動車インテリジェンスの技術ルートを再構築する新たなソリューションを提案

今後5年間で働くのに適した5つの職種

ガートナー：今後2年間で、テクノロジープロバイダーの3分の1がAIに100万ドル以上を投資する

AIを使ってコーデックの退化を打破するクアルコムの最新のトップカンファレンス論文には大きなアイデアが盛り込まれている

PyTorch を軽量化します。このディープラーニングフレームワークは価値があります。 GitHub 6.6k スター

Microsoft Copilot は、コードインタープリター、DALL·E 3、ChatGPT を備えた完全バージョンに進化しました。

デジタルマーケティングにおけるAI革命

推薦する

2024年のビッグデータと関連分野の予測

人工知能とインテリジェント人工知能、AIの開発はデータサポートから切り離せない

星が輝くとき - WOT グローバルテクノロジーイノベーションカンファレンス 2021 が間もなく開催されます

ブースティングとバギング: 堅牢な機械学習アルゴリズムを開発する方法

3Dマスクは顔認識を破ることができるのか？アリペイとWeChatが緊急対応

H100推理が8倍に急上昇！ NVIDIAは10以上のモデルをサポートするオープンソースのTensorRT-LLMを正式に発表した。

作業効率を大幅に向上できるAIツール

ついにデータサイエンス、機械学習、人工知能を説明する人が現れる

産業用ロボットの限界

グラフニューラルネットワークは急成長を遂げており、最新の進歩はここにあります

機械学習でよく使われる損失関数についてどれくらい知っていますか?