ジェスチャーをすると、AIが絵文字を認識し、ブラウザ上で動作する：オープンソース

ジェスチャーをすると、AIが絵文字を認識し、ブラウザ上で動作する：オープンソース

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

優れたジェスチャー認識 AIになるには何が必要ですか?

姿勢を絶えず変えて、リアルタイムで絵文字を出力できるのはかなりクールです。

それはガード（間違い）で、「スタートレック」のバルカン人の敬礼です。これは一般的には使用されず、実行するのが困難な場合もあります。

それは幸運を意味し、人々は通常両手で比較します。しかし、それは人間にとって普遍的なジェスチャーではありません。

それでも、AIはそれを巧みに識別しました。さらに、ブラウザ上でもほとんど遅延なく動作します。

AI の父親は Nick Bourdakos (略して「ニック」) という名の IBM のプログラマーです。

△ 666

Nick は、リアルタイム認識を簡単にするTensorFlow.jsを使用しています。

彼はそのアルゴリズムをオープンソースにして、誰でも試せるようにした。

たった30分

Nick 氏によると、このモデルは非常にシンプルで、 SSD-MobileNetだそうです。

MobileNet は分類用、SSD はターゲット検出用であり、これらを併用することも一般的な方法です。

彼は IBM クラウドの GPU、無料の k80を使用してトレーニングを行い、トレーニングの完了にはわずか 30 分しかかかりませんでした。

トレーニングを開始する前に、まずデータを準備する必要があります。AI はラベル付けされたジェスチャマップをフィードします。

準備ができたので、モデルをインストールしましょう。

 1 $ npm install -g クラウドアノテーション

その後、トレーニングを開始できます。

   1 $カクリ
2 ┌──────────────────────────────┐
 3 │ (C)loud (A)nnotations (CLI) │
 4 │ バージョン1.0 . 12 │
 5 └──────────────────────────────┘
 6  
 7使用法: cacli <コマンド>
 8  
 9ここで、<command> は次のいずれかです。
 10 init 対話的にconfig.yamlファイルを作成する
11トレーニング トレーニングランを開始する
12ログ トレーニング実行のログを監視する
13進捗状況 トレーニングランの進捗状況を監視する
14リスト すべてのトレーニング実行をリストする
15ダウンロード トレーニング済みモデルをダウンロード
16  
 17cacli <cmd> -h <cmd> のクイックヘルプ

もちろん、IBM Cloud や GPU を使用する必要はありません。 CPUを使用して AI を調整することもできますが、おそらく数時間かかります。

トレーニングが完了したら、ブラウザで実行します。 GitHub プロジェクトには、TensorFlow.js モデルに変換するためのスクリプトが付属しています。

React アプリにモデルを追加します。

nmp startと入力し、ブラウザでhttp://localhost:3000を開きます。

やった、これで画面に向かって指を振ると AI が理解するようになりました:

もちろん、この賢い AI は指を認識する以上のことができます。

飲む

それはすべて、AI に入力するためにどのようなデータを使用するかによって決まります。

かつてニックは、AI がソーダを区別する能力を訓練するのを手伝いました。

質問 1 : スプライトのボトルとカナダドライのボトルはどちらも緑色です。

位置が変わっても、ボトルが横向きになっても、AIは混乱しません。見てみましょう:

質問 2 : 難易度を上げてください。どちらのボトルもマウンテンデューで、1 本は通常タイプ、もう 1 本は低糖タイプです。

AIはそれでもためらうことなく違いをはっきりと見分けることができます。

彼はジェスチャーとソーダの区別が得意です。

そこで質問ですが、 AI に何を認識させたいのでしょうか?

考えがまとまったら、調整を始めましょう。コードは次のとおりです。

https://github.com/cloud-annotations/training/

PS 何人かの友人はすでにこれをうまくテストし、簡単だと言っています。

△認識結果が絵文字で表示されるともっと良い

<<: マイクロソフトリサーチアジアと教育省が協力し、AI産業と教育の統合に向けた双方にメリットのあるエコシステムの構築に取り組んでいます。

>>: 非常に便利な無料データマイニングツール 19 個のコレクション!

Google Bard が中国語をサポートするようになりました!レベル10をクリアして、ミームを理解し、無料で試してみましょう

Google Bard が中国語をサポートするようになりました!レベル10をクリアして、ミームを理解し、無料で試してみましょう

ブログ

人工知能が製造業に与える4つの影響

人工知能が製造業に与える4つの影響

ブログ

ブログ

比較分析に基づく人工知能技術の革新の道筋に関する研究

比較分析に基づく人工知能技術の革新の道筋に関する研究

ブログ

KuaishouとNVIDIAが提携し、業界最先端のGPUコンピューティングインフラストラクチャを展開

KuaishouとNVIDIAが提携し、業界最先端のGPUコンピューティングインフラストラクチャを展開

ブログ

企業がAIアプリケーションの成功を測定する方法

企業がAIアプリケーションの成功を測定する方法

ブログ

ハードコア科学: たった一文で、話題の「ニューラルネットワーク」とは何なのか説明できますか?

ハードコア科学: たった一文で、話題の「ニューラルネットワーク」とは何なのか説明できますか?

ブログ

IoTドローンが都市を消毒する方法

IoTドローンが都市を消毒する方法

ブログ

ブログ

自動運転のための不確実性を考慮した動作計画：強化学習ベースのアプローチ

自動運転のための不確実性を考慮した動作計画：強化学習ベースのアプローチ

ブログ

推薦する

ディープニューラルネットワークはディープフェイクを検出できる

開発者がディープフェイクのパンドラの箱を開けたことで、本物と区別がつかないほどリアルな写真を偽造する...

人工知能によって破壊される可能性のある7つの業界

[[417720]]人工知能は最先端の技術から人々の日常生活に組み込まれる技術へと急速に進化していま...

不妊治療の新たな夜明け：AI

世界初の試験管ベビーは1978年に英国で誕生した。それ以来、人工生殖技術は継続的に改良されてきました...

...

...

AIがPythonの記述を手助けし、インストールはたった5ステップで完了し、自由に調整できます。

[[269874]]この記事はAI新メディアQuantum Bit（公開アカウントID：QbitA...

...

...

速報です！李菲菲の一番弟子カルパシーが辞任、テスラの自動運転は危機に瀕しているのか？

たった今、テスラはまた別の技術専門家を失いました！テスラAIのシニアディレクターであり、自動運転ビジ...

盲目的に大規模モデルを追求して計算能力を積み上げないでください。シュム、カオ・イン、マー・イーは、AIを理解するための2つの基本原則、シンプルさと自己一貫性を提案した。

過去2年間、「優れた計算能力を活用して奇跡を起こす」大規模モデルは、人工知能分野のほとんどの研究者の...

AIが伝統的な製造業のデジタル進化を促し、国内のスマート工場は活力に満ち溢れている

モノのインターネット、ビッグデータ、人工知能などの最先端技術と伝統的な製造業の統合はますます深まり、...

PyTorch でシンプルな分類器を実装する

[[328922]]私自身の PyTorch の学習過程を思い出すと、最初はいろいろな情報を見つけ、...

AIとクラウドワークロードがデータセンターの需要を牽引

JLLの新しいレポートでは、人工知能とエッジコンピューティングの採用が増加するにつれて、データセンタ...

...

機械学習を学ぶ必要がない5つの理由

機械学習を学び始めるべきだと言うインフルエンサーが増えています。彼らの言うことを聞くべきでしょうか？...