OpenAIのCLIPは「平易な言葉」を使った正確な画像検索で皆を驚かせた

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

無関係な画像検索結果を心配する必要はもうありません。OpenAIの最新技術CLIPによるこの正確な画像検索を試してみてください。

たった 1 つの「平易な言葉」による説明で、必要なイメージを伝えることができます。

たとえば、次のように入力します。

壁に書かれた愛という言葉

次の結果が得られます。

かなり正確だと言えます！これは今日 Reddit で話題になっているプロジェクトです。

このプロジェクトでは、OpenAIが最近よくニュースで取り上げている、再ランキングを担当するモデルであるDALL·EのコアモジュールであるCLIPを使用しています。

このプロジェクトは Google Colab Notebook を使用しており、オンラインで無料で、200 万枚の画像のデータセットが含まれており、最も重要な点として、非常に正確です。

これにネットユーザーからは「すごい」という声が上がった。

わずか数ステップで、「方言」を使ってオンラインで画像を正確に検索できます。

このプロジェクトが非常に人気がある重要な理由の 1 つは、操作が簡単なことです。

まず最初に、Colab Notebook でプロジェクトのアドレス (記事の最後にあるリンクを参照) をクリックし、アカウントにログインします。

環境設定、パッケージやライブラリの呼び出しに関しては、このプロジェクトではすでに非常に配慮されています。セルの左側にある小さな三角形を順番にクリックして、操作が完了するのを待つだけです。

最後に、次のコードを含むセルに到達します。

search_query = “雪の中で遊ぶ2匹の犬”

このセルをクリックして実行すると、検索画像の結果を取得できます。例:

もちろん、このプログラムは人をとてもよく理解しているようです。「コードがスムーズに実行されたときの感情」を入力すると、次のようになります。

プログラムがようやく動作したときの気持ち

得られた結果は、普通の人が想像するものと一致するはずです。

CLIP 画像検索がなぜこれほど正確なのでしょうか?

OpenAIが最近立ち上げたDALL·Eは、主にテキストの説明に従って対応する画像を生成することができます。

私たちに提示された最終的な作品は、実際には生成された多数の写真の一部です。

プロセスの途中で、コーチ選択のためのランキングと採点のプロセスが実際に行われます。

タスクのこの部分はCLIPによって完了します。

理解度が高ければ高いほど、また作品にマッチすればするほど、得点が高くなり、順位も上がります。

この構造は、生成された敵対的テキストを使用して画像を合成するGAN に少し似ています。

ただし、GAN を使用して画像の解像度を拡大し、画像とテキストの特徴を一致させるなどの方法と比較して、CLIP は出力を直接ランク付けすることを選択します。

研究者によると、CLIP ネットワークの最大の重要性は、視覚タスクにおけるディープラーニングの 2 つの最大の問題を軽減することだ。

まず、ディープラーニングに必要なデータ注釈の量が削減されます。

ImageNet 上の 1,400 万枚の画像を手動でテキストで記述するのに比べて、CLIP はインターネット上の既存の「テキスト記述画像」データから直接学習します。

さらに、CLIP は「マルチタスク」が可能で、さまざまなデータセット (これまでに見たことのないデータセットを含む) で優れたパフォーマンスを発揮します。

しかし、これまでの視覚ニューラルネットワークのほとんどは、トレーニングデータセットでのみ良好なパフォーマンスを発揮できました。

たとえば、ResNet101と比較すると、CLIPはさまざまなデータセットで優れた検出精度を発揮しますが、ResNet101はImageNetを除いて検出精度があまり良くありません。

具体的には、CLIP はゼロショット学習、自然言語理解、マルチモーダル学習などの技術を使用して画像理解を完了します。

たとえば、シマウマを表現するには、「馬の輪郭 + トラの毛皮 + パンダの白黒」を使うことができます。このようにして、ネットワークはこれまで見たことのないデータから「シマウマ」の画像を見つけることができます。

最後に、CLIP はテキストと画像の理解を組み合わせて、データセット内のどの画像がどのテキストと最もよく組み合わせられるかを予測します。

ネットユーザー：ロボット（ボット）はあまり幸せではないかもしれない

CLIP が平易な言葉で画像をいかにうまく検索できるかに驚嘆しながら、Reddit ユーザーはさらに興味深い検索結果も発見しました。

テキスト説明のコードセクションに次のように入力します。

今のあなたの気持ちを最もよく表す画像は何ですか?

私たち人間の目には、この文章は AI に疑問を投げかける口調であるはずで、その結果は次のようになります。

こんなのもあります:

さて、AI赤ちゃんは「遊びすぎ」でちょっと不機嫌になってしまったようです。

参考リンク:
https://www.reddit.com/r/MachineLearning/comments/l52qe6/p_use_natural_language_queries_to_search_2/

プロジェクトアドレス:
https://colab.research.google.com/github/haltakov/natural-language-image-search/blob/main/colab/unsplash-image-search.ipynb#scrollTo=OswqrzaeMy1J

<<: マイア：人間を模倣するが、人間を超えることはないチェスAI

>>: 現在、人工知能技術はどのような分野に応用されていますか？

中国語と英語で最大のAIモデルの世界記録が樹立され、大規模モデル競争の新たなステージが到来

OpenAIのCLIPは「平易な言葉」を使った正確な画像検索で皆を驚かせた

わずか数ステップで、「方言」を使ってオンラインで画像を正確に検索できます。

CLIP 画像検索がなぜこれほど正確なのでしょうか?

ネットユーザー：ロボット（ボット）はあまり幸せではないかもしれない

中国語と英語で最大のAIモデルの世界記録が樹立され、大規模モデル競争の新たなステージが到来

ディープラーニングモデルアーキテクチャを視覚化する6つの一般的な方法の概要

チンチラの死: 十分に訓練すれば小型モデルでも大型モデルを上回る性能を発揮できる

インテリジェントビルにおける人工知能技術の応用の展望

オックスフォードの中国人が「3D-BoNet」を提案しました。これは、3D ポイントクラウドインスタンスセグメンテーションアルゴリズムよりも 10 倍高速です。

人工知能が登場して60年になります。人工知能について私たちはどんな誤解をしているのでしょうか?

マスク氏の脳コンピューターインターフェース企業はさらに4,300万ドルを調達し、臨床試験のプロモーションビデオが初めて公開された。ネットユーザー：どこで支払うのか？

機械学習の教訓: 5 つの企業が失敗を共有

毎日のアルゴリズム: 完全順列問題

企業向け人工知能アプリケーション開発ガイド

推薦する

ホテルは機械学習を使ってどのゲストが立ち上がるかを予測する

Cloudera Greater Chinaのテクニカルディレクター、Liu Lifang氏：より正確なAIにはより正確なデータが必要

オープンコードについてはどうでしょうか?大規模言語モデルの民主化は、コストの高さとリソースの集中により、ますます困難になっています。

強力な人工知能を制御できる者は、世界全体を制御することになるのでしょうか?

人工知能産業の急速な発展により、2021年以降、人工知能セキュリティの市場スペースは巨大になるでしょう。

このツールは、テンソルの形状エラーを数秒で検出し、ML モデルのトレーニングが無駄になるのを防ぐことができます。

人工知能が防犯カメラの機能を強化している

ニューラルネットワークの動作原理を1つの記事で理解する

人工知能とビッグデータを開発する際に注意すべき12のポイント

Gome のディープラーニング初体験により、ソーシャル e コマースのインテリジェント時代が幕を開けます。

ワンクリックでコード化からコード化なしに変更できますか? AIブラックテクノロジーは本当にモザイクを除去できるのか？